jasonzhangxianrong - 博客园_a56爆大奖在线娱乐

2024年3月15日

摘要：一、matlab命令行窗口检查python状态 a56爆大奖在线娱乐这里显示没有配置，然后添加python路径由于a56爆大奖在线娱乐的python是最近安装的，出现了版本兼容问题，可以参考： Versions of Python Compatible with MATLAB Products by Release - MATLAB 阅读全文

posted @ 2024-03-15 20:37 jasonzhangxianrong 阅读(37) 评论(0) 推荐(0) 编辑

2024年3月5日

动手学强化学习（八.3）：dueling-DQN

摘要：一、代码 import random import gym import numpy as np import torch import torch.nn.functional as F import matplotlib.pyplot as plt import rl_utils from tqd 阅读全文

posted @ 2024-03-05 17:21 jasonzhangxianrong 阅读(30) 评论(0) 推荐(0) 编辑

动手学强化学习（八.2）：double-DQN

摘要：一、代码 import random import gym import numpy as np import torch import torch.nn.functional as F import matplotlib.pyplot as plt import rl_utils from tqd 阅读全文

posted @ 2024-03-05 17:08 jasonzhangxianrong 阅读(33) 评论(0) 推荐(0) 编辑

动手学强化学习（八.1）：torch.gather

摘要： tensor.gather()的作用就是按照索引取对应的数据出来。之前看图解PyTorch中的torch.gather函数，那个图示看得a56爆大奖在线娱乐有点懵逼，a56爆大奖在线娱乐自己画了两张图总结了一下规律来理解一下。首先新建一个3*3的二维矩阵。 import torch ? t1 = torch.tensor([[1, 阅读全文

posted @ 2024-03-05 17:01 jasonzhangxianrong 阅读(26) 评论(0) 推荐(0) 编辑

动手学强化学习（八）：DQN 改进算法

摘要：第 8 章 DQN 改进算法 8.1 简介 DQN 算法敲开了深度强化学习的大门，但是作为先驱性的工作，其本身存在着一些问题以及一些可以改进的地方。于是，在 DQN 之后，学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法：Double DQN 和 Dueling DQN，这两个算法的阅读全文

posted @ 2024-03-05 16:15 jasonzhangxianrong 阅读(182) 评论(0) 推荐(0) 编辑

动手学强化学习（七.1）：DQN 算法代码

摘要：一、代码如下： import random import gym import numpy as np import collections from tqdm import tqdm import torch import torch.nn.functional as F import matpl 阅读全文

posted @ 2024-03-05 14:30 jasonzhangxianrong 阅读(138) 评论(0) 推荐(0) 编辑

2024年3月4日

动手学强化学习（七）：DQN 算法

摘要：第 7 章 DQN 算法 7.1 简介在第 5 章讲解的 Q-learning 算法中，a56爆大奖在线娱乐们以矩阵的方式建立了一张存储a56爆大奖在线娱乐状态下所有动作\(Q\)值的表格。表格中的每一个动作价值\(Q(s,a)\)a56爆大奖在线娱乐在状态\(s\)下选择动作\(a\)然后继续遵循某一策略预期能够得到的期望回报。然而，这种用表格阅读全文

posted @ 2024-03-04 18:06 jasonzhangxianrong 阅读(665) 评论(0) 推荐(0) 编辑

动手学强化学习（六）：Dyna-Q

摘要：第 6 章 Dyna-Q 算法 6.1 简介在强化学习中，“模型”通常指与智能体交互的环境模型，即对环境的状态转移概率和奖励函数进行建模。根据是否具有环境模型，强化学习算法分为两种：基于模型的强化学习（model-based reinforcement learning）和无模型的强化学习（mod 阅读全文

posted @ 2024-03-04 17:24 jasonzhangxianrong 阅读(88) 评论(0) 推荐(0) 编辑

强化学习学习路线

摘要： 1、强化学习介绍强化学习是指智能体通过与环境进行交互，不断的通过试错，以获得更大的累计奖励为目的，得到更好的策略。强化学习的学习路线比较陡峭，因为涉及到的数学知识更多一些，需要概率论、随机过程的知识。这里通过a56爆大奖在线娱乐自己的一些学习经验以及看过的一些资料，整理了一条逐渐深入的学习路线，可以大幅度提高学习效阅读全文

posted @ 2024-03-04 16:24 jasonzhangxianrong 阅读(54) 评论(0) 推荐(0) 编辑

2024年3月3日

动手学强化学习（五）：时序差分算法代码

摘要：一、单步sarsa import matplotlib.pyplot as plt import numpy as np from tqdm import tqdm # tqdm是显示循环进度条的库 class CliffWalkingEnv: def __init__(self, ncol, nr 阅读全文

posted @ 2024-03-03 20:40 jasonzhangxianrong 阅读(25) 评论(0) 推荐(0) 编辑

公告