2024 年 3月 5 日随笔档案 - jasonzhangxianrong - 博客园

2024年3月5日

摘要：一、代码 import random import gym import numpy as np import torch import torch.nn.functional as F import matplotlib.pyplot as plt import rl_utils from tqd 阅读全文

posted @ 2024-03-05 17:21 jasonzhangxianrong 阅读(31) 评论(0) 推荐(0) 编辑

动手学强化学习（八.2）：double-DQN

摘要：一、代码 import random import gym import numpy as np import torch import torch.nn.functional as F import matplotlib.pyplot as plt import rl_utils from tqd 阅读全文

posted @ 2024-03-05 17:08 jasonzhangxianrong 阅读(34) 评论(0) 推荐(0) 编辑

动手学强化学习（八.1）：torch.gather

摘要： tensor.gather()的作用就是按照索引取对应的数据出来。之前看图解PyTorch中的torch.gather函数，那个图示看得a56爆大奖在线娱乐有点懵逼，a56爆大奖在线娱乐自己画了两张图总结了一下规律来理解一下。首先新建一个3*3的二维矩阵。 import torch ? t1 = torch.tensor([[1, 阅读全文

posted @ 2024-03-05 17:01 jasonzhangxianrong 阅读(28) 评论(0) 推荐(0) 编辑

动手学强化学习（八）：DQN 改进算法

摘要：第 8 章 DQN 改进算法 8.1 简介 DQN 算法敲开了深度强化学习的大门，但是作为先驱性的工作，其本身存在着一些问题以及一些可以改进的地方。于是，在 DQN 之后，学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法：Double DQN 和 Dueling DQN，这两个算法的阅读全文

posted @ 2024-03-05 16:15 jasonzhangxianrong 阅读(187) 评论(0) 推荐(0) 编辑

动手学强化学习（七.1）：DQN 算法代码

摘要：一、代码如下： import random import gym import numpy as np import collections from tqdm import tqdm import torch import torch.nn.functional as F import matpl 阅读全文

posted @ 2024-03-05 14:30 jasonzhangxianrong 阅读(148) 评论(0) 推荐(0) 编辑

公告