一杯为品
主页
归档
链接
GitHub
Bilibili
我的
追番
日记
相册
我的设备
关于
关于
友链
其他
项目展示
技能展示
时间线
主页
归档
链接
GitHub
Bilibili
我的
追番
日记
相册
我的设备
关于
关于
友链
其他
项目展示
技能展示
时间线
我是一杯为品
一杯为品
公告
品味不错,我的朋友。
了解更多
标签
Dyna
Q学习
Sarsa
动态规划
引论
时序差分
树回溯
自举法
蒙特卡洛
蒙特卡洛树搜索
表格型方法
贝尔曼方程
重要度采样
马尔可夫决策过程
分类
强化学习基础
8
站点统计
文章
8
分类
1
标签
14
总字数
31,145
运行时长
0
天
最后活动
0
天前
←
→
一
二
三
四
五
六
日
【强化学习基础】#8 基于表格型方法的规划和学习
2025-05-24
强化学习基础
7509 字
使用表格存储价值的方法。
# 表格型方法
# Dyna
# 动态规划
# 蒙特卡洛树搜索
【强化学习基础】#7 n步自举法
2025-05-19
强化学习基础
3122 字
蒙特卡洛方法和时序差分方法更一般的推广。
# 自举法
# Sarsa
# 树回溯
【强化学习基础】#6 时序差分学习
2025-05-17
强化学习基础
2695 字
在状态的下一个时刻就能更新其价值估计的无模型算法。
# 时序差分
# Q学习
# Sarsa
【强化学习基础】#5 蒙特卡洛方法
2025-05-07
强化学习基础
3993 字
通过采样估计价值函数并寻找最优策略的方法。
# 蒙特卡洛
# 重要度采样
【强化学习基础】#4 动态规划
2025-04-23
强化学习基础
2526 字
在完备MDP环境模型下计算最优策略。
# 动态规划
【强化学习基础】#3 有限马尔可夫决策过程
2025-04-17
强化学习基础
3371 字
强化学习最基础的数学模型。
# 马尔可夫决策过程
# 贝尔曼方程
【强化学习基础】#2 多臂赌博机
2025-04-10
强化学习基础
2976 字
只有动作与奖励的强化学习任务。
无标签
【强化学习基础】#1 引论
2025-04-09
强化学习基础
1037 字
在交互中学习的计算性方法。
# 引论
1
Sample Song
Sample Artist
Sample Song
Sample Artist
0:00 / 0:00