一杯为品 - Here I Stand

Desktop wallpaper 1

Desktop wallpaper 2

Desktop wallpaper 3

Desktop wallpaper 4

Desktop wallpaper 5

Desktop wallpaper 6

Mobile wallpaper 1

Mobile wallpaper 2

Mobile wallpaper 3

Mobile wallpaper 4

Mobile wallpaper 5

Mobile wallpaper 6

一杯为品

公告

品味不错，我的朋友。

标签

Dyna Q学习 Sarsa 动态规划引论时序差分树回溯自举法蒙特卡洛蒙特卡洛树搜索表格型方法贝尔曼方程重要度采样马尔可夫决策过程

【强化学习基础】#8 基于表格型方法的规划和学习

2025-05-24

强化学习基础

7509 字

使用表格存储价值的方法。

# 表格型方法 # Dyna # 动态规划 # 蒙特卡洛树搜索

【强化学习基础】#7 n步自举法

2025-05-19

强化学习基础

3122 字

蒙特卡洛方法和时序差分方法更一般的推广。

# 自举法 # Sarsa # 树回溯

【强化学习基础】#6 时序差分学习

2025-05-17

强化学习基础

2695 字

在状态的下一个时刻就能更新其价值估计的无模型算法。

# 时序差分 # Q学习 # Sarsa

【强化学习基础】#5 蒙特卡洛方法

2025-05-07

强化学习基础

3993 字

通过采样估计价值函数并寻找最优策略的方法。

# 蒙特卡洛 # 重要度采样

【强化学习基础】#4 动态规划

2025-04-23

强化学习基础

2526 字

在完备MDP环境模型下计算最优策略。

【强化学习基础】#3 有限马尔可夫决策过程

2025-04-17

强化学习基础

3371 字

强化学习最基础的数学模型。

# 马尔可夫决策过程 # 贝尔曼方程

【强化学习基础】#2 多臂赌博机

2025-04-10

强化学习基础

2976 字

只有动作与奖励的强化学习任务。

无标签

【强化学习基础】#1 引论

2025-04-09

强化学习基础

1037 字

在交互中学习的计算性方法。

1

Sample Song

Sample Artist

Sample Song

Sample Artist

0:00 / 0:00