秦时月

明月几时有？
把酒问青天。

/p/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A09dqn%E4%BB%8E-q-learning-%E5%88%B0%E6%B7%B1%E5%BA%A6%E4%BB%B7%E5%80%BC%E7%BD%91%E7%BB%9C/image.jpg

强化学习(9)：DQN——从 Q-learning 到深度价值网络

秦时月发布于 2026-05-25 收录于强化学习

用神经网络表示动作价值函数

/p/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A08%E5%80%BC%E5%87%BD%E6%95%B0%E8%BF%91%E4%BC%BC%E4%BB%8E%E8%A1%A8%E6%A0%BC%E6%96%B9%E6%B3%95%E5%88%B0%E5%87%BD%E6%95%B0%E8%A1%A8%E7%A4%BA/image.png

强化学习(8)：值函数近似——从表格方法到函数表示

秦时月发布于 2026-05-25 收录于强化学习

从表格强化学习走向深度强化学习

/p/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A07%E8%A7%84%E5%88%92%E4%B8%8E%E5%AD%A6%E4%B9%A0dyna-q-%E7%9A%84%E5%9F%BA%E6%9C%AC%E6%80%9D%E6%83%B3/image.png

强化学习(7)：规划与学习——Dyna-Q 的基本思想

秦时月发布于 2026-04-23 收录于强化学习

在学习中习得模型

/p/ai-agent-1%E4%BB%8E%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8%E5%88%B0%E6%99%BA%E8%83%BD%E4%BD%93/image.jpg

AI Agent (1)：从大语言模型应用到智能体

秦时月发布于 2026-04-22 收录于 AI Agent

介绍AI Agent的基本概念

/p/rl-eligibility-trace-td-lambda/image.jpg

强化学习(6)：资格迹与 TD(λ)

秦时月发布于 2026-04-22 收录于强化学习

把不同步长统一起来

/p/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A05%E5%A4%9A%E6%AD%A5%E6%97%B6%E5%BA%8F%E5%B7%AE%E5%88%86%E6%96%B9%E6%B3%95%E4%B8%8E-n-step-%E5%9B%9E%E6%8A%A5/image.jpg

强化学习(5)：多步时序差分方法与 n-step 回报

秦时月发布于 2026-04-20 收录于强化学习

一步更新和完整回报之间，怎样建立更一般的连接。

1
2
3
5