学习强化学习：代码、练习及答案（附下载）

原标题：学习强化学习：代码、练习及答案（附下载）

来源：wildml.com

作者：Denny Britz

译者：刘小芹

【倒计时 5 天，点击阅读原文抢票！！】❶ 业界领袖回溯60年AI历史，全球对话人工智能未来挑战，权威发布2016世界人工智能名人堂及中国人工智能产业发展报告；❷ 国际大咖视频远程参会， Bengio 和李飞飞联袂寄语中国人工智能；❸ 探秘讯飞超脑及华为诺亚方舟实验室，最强CTO与7大研究院院长交锋；❹ 滴滴CTO与百度首席架构师坐镇智能驾驶论坛，新智元三大圆桌阵容史无前例；❺ 中国大狗与”X-Dog”震撼亮相，龙泉寺机器僧贤二卖萌。

【新智元导读】谷歌大脑的 Denny Britz 在他的个人博客上发表了一篇强化学习经验总结，包括好用的教程和教材，最关键的，是他经试着用 Python、OpenAI Gym、Tensorflow 写了大部分标准强化学习算法，并且按章节列出，还提供了练习和答案，是为强化学习实践的好资料。

为什么要学习强化学习？

强化学习（Reinforcement Learning，RL）是我最感兴趣的领域之一。过去几年里强化学习取得的一些成果得到了很多关注，例如掌握围棋、，但强化学习还可以广泛应用在机器人学、图像处理和自然语言处理。

强化学习和深度学习技术结合的效果非常好。这两个领域在很大程度上相互影响。从强化学习的角度看，深度神经网络可以作为函数逼近器学习好的表征，例如，处理 Atari 游戏图像或理解围棋棋局。从深度学习的角度看，RL 技术能监督通常由深度学习处理的问题。例如，RL 技术用于在图像处理时执行注意机制，或用于优化对话界面和神经翻译系统的长期奖励机制。最后，由于强化学习关注最佳决策，它和人类心理学、神经科学以及许多其他领域有一些非常有趣的相似之处。

随着基础性研究出现大量开放性问题和挑战，我认为不久的将来就能看到强化学习的许多突破。还有什么比教计算机玩《星际争霸》和《毁灭战士》更有趣呢？

怎样学习强化学习？

有关强化学习的优秀资源非常多，我极力推荐的是以下两个：

后者虽然还是正在进行的书，不过大约 80% 是完整的。David 的教程是根据这本教材来的，所以两者一起学更好。实际上，这两个资源已经几乎囊括了强化学习方面近期的所有研究成果。开始学习需要基础数学知识和一点机器学习知识。

上述材料属于理论学习。实践的话，推荐你实际去使用课程和教材中涉及的算法。这篇文章以及 Github 库中有很多这些算法。我已经试着用 Python、OpenAI Gym、Tensorflow写了大部分标准强化学习算法，我把它们按章节列出来了，还提供了练习和答案，可以用来作为上述理论学习的补充。这些都可以在 Github repository 中找到：https://github.com/dennybritz/reinforcement-learning。

【以下资源都有超链接，访问网站直达：http://www.wildml.com/2016/10/learning-reinforcement-learning/】

内容列表

Introduction to RL problems, OpenAI gym
MDPs and Bellman Equations
Dynamic Programming: Model-Based RL, Policy Iteration and Value Iteration
Monte Carlo Model-Free Prediction & Control
Temporal Difference Model-Free Prediction & Control
Function Approximation
Deep Q Learning (WIP)
Policy Gradient Methods (WIP)
Learning and Planning (WIP)
Exploration and Exploitation (WIP)

补充算法列表

Dynamic Programming Policy Evaluation
Dynamic Programming Policy Iteration
Dynamic Programming Value Iteration
Monte Carlo Prediction
Monte Carlo Control with Epsilon-Greedy Policies
Monte Carlo Off-Policy Control with Importance Sampling
SARSA (On Policy TD Learning)
Q-Learning (Off Policy TD Learning)
Q-Learning with Linear Function Approximation
Deep Q-Learning for Atari Games
Double Deep-Q Learning for Atari Games
Deep Q-Learning with Prioritized Experience Replay (WIP)
Policy Gradient: REINFORCE with Baseline
Policy Gradient: Actor Critic with Baseline
Policy Gradient: Actor Critic with Baseline for Continuous Action Spaces
Deterministic Policy Gradients for Continuous Action Spaces (WIP)
Deep Deterministic Policy Gradients (DDPG) (WIP)
Asynchronous Advantage Actor Critic (A3C) (WIP)

了解更多 & 编译来源：

http://www.wildml.com/2016/10/learning-reinforcement-learning/

豪华嘉宾阵容，共飨 AI 盛宴

7 大院长齐聚新智元智库院长圆桌论坛

2016世界人工智能大会技术论坛特设新智元智库院长圆桌会议，重量级研究院院长7剑下天山，带来最前沿的AI研究动态、剖析技术发展趋势。

七位人工智能界高手现场过招，思想的激烈碰撞会给目前的人工智能发展带来哪些洞见？七位院长对行业的发展会有哪些前瞻揭秘？10月18日下午，2016 世界人工智能大会技术论坛，答案将逐层揭晓。

新智元智库院长圆桌汇集了中国人工智能产学研三界最豪华院长阵容：美团技术学院院长刘江担任主持人，微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。

2016世界人工智能大会技术论坛议程

扫描二维码购票：

购票链接：http://www.huodongxing.com/go/aiworld2016

也可点击‘阅读原文’直接购票

票务联系 132·4023·6748返回搜狐，查看更多

责任编辑：

原文链接：https://www.w1ym.com/82607/，转载请注明出处~~~

学习强化学习：代码、练习及答案（附下载）

评论0

在线客服

夜间模式

返回顶部

站点公告