深度强化学习（1）什么是深度强化学习？ | Terry | HKESE

强化学习

一般来说机器学习模式可以分为三类：

有监督学习：Supervised Learning
无监督学习：Unsupervised Learning
强化学习：Reinforcement Learning

强化学习与其佢两种机器学习模式差距好大，解决嘅问题都有好大不同。由于强化学习涉及概念比较多，而且训练比较难，所以喺一般嘅机器学习书籍中，都唔会涉及强化学习，而是由专门嘅书籍介绍。

有监督学习和无监督嘅学习嘅输出一般都系肯定性嘅答案，比如：模型会畀出数据归属于哪一个类型，抑或畀出一个数值型嘅预测结果。而强化学习嘅目标系训练一个 agent，呢个agent 会根据环境反馈，输出一系列决策，而唔系只输出一个结果。相比其他两种模型，强化学习模型更加类似人类大脑，可以根据环境，不断嘅做出决策。

深度强化学习 系将深度学习中嘅神经网络引入强化学习后得到嘅模型。

强化学习嘅应用大家其实并不陌生，吓都系啲好出名嘅应用。

玩游戏

AlphaStar ：强化学习玩《星海争霸2 / starcraft2》

棋类游戏

最出名嘅就系击败咗人类捉围棋高手嘅 AlphaGo

自动驾驶

自动驾驶系司机（ agent ）在环境（道路）嘅反馈的，做出一系列决策嘅过程。呢个过程非常符合强化学习模型嘅决策过程。

工业自动化

强化学习可以用嚟控制生产线上嘅各种工业机械人嘅活动。

自动化金融交易

金融交易其实都系基于金融市场嘅一系列嘅决策过程，好符合强化学习嘅范式。目前呢个领域有有大量嘅研究成果。

自然语言处理（ Natural Language Processing，NLP ）

由于语言资料都可以视为时序数据，因此我哋都可以用强化学习嚟解决 NLP中嘅问题。

相关研究文章

医疗决策

强化学习可以用嚟优化治疗手段，这类研究被归为 dynamic treatment regimes （ DTRs ）问题。

工业生产线

Meta 开发咗 Horizon，一个开源嘅强化学习平台，用嚟提升大规模生产线嘅效率。 Horizon: The first open source reinforcement learning platform for large-scale products and services

推荐系统

由于强化学习可以对环境嘅变化做出好好嘅反馈，所以相比较传统举荐系统，基于强化学习嘅举荐系统可以更快嘅适应用户兴趣啲嘅变化。

实时竞价

在线广告系统每秒中都会做出大量嘅决策，强化学习可以帮助在线广告系统喺短时间内快速嘅做出决策。

本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning

机器学习 Machine Learning Deep Learning 深度强化学习人工智能 AI