Advertisement

深度强化学习(1) 什么是深度强化学习?

 

强化学习

一般来说机器学习模式可以分为三类:

  • 有监督学习:Supervised Learning
  • 无监督学习:Unsupervised Learning
  • 强化学习:Reinforcement Learning

 

强化学习与其佢两种机器学习模式差距好大, 解决嘅问题都有好大不同。 由于强化学习涉及概念比较多, 而且训练比较难, 所以喺一般嘅机器学习书籍中, 都唔会涉及强化学习, 而是由专门嘅书籍介绍。 

有监督学习和无监督嘅学习嘅输出一般都系肯定性嘅答案, 比如: 模型会畀出数据归属于哪一个类型, 抑或畀出一个数值型嘅预测结果。 而强化学习嘅目标系训练一个 agent, 呢个agent 会根据环境反馈, 输出一系列决策, 而唔系只输出一个结果。  相比其他两种模型, 强化学习模型更加类似人类大脑, 可以根据环境, 不断嘅做出决策。 

 

深度强化学习 系将深度学习中嘅神经网络引入强化学习后得到嘅模型。 

强化学习嘅应用大家其实并不陌生, 吓都系啲好出名嘅应用。 

玩游戏

AlphaStar : 强化学习玩《星海争霸2 / starcraft2》

 

棋类游戏

最出名嘅就系击败咗人类捉围棋高手嘅 AlphaGo

 

自动驾驶

自动驾驶系司机( agent )在环境(道路)嘅反馈的,做出一系列决策嘅过程。 呢个过程非常符合强化学习模型嘅决策过程。 

 

工业自动化

强化学习可以用嚟控制生产线上嘅各种工业机械人嘅活动。

 

自动化金融交易

金融交易其实都系基于金融市场嘅一系列嘅决策过程, 好符合强化学习嘅范式。  目前呢个领域有有大量嘅研究成果。 

 

自然语言处理( Natural Language Processing,NLP )

由于语言资料都可以视为时序数据, 因此我哋都可以用强化学习嚟解决 NLP中嘅问题。 

 

相关研究文章

医疗决策

强化学习可以用嚟优化治疗手段, 这类研究被归为 dynamic treatment regimes ( DTRs ) 问题。 

 

工业生产线

Meta 开发咗 Horizon,一个开源嘅强化学习平台,用嚟提升大规模生产线嘅效率。  Horizon: The first open source reinforcement learning platform for large-scale products and services

推荐系统

由于强化学习可以对环境嘅变化做出好好嘅反馈, 所以相比较传统举荐系统, 基于强化学习嘅举荐系统可以更快嘅适应用户兴趣啲嘅变化。 

 

实时竞价

在线广告系统每秒中都会做出大量嘅决策, 强化学习可以帮助在线广告系统喺短时间内快速嘅做出决策。 

 

本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning

回应