深度強化學習（1）什麼是深度強化學習？ | Terry | HKESE

強化學習

一般來說機器學習模式可以分為三類：

有監督學習：Supervised Learning
無監督學習：Unsupervised Learning
強化學習：Reinforcement Learning

強化學習與其佢兩種機器學習模式差距好大，解決嘅問題都有好大不同。由於強化學習涉及概念比較多，而且訓練比較難，所以喺一般嘅機器學習書籍中，都唔會涉及強化學習，而是由專門嘅書籍介紹。

有監督學習和無監督嘅學習嘅輸出一般都係肯定性嘅答案，比如：模型會畀出數據歸屬於哪一個類型，抑或畀出一個數值型嘅預測結果。而強化學習嘅目標係訓練一個 agent，呢個agent 會根據環境反饋，輸出一系列決策，而唔係只輸出一個結果。相比其他兩種模型，強化學習模型更加類似人類大腦，可以根據環境，不斷嘅做出決策。

深度強化學習 係將深度學習中嘅神經網絡引入強化學習後得到嘅模型。

強化學習嘅應用大家其實並不陌生，吓都係啲好出名嘅應用。

玩遊戲

AlphaStar ：強化學習玩《星海爭霸2 / starcraft2》

棋類遊戲

最出名嘅就係擊敗咗人類捉圍棋高手嘅 AlphaGo

自動駕駛

自動駕駛係司機（ agent ）在環境（道路）嘅反饋的，做出一系列決策嘅過程。呢個過程非常符合強化學習模型嘅決策過程。

工業自動化

強化學習可以用嚟控制生產線上嘅各種工業機械人嘅活動。

自動化金融交易

金融交易其實都係基於金融市場嘅一系列嘅決策過程，好符合強化學習嘅範式。目前呢個領域有有大量嘅研究成果。

自然語言處理（ Natural Language Processing，NLP ）

由於語言資料都可以視為時序數據，因此我哋都可以用強化學習嚟解決 NLP中嘅問題。

相關研究文章

醫療決策

強化學習可以用嚟優化治療手段，這類研究被歸為 dynamic treatment regimes （ DTRs ）問題。

工業生產線

Meta 開發咗 Horizon，一個開源嘅強化學習平台，用嚟提升大規模生產線嘅效率。 Horizon: The first open source reinforcement learning platform for large-scale products and services

推薦系統

由於強化學習可以對環境嘅變化做出好好嘅反饋，所以相比較傳統舉薦系統，基於強化學習嘅舉薦系統可以更快嘅適應用戶興趣啲嘅變化。

實時競價

在線廣告系統每秒中都會做出大量嘅決策，強化學習可以幫助在線廣告系統喺短時間內快速嘅做出決策。

本文主要內容來源於 Berkeley CS285 Deep Reinforcement Learning

機器學習 Machine Learning Deep Learning 深度强化學習人工智能 AI