深度強化學習(1) 什麼是深度強化學習?
強化學習
一般來說機器學習模式可以分為三類:
- 有監督學習:Supervised Learning
- 無監督學習:Unsupervised Learning
- 強化學習:Reinforcement Learning
強化學習與其佢兩種機器學習模式差距好大, 解決嘅問題都有好大不同。 由於強化學習涉及概念比較多, 而且訓練比較難, 所以喺一般嘅機器學習書籍中, 都唔會涉及強化學習, 而是由專門嘅書籍介紹。
有監督學習和無監督嘅學習嘅輸出一般都係肯定性嘅答案, 比如: 模型會畀出數據歸屬於哪一個類型, 抑或畀出一個數值型嘅預測結果。 而強化學習嘅目標係訓練一個 agent, 呢個agent 會根據環境反饋, 輸出一系列決策, 而唔係只輸出一個結果。 相比其他兩種模型, 強化學習模型更加類似人類大腦, 可以根據環境, 不斷嘅做出決策。
深度強化學習 係將深度學習中嘅神經網絡引入強化學習後得到嘅模型。
強化學習嘅應用大家其實並不陌生, 吓都係啲好出名嘅應用。
玩遊戲
AlphaStar : 強化學習玩《星海爭霸2 / starcraft2》
棋類遊戲
最出名嘅就係擊敗咗人類捉圍棋高手嘅 AlphaGo
自動駕駛
自動駕駛係司機( agent )在環境(道路)嘅反饋的,做出一系列決策嘅過程。 呢個過程非常符合強化學習模型嘅決策過程。

工業自動化
強化學習可以用嚟控制生產線上嘅各種工業機械人嘅活動。
自動化金融交易
金融交易其實都係基於金融市場嘅一系列嘅決策過程, 好符合強化學習嘅範式。 目前呢個領域有有大量嘅研究成果。
自然語言處理( Natural Language Processing,NLP )
由於語言資料都可以視為時序數據, 因此我哋都可以用強化學習嚟解決 NLP中嘅問題。
醫療決策
強化學習可以用嚟優化治療手段, 這類研究被歸為 dynamic treatment regimes ( DTRs ) 問題。
工業生產線
Meta 開發咗 Horizon,一個開源嘅強化學習平台,用嚟提升大規模生產線嘅效率。 Horizon: The first open source reinforcement learning platform for large-scale products and services
推薦系統
由於強化學習可以對環境嘅變化做出好好嘅反饋, 所以相比較傳統舉薦系統, 基於強化學習嘅舉薦系統可以更快嘅適應用戶興趣啲嘅變化。
實時競價
在線廣告系統每秒中都會做出大量嘅決策, 強化學習可以幫助在線廣告系統喺短時間內快速嘅做出決策。
