Advertisement

深度強化學習(1) 什麼是深度強化學習?

 

強化學習

一般來說機器學習模式可以分為三類:

  • 有監督學習:Supervised Learning
  • 無監督學習:Unsupervised Learning
  • 強化學習:Reinforcement Learning

 

強化學習與其佢兩種機器學習模式差距好大, 解決嘅問題都有好大不同。 由於強化學習涉及概念比較多, 而且訓練比較難, 所以喺一般嘅機器學習書籍中, 都唔會涉及強化學習, 而是由專門嘅書籍介紹。 

有監督學習和無監督嘅學習嘅輸出一般都係肯定性嘅答案, 比如: 模型會畀出數據歸屬於哪一個類型, 抑或畀出一個數值型嘅預測結果。 而強化學習嘅目標係訓練一個 agent, 呢個agent 會根據環境反饋, 輸出一系列決策, 而唔係只輸出一個結果。  相比其他兩種模型, 強化學習模型更加類似人類大腦, 可以根據環境, 不斷嘅做出決策。 

 

深度強化學習 係將深度學習中嘅神經網絡引入強化學習後得到嘅模型。 

強化學習嘅應用大家其實並不陌生, 吓都係啲好出名嘅應用。 

玩遊戲

AlphaStar : 強化學習玩《星海爭霸2 / starcraft2》

 

棋類遊戲

最出名嘅就係擊敗咗人類捉圍棋高手嘅 AlphaGo

 

自動駕駛

自動駕駛係司機( agent )在環境(道路)嘅反饋的,做出一系列決策嘅過程。 呢個過程非常符合強化學習模型嘅決策過程。 

 

工業自動化

強化學習可以用嚟控制生產線上嘅各種工業機械人嘅活動。

 

自動化金融交易

金融交易其實都係基於金融市場嘅一系列嘅決策過程, 好符合強化學習嘅範式。  目前呢個領域有有大量嘅研究成果。 

 

自然語言處理( Natural Language Processing,NLP )

由於語言資料都可以視為時序數據, 因此我哋都可以用強化學習嚟解決 NLP中嘅問題。 

 

相關研究文章

醫療決策

強化學習可以用嚟優化治療手段, 這類研究被歸為 dynamic treatment regimes ( DTRs ) 問題。 

 

工業生產線

Meta 開發咗 Horizon,一個開源嘅強化學習平台,用嚟提升大規模生產線嘅效率。  Horizon: The first open source reinforcement learning platform for large-scale products and services

推薦系統

由於強化學習可以對環境嘅變化做出好好嘅反饋, 所以相比較傳統舉薦系統, 基於強化學習嘅舉薦系統可以更快嘅適應用戶興趣啲嘅變化。 

 

實時競價

在線廣告系統每秒中都會做出大量嘅決策, 強化學習可以幫助在線廣告系統喺短時間內快速嘅做出決策。 

 

本文主要內容來源於 Berkeley CS285 Deep Reinforcement Learning

回應