課程目錄:用Python進(jìn)行深度強(qiáng)化學(xué)習(xí)培訓(xùn)
4401 人關(guān)注
(78637/99817)
課程大綱:

    用Python進(jìn)行深度強(qiáng)化學(xué)習(xí)培訓(xùn)

 

 

 

介紹

強(qiáng)化學(xué)習(xí)基礎(chǔ)

強(qiáng)化學(xué)習(xí)基本技術(shù)

BURLAP簡介

值迭代和策略迭代的收斂

獎賞塑形(Reward Shaping)

探索(Exploration)

泛化(Generalization)

部分可觀察的馬爾可夫決策過程(POMDP)

選擇(Options)

Logistics

TD Lambda

策略梯度(Policy Gradient)

深度Q學(xué)習(xí)

博弈論(Game Theory)專題