資源簡介
本文考慮了連續時間馬爾可夫決策過程中平均報酬的方差優化問題。 假設狀態空間是可計數的,而動作空間是Borel可測量的空間。 本文的主要目的是在確定性平穩策略空間中找到方差最小的策略。 與傳統的馬爾可夫決策過程不同,方差準則中的成本函數將受到未來行動的影響。 為此,我們通過引入稱為偽方差的概念將方差最小化問題轉換為標準(MDP)。 通過給出偽方差優化問題的策略迭代算法,推導了原始方差優化問題的最優策略,并給出了方差最優策略的充分條件。 最后,我們用一個例子來說明本文的結論。
代碼片段和文件信息
- 上一篇:論文研究 - 量子神經網絡的分布強化學習
- 下一篇:NodeCanvas 2.9.2
評論
共有 條評論