論文研究 - 連續時間馬爾可夫決策過程的方差優化

大小: 398KB

文件類型: .pdf

金幣: 2

下載: 0 次

發布日期: 2024-01-10
語言: 其他
標簽: 策略迭代??

高速下載

資源簡介

本文考慮了連續時間馬爾可夫決策過程中平均報酬的方差優化問題。假設狀態空間是可計數的，而動作空間是Borel可測量的空間。本文的主要目的是在確定性平穩策略空間中找到方差最小的策略。與傳統的馬爾可夫決策過程不同，方差準則中的成本函數將受到未來行動的影響。為此，我們通過引入稱為偽方差的概念將方差最小化問題轉換為標準（MDP）。通過給出偽方差優化問題的策略迭代算法，推導了原始方差優化問題的最優策略，并給出了方差最優策略的充分條件。最后，我們用一個例子來說明本文的結論。

資源截圖

小圖大圖

代碼片段和文件信息

上一篇：論文研究 - 量子神經網絡的分布強化學習
下一篇：NodeCanvas 2.9.2

91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

論文研究 - 連續時間馬爾可夫決策過程的方差優化

資源簡介

資源截圖

代碼片段和文件信息

評論

相關資源