91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 398KB
    文件類型: .pdf
    金幣: 2
    下載: 0 次
    發布日期: 2024-01-10
  • 語言: 其他
  • 標簽: 策略迭代??

資源簡介

本文考慮了連續時間馬爾可夫決策過程中平均報酬的方差優化問題。 假設狀態空間是可計數的,而動作空間是Borel可測量的空間。 本文的主要目的是在確定性平穩策略空間中找到方差最小的策略。 與傳統的馬爾可夫決策過程不同,方差準則中的成本函數將受到未來行動的影響。 為此,我們通過引入稱為偽方差的概念將方差最小化問題轉換為標準(MDP)。 通過給出偽方差優化問題的策略迭代算法,推導了原始方差優化問題的最優策略,并給出了方差最優策略的充分條件。 最后,我們用一個例子來說明本文的結論。

資源截圖

代碼片段和文件信息

評論

共有 條評論

相關資源