資源簡介
在多機器人系統中,評價一個機器人行為的好壞常常依賴于其它機器人的行為,此時必須采用組合動
作以實現多機器人的協作,但采用組合動作的強化學習算法由于學習空間異常龐大而收斂得極慢.本文提出的新方
法通過預測各機器人執行動作的概率來降低學習空間的維數,并應用于多機器人協作任務之中.實驗結果表明,基
于預測的加速強化學習算法可以比原始算法更快地獲得多機器人的協作策略.
代碼片段和文件信息
- 上一篇:httpd.conf
- 下一篇:通信原理第二版習題答案
評論
共有 條評論