時間の使い方 RL 湖水浴 RL 一晩寝かせてなんとかpolicy iterationの計算が終わっていた.220回あたりから収束していたようだが,実際にパフォーマンスを見てみるといまいち. ローカル最適に落ち込んでしまったか.そもそもの設計も良くない気がしてきたの…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。