2020-04-25から1日間の記事一覧

スイス滞在記【146日目】

留学

時間の使い方 RL 湖水浴 RL 一晩寝かせてなんとかpolicy iterationの計算が終わっていた．220回あたりから収束していたようだが，実際にパフォーマンスを見てみるといまいち．ローカル最適に落ち込んでしまったか．そもそもの設計も良くない気がしてきたの…