ご注文はカフェインですか?

コーヒーは浅煎りで

スイス滞在記【144-145日目】

Policy iteration v Value iteration

144日目

計算重い

バグ修正も完了し,学習を開始することができた.

問題はpybulletではgetBacepositionandorientationでは位置と姿勢がそれぞれタプルで渡されてしまうため,状態リストへの格納時に要素数が異なるエラーが出てしまっていた.

ValueError: setting an array element with a sequence.

ちなみにこのエラーはsklearnやtensorflowでの画像インプットのdeep learning使用時とかにも出るみたい.

ホットベクトルの定義ミスとか.

よく見直すの大事.

で計算だけど,ハイパーパラメータの調整にもよるんだろうけど,value iterationで500イタレーションで5時間ぐらい.

結構重い. core-i9の8コアでこれだからdeepでなくてもGPUとか使ったほうが良いのかな.

結果

ぜんぜんだめです.強化学習は一筋縄ではいかないみたい.

145日目

Policy Iteration

value iterationでだめならpolicy iterationはどうか.sckit-learnからtensorflow(CPU)に変えてみて再挑戦.

しかし計算が重すぎてPC超発熱.

リモートデスクトップで研究室のやつに切り変える.

meeting

とりあえず,進捗報告と研究相談.強化学習に関しては研究室に使ったことある人がいないため,論文読むなり本で勉強するなりして知識を深めること.

そして,リモート接続の許可を貰ったので,遠隔で操作してdesktopに計算丸投げ.

どのくらい時間がかかるのだろうか.

計算中は読書ができるということで読んでいる本

 

三体

三体

  • 作者:劉 慈欣
  • 発売日: 2019/07/04
  • メディア: ハードカバー
 

前も紹介したかな.

電子書籍だと読むの疲れるけど,仕方ないか.

帰国まであと38日.