スイス滞在記【144-145日目】
Policy iteration v Value iteration
144日目
計算重い
バグ修正も完了し,学習を開始することができた.
問題はpybulletではgetBacepositionandorientationでは位置と姿勢がそれぞれタプルで渡されてしまうため,状態リストへの格納時に要素数が異なるエラーが出てしまっていた.
ValueError: setting an array element with a sequence.
ちなみにこのエラーはsklearnやtensorflowでの画像インプットのdeep learning使用時とかにも出るみたい.
ホットベクトルの定義ミスとか.
よく見直すの大事.
で計算だけど,ハイパーパラメータの調整にもよるんだろうけど,value iterationで500イタレーションで5時間ぐらい.
結構重い. core-i9の8コアでこれだからdeepでなくてもGPUとか使ったほうが良いのかな.
結果
ぜんぜんだめです.強化学習は一筋縄ではいかないみたい.
145日目
Policy Iteration
value iterationでだめならpolicy iterationはどうか.sckit-learnからtensorflow(CPU)に変えてみて再挑戦.
しかし計算が重すぎてPC超発熱.
リモートデスクトップで研究室のやつに切り変える.
meeting
とりあえず,進捗報告と研究相談.強化学習に関しては研究室に使ったことある人がいないため,論文読むなり本で勉強するなりして知識を深めること.
そして,リモート接続の許可を貰ったので,遠隔で操作してdesktopに計算丸投げ.
どのくらい時間がかかるのだろうか.
本
計算中は読書ができるということで読んでいる本
前も紹介したかな.
電子書籍だと読むの疲れるけど,仕方ないか.
帰国まであと38日.