スイス滞在記【144-145日目】 - ご注文はカフェインですか？

Policy iteration v Value iteration

バグ修正も完了し，学習を開始することができた．

問題はpybulletではgetBacepositionandorientationでは位置と姿勢がそれぞれタプルで渡されてしまうため，状態リストへの格納時に要素数が異なるエラーが出てしまっていた．

ValueError: setting an array element with a sequence.

ちなみにこのエラーはsklearnやtensorflowでの画像インプットのdeep learning使用時とかにも出るみたい．

ホットベクトルの定義ミスとか．

よく見直すの大事．

で計算だけど，ハイパーパラメータの調整にもよるんだろうけど，value iterationで500イタレーションで5時間ぐらい．

結構重い． core-i9の8コアでこれだからdeepでなくてもGPUとか使ったほうが良いのかな．

ぜんぜんだめです．強化学習は一筋縄ではいかないみたい．

value iterationでだめならpolicy iterationはどうか．sckit-learnからtensorflow(CPU)に変えてみて再挑戦．

しかし計算が重すぎてPC超発熱．

リモートデスクトップで研究室のやつに切り変える．

とりあえず，進捗報告と研究相談．強化学習に関しては研究室に使ったことある人がいないため，論文読むなり本で勉強するなりして知識を深めること．

そして，リモート接続の許可を貰ったので，遠隔で操作してdesktopに計算丸投げ．

どのくらい時間がかかるのだろうか．

計算中は読書ができるということで読んでいる本

前も紹介したかな．

電子書籍だと読むの疲れるけど，仕方ないか．

帰国まであと38日．