スイス滞在記【165日目】
外食!!!!
計算打ち切り
100イタレーションごとにstep数やrewardを保存して書き出しているのだが,150,000あたりから収束してきたので一旦パフォーマンスを確認.
できはあまり良くなく,なぜだろうかと考えてしまう.
平均報酬ほどのパフォーマンスが出ないのはなぜ?
難しい.
久々の外飯
久々にがっつりとした外飯食べました.
油淋鶏です.うますぎて泣くかと思った.
外食最高.
設計の肝
報酬関数の設計もそうだが,とにかくどこをどういうふうに制御するのかのフレームワークが重要なのだろう.
車輪制御に関しては,古典的な制御がうまく機能するからそれよりは行動パターン作成のほうがいいのだろうか.
時間もない中でゴールが見えないのは辛い.
やるしかない.
帰国まであと18日.