時計すげえ RL Patek Pilippe RL どうも離散行動リストで強化学習を行うと跳躍行動を排除してしまう. なので報酬関数を跳躍誘起か探索の割合のパラメタを増やしてみるしかないか. ここは残り少ない時間でできることと,発表でのフィードバックをもらおう.…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。