Goalコマンドは、ロボットの成功・失敗のような明確な合格基準があるタスクとは相性がいいと思います。
Claude Codeが5時間くらいかけて精度を上げるというゴールを達成しようとしてくれました。
特に重要なのはその達成するための手段を事前にある程度与えてあげることだと思っています。
ロボットアームをシミュレーション内で強化学習させるい実験をしてみた
Claude Codeの/goalコマンドで「成功するまで学習させて」とOpus4.8に頼んで実験を自動化させた
実験条件
- SO-101
- Genesis, rsl_rl
- PPO
- Mac M2
リアルのSO-101でやっていきたい
SAC(Soft Actor-Critic)に挑戦したい