3️⃣ 互联网 / 人类视频
互联网和以人为核心的视频是最丰富且成本最低的可用原材料。
优点:规模化。它帮助基础模型建立基本的物理认知——理解世界如何运作、空间推理和人类意图。
缺点:缺乏力、扭矩和触觉反馈。视频展示了行动的结果,但不能精确显示执行所需的电机信号。AI知道“做什么”,但不知道“如何”移动关节来完成。
趋势:硅谷先驱如Physical Intelligence、Figure AI和Sunday Robotics正积极转向此方向。通过将强化学习与去中心化、以自我为中心(第一人称)视频收集相结合,它们旨在绕过繁重的远程操作。像苹果的EgoDex和NVIDIA的EgoScale等项目正是为此:从海量、低成本的人类视频中提取高信号、可用的行动数据。