正文

Long-Horizon Memory for Robot Policies

长时程机器人控制不是只把上下文窗口拉长，而是要决定不同时间尺度的信息如何表示。

这条主题关注机器人策略如何处理分钟级任务。关键不是更多帧，而是多尺度记忆：哪些信息应该保留为短期视觉痕迹，哪些应该抽象成长期语义状态。

来源: MEM: Multi-Scale Embodied Memory for Vision Language Action Models 明确把 memory 分解成视频短期记忆和语言长期记忆，是这条主题的主工作。
来源: π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities 通过 subgoal image、subtask instruction、episode metadata 给策略提供 richer context，本质上也是在补 memory 和 progress control。