前言
本文具有一定的时效性,目前市面上几家主流厂商的模型为:ChatGPT-5.1;Doubao-Seed-1.6;Kimi k2-thinking(刚发布,跑分SOTA);deepseek-v3.2exp。
最近做文献调研很苦恼于读文献,往往看几页就头痛(从小就不爱看书,只爱看小说),感觉也没什么收获,从网上学了点邪招,发现不同的模型效果也不太一样。
正文
论文:ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
Prompt:
1 | 像给高中生讲课一样把这篇论文的完整内容讲给我听,不要遗漏细节和创新,但是高中生有认知基础,不需要更改原有的专有名词和基础知识的表述 |
Result:
好的!今天我们来一起精读一篇2025年9月发表在arXiv上的前沿论文,题目是:
《ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning》
这篇论文来自NVIDIA和台湾大学,研究的是如何让机器人“先思考,再行动”,也就是让机器人不仅能看懂图像、听懂人话,还能在复杂环境中做长期规划、灵活适应新任务,甚至自己纠正错误。
🧠 一、为什么要研究这个?
你们可能已经听说过大语言模型(比如GPT)和多模态模型(比如LLaVA、Qwen-VL),它们能看图、说话、做题。但问题是:
它们不会“动手”!
要让机器人真正“聪明”,它必须能:
- 看懂图像(Vision)
- 听懂人话(Language)
- 做出动作(Action)
这就是VLA(Vision-Language-Action)模型的目标。
但现在的VLA模型大多是端到端训练的,也就是:
输入图像 + 指令 → 直接输出动作
这就像你考试时不列步骤直接写答案,虽然快,但容易错,而且没法做复杂题(比如多步操作、长期规划、适应新环境)。
🧩 二、ThinkAct的核心思想:先思考,再行动
ThinkAct提出了一个双系统架构:
| 系统 | 作用 | 类比 |
|---|---|---|
| 思考系统(Reasoning MLLM) | 看图 + 指令 → 生成“计划” | 大脑 |
| 行动系统(Action Model) | 根据计划 → 控制机器人动作 | 手脚 |
✅ 关键创新:这两个系统不是混在一起训练的,而是通过一个**“视觉计划潜变量”**(visual plan latent)连接起来。
🔍 三、思考系统是怎么“思考”的?
1. 输入:
- 一张图像(机器人看到的场景)
- 一条指令(比如“把草莓放进抽屉”)
2. 输出:
- 一段链式思维(Chain-of-Thought, CoT):比如“我看到草莓在桌子上,抽屉在右边,我要先拿起草莓,再打开抽屉,再放进去”
- 一个视觉计划潜变量(visual plan latent):用一串2D坐标表示机器人手爪的运动轨迹(比如从草莓位置到抽屉位置)
✅ 创新点1:这个轨迹不是随便画的,而是通过强化学习(RL)训练出来的,奖励函数设计得非常巧妙:
🎯 奖励函数 = 目标完成度 + 轨迹合理性 + 格式正确性
- 目标奖励(r_goal):预测的起始点和终点要和真实轨迹接近
- 轨迹奖励(r_traj):整个轨迹要平滑、合理(用DTW距离衡量)
- 格式奖励(r_format):输出格式要对(比如有
<think>和<answer>标签)
✅ 创新点2:用**GRPO(Group Relative Policy Optimization)**来做强化学习,不需要人工标注每一步,只要给奖励信号,模型就能自己“摸索”出最好的思考方式。
🦾 四、行动系统是怎么“行动”的?
1. 输入:
- 当前图像 + 指令 + 视觉计划潜变量(ct)
2. 输出:
- 一连串动作(比如手爪怎么移动、什么时候抓、放)
3. 训练方式:
- 模仿学习(Imitation Learning):看人类怎么做,学着做
- 只更新行动系统,不动思考系统(就像老师只教你怎么动手,不教你怎么想)
✅ 创新点3:异步执行——思考系统可以“慢思考”,每N步才更新一次计划;行动系统可以“快反应”,每步都执行动作。
🧪 五、实验结果:ThinkAct有多强?
✅ 1. 机器人操作任务(SimplerEnv & LIBERO)
| 模型 | 平均成功率 |
|---|---|
| OpenVLA | 76.5% |
| CoT-VLA | 83.9% |
| ThinkAct( ours) | 84.4% |
✅ 提升明显:尤其在“长任务”(比如“把书从左边拿到右边抽屉”)上,ThinkAct比第二名高出15.3%!
✅ 2. 推理任务(EgoPlan-Bench2、RoboVQA、OpenEQA)
| 任务 | 指标 | ThinkAct | 第二名 |
|---|---|---|---|
| EgoPlan-Bench2 | 准确率 | 48.2% | 45.7% |
| RoboVQA | BLEU-4 | 52.4 | 48.0 |
| OpenEQA | 平均分 | 56.2 | 55.5 |
✅ 结论:ThinkAct不仅能动手,还能“动脑子”,在理解、推理、规划上都更强。
🧠 六、ThinkAct的“超能力”:自我纠正 & 少样本学习
✅ 自我纠正(Self-Correction)
- 机器人中途把草莓掉了
- ThinkAct的思考系统发现了问题,重新规划:“哦,草莓掉了,我得回去重新抓”
- 然后行动系统执行新计划,任务完成!
✅ 这就像人类一样:摔了杯子,知道捡起来,而不是继续走
✅ 少样本学习(Few-shot Adaptation)
- 只给10个演示,ThinkAct就能学会一个新任务
- 比OpenVLA、Magma等模型高出**7~9%**的成功率
✅ 这就像你只看了老师做几遍题,就能举一反三
⚠️ 七、局限性与未来方向
| 问题 | 说明 |
|---|---|
| 幻觉问题 | 大模型有时会“看错”或“想错”,比如把“蓝色杯子”说成“红色杯子” |
| 依赖预训练模型 | 如果基础模型本身有偏见,ThinkAct也会继承 |
| 安全性 | 如果机器人误解了“把猫放进箱子”为“把猫扔进箱子”,可能会造成伤害 |
✅ 未来方向:
- 让模型更“接地气”:减少幻觉,增强空间理解
- 加入人类反馈(RLHF):让机器人更懂“人话”
- 加入安全约束:比如“不能抓活体”“不能摔东西”
📌 八、总结一句话
ThinkAct = 让机器人像人一样“先想后做”,不仅能看懂、听懂,还能规划、适应、纠错,是目前最强的“视觉-语言-动作”推理框架之一。
📚 九、课后思考题(可选)
- 如果你来设计一个“视觉计划潜变量”,你会用什么信息?(颜色?深度?物体关系?)
- 如果机器人误解了“把书放进抽屉”为“把书扔进垃圾桶”,你觉得该怎么改进奖励函数?
- 你觉得ThinkAct能不能用在自动驾驶、智能家居、虚拟助手上?为什么?
需要我出一份思维导图或PPT大纲吗?
ThinkAct:视觉 - 语言 - 动作推理的新框架
各位同学,今天我们要拆解一篇 2025 年的前沿论文 ——《ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning》。这篇论文解决了一个关键问题:如何让 AI agents(智能体)像人一样 “先思考、后行动”,在动态环境中完成复杂的多步骤任务。接下来我们从背景、方法、实验、创新点和意义几个方面,把这篇论文的完整内容讲清楚。
一、研究背景:AI “行动” 的痛点是什么?
首先我们要明白,这篇论文关注的是 “视觉 - 语言 - 动作(VLA)推理” 任务。简单说,就是让 AI 接收图像(视觉)、文字指令(语言),然后做出相应的动作(比如机器人抓取物体、移动物品)。但之前的技术存在三个核心痛点:
1. 端到端训练的局限
早期 VLA 模型大多是 “输入直接映射到动作” 的端到端训练,没有中间的思考过程。就像让你不打草稿直接写作文,遇到多步骤任务(比如 “拿起苹果→放到抽屉→关上抽屉”)就会混乱,也没法适应环境变化(比如苹果位置变了)。
2. 推理痕迹的成本与泛化问题
后来有人尝试加入 “思维链(CoT)”,让 AI 先分解任务步骤再行动,但需要人工标注大量中间思考过程,成本极高。而且这些标注的思考痕迹太固定,AI 换个场景就不会用了(比如在桌子上学会拿苹果,在地上就不会了)。
3. 奖励信号不贴合实际行动
还有用强化学习(RL)激励 AI 思考的方法,但奖励信号大多是 “问答准确率” 这种抽象指标,和实际动作执行脱节。比如 AI 答对 “苹果在哪里”,但实际抓取时还是会出错。
所以这篇论文的目标很明确:设计一个框架,让 AI 能自主进行长时程规划、快速适应新场景,还能在出错时自我纠正,同时不用依赖大量人工标注。
二、核心方法:ThinkAct 框架的 “双系统” 设计
ThinkAct 的核心是 “双系统架构”—— 一个负责 “思考规划”,一个负责 “动作执行”,中间通过 “视觉潜规划” 连接。我们一步步拆解这个框架的工作原理:
1. 问题定义
先明确任务场景:在每个时间步 t,AI 会收到 “视觉观察 oₜ”(比如当前场景的图像)和 “文字指令 l”(比如 “把草莓放进抽屉”),需要输出动作 aₜ(可能是文字指令,也可能是机器人的 7 自由度控制向量)。目标是让 AI 完成多步骤、动态环境中的任务。
2. 系统一:强化视觉潜规划(负责 “思考”)
这个系统的核心是让多模态大语言模型(MLLM)学会 “有奖励的思考”,奖励来自 “和动作对齐的视觉反馈”,而不是抽象指标。
(1)动作对齐的视觉奖励设计
这是论文的关键创新之一 —— 奖励不是看 “思考对不对”,而是看 “思考能不能指导动作做好”。奖励分两部分:
- 目标奖励(r_goal):比较 AI 预测的动作起点和终点(比如抓取草莓的起点、放入抽屉的终点)与真实轨迹的偏差。用公式表示为:r_goal = 1/2 [f (p₁,ŷ₁) + f (p_K,ŷ_K)],其中 f (p,p’)=max (0,1-||p-p’||²₂),简单说就是偏差越小,奖励越高。
- 轨迹奖励(r_traj):确保 AI 规划的动作轨迹(比如机器人手臂移动路径)符合物理规律,和真实轨迹的分布一致。用动态时间规整(DTW)计算轨迹距离 d (τ,τ̂),奖励为 r_traj = max (0,1-d (τ,τ̂))。
总奖励是视觉奖励和格式正确性奖励的加权和:r=0.9r_visual + 0.1r_format,其中 r_visual=ω_goal r_goal + ω_traj r_traj(ω 是权重系数)。
(2)强化微调:用 GRPO 优化思考过程
为了让 MLLM 学会按这个奖励 “思考”,论文用了 Group Relative Policy Optimization(GRPO)算法。过程很简单:
- 给 MLLM 输入 (oₜ,l),让它生成 M 个不同的思考结果(比如不同的任务分解步骤);
- 用上面的奖励函数给每个思考结果打分;
- 优化 MLLM,让它更倾向于生成高分的思考结果,同时用 KL 散度防止模型偏离原有能力。
(3)视觉规划潜变量:连接思考与行动
MLLM 思考后会输出两个东西:一是可解释的推理步骤(比如 “1. 找到草莓;2. 移动到草莓位置;3. 抓取”),二是压缩后的 “视觉规划潜变量 cₜ”。这个潜变量是关键,它把抽象的思考转化为机器能理解的、包含时空信息的向量,用来指导后续动作执行。
3. 系统二:推理增强的动作适配(负责 “行动”)
动作模型 π_φ 基于 Transformer(具体是 DiT 架构),输入是视觉观察 oₜ、文字指令 l,再加上系统一输出的视觉规划潜变量 cₜ。训练时:
- 先在大规模机器人数据集(Open X-Embodiment)上预训练,打好动作执行的基础;
- 然后通过模仿学习微调,让动作模型学会 “跟着思考结果行动”,此时系统一的 MLLM 保持冻结,只更新动作模型和连接两者的 “潜变量投射器”。
(4)异步设计:慢思考、快行动
两个系统可以异步工作:MLLM 每 N 步思考一次(比如规划 5 个动作的整体方向),动作模型则根据这个规划连续执行 N 个动作。这样既保证了思考的全局性,又不影响动作执行的速度。
4. 训练策略
分三个阶段:
- 冷启动(SFT):用标注数据让 MLLM 学会基本的推理格式和视觉轨迹理解,动作模型在 Open X-Embodiment 上预训练;
- 强化微调:用 GRPO 和视觉对齐奖励优化 MLLM 的思考能力;
- 动作适配:冻结 MLLM,微调动作模型和潜变量投射器,适配目标环境。
三、实验验证:ThinkAct 表现如何?
论文做了大量实验,覆盖机器人操作和具身推理两大场景,我们重点看核心结果:
1. 实验设置
- 模型初始化:MLLM 用 Qwen2.5-VL 7B,动作模型是 432M 参数的 DiT-Policy;
- 训练数据:包括机器人轨迹数据(Open X-Embodiment)、人类操作视频(Something-Something V2)、具身问答数据(RoboVQA、EgoPlan-IT 等);
- 评估基准:机器人操作(SimplerEnv、LIBERO)、具身推理(EgoPlan-Bench2、RoboVQA、OpenEQA)。
2. 核心实验结果
(1)机器人操作任务
在 SimplerEnv 和 LIBERO 上,ThinkAct 的整体成功率远超现有方法:
- SimplerEnv 的 Google-VM 子集,整体成功率 71.5%,比第二名 Magma 高 3.1%;
- LIBERO 的长时程任务(LIBERO-Long)成功率 70.9%,比 CoT-VLA 高 1.9%,解决了多步骤规划的难题。
(2)具身推理任务
- EgoPlan-Bench2 整体准确率 48.2%,比微调后的 Qwen2.5-VL 高 2.5%;
- RoboVQA 的 BLEU-1 分数 69.1,比第二名高 3.8,说明推理的连贯性和准确性更强。
3. 关键能力验证
(1)少样本适配
只用 10 个任务演示微调,ThinkAct 在 LIBERO 的空间布局、物体多样性任务上的成功率远超 OpenVLA、Magma 等方法,说明思考能力让 AI 能快速适应新场景。
(2)自我纠正
当机器人执行中出错(比如抓取物体时掉落),ThinkAct 能通过观察连续视频帧发现问题,重新规划动作(比如 “重新定位掉落的物体→再次抓取”),而其他模型会一直按原计划执行,导致任务失败。
4. 消融实验
为了验证各组件的作用,论文做了对比实验:
- 去掉轨迹奖励(r_traj):SimplerEnv 成功率从 60.1 降到 59.2,说明轨迹奖励能保证动作的物理合理性;
- 去掉目标奖励(r_goal):EgoPlan-Bench2 准确率从 48.2 降到 47.6,说明目标奖励能引导长时程规划;
- 不使用视觉对齐奖励,只用水问答奖励:性能接近冷启动模型,证明视觉 - 动作对齐的奖励是核心。
四、创新点总结
这篇论文的核心创新的三个方面,也是它能解决之前痛点的关键:
- 双系统架构:首次将 “结构化推理” 和 “动作执行” 通过视觉潜规划明确分离,既保证了思考的逻辑性,又让动作执行更稳健;
- 动作对齐的视觉奖励:突破了传统强化学习中 “奖励与动作脱节” 的问题,用视觉轨迹和目标完成度作为奖励,让思考直接服务于行动;
- 异步推理 - 执行机制:实现 “慢思考、快行动”,平衡了规划的全局性和执行的高效性,还能支持少样本适配和自我纠正。
五、局限性与未来方向
1. 局限性
- 继承了多模态大语言模型的 “幻觉问题”:有时会推理出不存在的物体或错误的空间关系,影响动作执行;
- 推理频率(N 值)需要根据任务调整:太稀疏会导致无法及时纠正错误,太频繁会增加计算成本。
2. 未来方向
- 优化幻觉抑制:让推理更贴合真实视觉场景;
- 加入人类意图对齐:在安全关键场景(比如家庭服务机器人)中,确保 AI 的思考和动作符合人类预期;
- 扩展到更复杂的环境:比如动态障碍物、多机器人协作等场景。
六、总结
ThinkAct 的核心思想很简单 —— 让 AI “先想清楚再动手”,但它通过双系统架构、视觉对齐奖励、强化微调等技术,把这个思想落地成了一个高效、稳健的框架。它不仅在机器人操作、具身推理任务中表现突出,还为未来的物理 AI 应用(比如家庭助手机器人、AR 辅助系统)提供了新的思路:只有让 AI 具备和动作紧密结合的推理能力,才能真正适应复杂的真实世界。
要不要我帮你整理一份ThinkAct 框架核心组件思维导图,把论文的关键结构、公式和实验结论可视化呈现?
我直接把这篇 ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning 当成一堂「具身智能 + 强化学习 + 大模型」的系统课来讲,目标:讲完你关掉网页也能把这篇 paper 的主线、公式、实验记在脑子里。
0. 这篇论文到底在解决什么问题?
先捋概念:
- MLLM / VLM:会“看图说话”的多模态大模型,做 VQA、caption、视频理解都很强。
- VLA(Vision-Language-Action):不仅看和说,还要「动手」——例如机器人看场景、听指令,然后真的去抓物体、开抽屉。
现状问题:
- 现有很多 VLA(OpenVLA、TraceVLA 等)通常是
视觉 + 文本 → 直接输出低层动作,是 end-to-end 黑箱映射。- 好处:简单、推理快。
- 坏处:没有显式“思考 / 计划”过程,
- 对长时序任务(多步、长距离搬运)不稳。
- 碰到新环境、新目标,泛化差。
- 最近有人给 VLA 加上 CoT(Chain-of-Thought):
- 如 ECoT、RAD、CoT-VLA:
先让大模型生成中间的「文字计划 / 子目标」,再输出动作。 - 问题:这些 CoT 轨迹大多靠「手工标注 / prompt 其他大模型生成」,
- 质量参差不齐,
- 容易 overfit 特定场景、特定套路。
- 如 ECoT、RAD、CoT-VLA:
- 还有一条路线:用 RL(强化学习)优化大模型的“思考过程”(比如 R1、GRPO 系列),
- 典型做法是:奖励 = 答案对不对 + 格式对不对。
- 这类方法只适合 QA 类任务,很难直接指导「真实世界中的机械臂轨迹」。
作者想做的事:
> 让大模型在执行动作前,真正“想一想”(Think),
> 用和动作强相关的视觉奖励强化这个思考过程,
> 然后用这份「想好的计划」去指导机器人执行(Act)。
所以有了 ThinkAct ——一个「双系统」VLA 框架:
- 上层:Reasoning MLLM(会想)
- 下层:Action Model(会动)
- 中间通过一个 Visual Plan Latent(视觉计划隐变量) 来沟通。
1. 总体架构:Think + Act 这两个系统怎么协同?
1.1 任务设定与符号
在每个时间步 :
- 输入:
- 视觉观测 :可以是一张图或一段视频片段。
- 文本指令 :比如 “put the strawberry in the drawer”。
- 目标:输出一个动作 ,
- 可以是离散指令(比如“open drawer”)、
- 也可以是 7-DOF 控制向量( 之类)。
他们搭了两个模块:
- Reasoning MLLM ()
- 输入:
- 输出两类 token embedding:
- :对应
<think> ... </think>的语言推理步骤 - :对应视觉计划 latent,之后会被解析为一条 2D 轨迹 。
- :对应
- Action Model ()
- 输入:
- 当前状态(图像 + 语言编码)
- 上面的视觉计划 latent
- 输出:未来连续 步的动作 。
- 输入:
关键点:Reasoning 不必每一步都重算,可以 每 N 步计划一次,中间 Action Model 快速执行,这就是论文口中的 “slow thinking, fast control”。
2. 如何用强化学习教大模型「想出好的视觉计划」?
这部分是论文的核心创新:Reinforced Visual Latent Planning(用动作对齐的视觉奖励来强化推理)。
2.1 先把「计划」变成一条可比较的 2D 轨迹
他们把高层计划用一条 2D 轨迹来表示:
从人类/机器人演示数据中,用现有 detector 提取机械臂末端(gripper)的屏幕坐标轨迹:
MLLM 在
<answer>中也输出一个 8 个点左右的 2D 轨迹 。
这两个轨迹之间的「相似程度」就是之后 reward 的来源。
2.2 两种视觉奖励:Goal Reward + Trajectory Reward
作者设计了一个叫 action-aligned visual feedback 的奖励,由两部分组成:
① Goal Reward ()
目标:起点/终点是否对得上。
用函数
再对起点和终点位置做平均:
直觉:预测起点终点越接近演示轨迹, 越高。
② Trajectory Reward ()
目标:整条路径的形状要像。
用 Dynamic Time Warping (DTW) 计算两条轨迹的距离 ,
然后:
总结一下:
- :终点对不对?
- :路线像不像?
③ 视觉奖励 + 格式奖励 = 总奖励
视觉奖励:
再加上一个 格式奖励 ()(确保输出有 <think> 和 <answer>,格式正确,类似 R1 / Video-R1 做法),最终:
> 也就是说:大部分奖励来自「你的轨迹和演示轨迹像不像」,少部分来自「你有没有乖乖用指定格式输出」。
2.3 用 GRPO 优化 MLLM 的「思考过程」
他们用的是近两年很热门的 GRPO(Group Relative Policy Optimization) 来训练 MLLM:
给同一个输入 ,从旧策略 里面采样 个完整输出 ,
每个都包含<think> ... </think>和 2D 轨迹。对每个 计算 reward ,算出 group 内的「相对优势」:
优化目标:
- 第一个部分:鼓励高 reward 的输出概率变大。
- KL 项:防止模型离原始权重太远,保持稳定。
此外,他们把其它 QA 数据(RoboVQA、EgoPlan、LLaVA-Video)的 reward 也并进来:
- QA 题:奖励就是答案是否正确或 ROUGE 分数等。
- 这样 MLLM 一边学「能看懂视频、答问题」,一边学「能为机械臂想轨迹」。
训练完 RL 后,模型就能产生既有 <think> 长推理,又能输出合理 2D 轨迹的答案;然后把这个 2D 轨迹embedding部分抽象成一个 visual plan latent () 提供给行动模块用。
3. Action Model:如何利用「想好的计划」去执行动作?
下面讲第二个系统:Reasoning-Enhanced Action Adaptation。
3.1 Action Model 架构
他们选了一个 Diffusion Policy(DiT-based) 的动作模型 :
- State Encoder:
- 图像编码:DINOv2
- 文本编码:CLIP text encoder
把当前图像 + 指令编码成 1024 维向量。
- Policy 本体:
- 一个 DiT(Diffusion Transformer)作为 policy,输出一段动作序列。
- Latent Projector:
- 使用 Q-Former(类似 BLIP-2 中的)来把视觉计划 latent 映射到能和 state 结合的空间:
- 32 个 learnable queries。
- 输入:
- 输出:一组嵌入,拼接进 action model 的条件输入。
- 使用 Q-Former(类似 BLIP-2 中的)来把视觉计划 latent 映射到能和 state 结合的空间:
3.2 训练目标:模仿学习 + 计划条件
在动作适配阶段:
冻结 (推理模型),只更新:
- State Encoder
- Latent Projector(Q-Former)
- DiT policy 本身
Loss:标准的 imitation learning:
其中 可以是 MSE 或类似的轨迹 loss。
异步执行(asynchronous):
- 每隔 步才调用一次 MLLM 生成新的 ,
- 中间 步都由 快速滚动执行。
- 例如:SimplerEnv 里 ,LIBERO 里 。
这样就实现了:
> 上层慢思考(生成计划),下层快执行(跟随计划),
> 又不至于每一步都跑一次大模型,推理太慢。
4. 训练策略与数据:冷启动 + RL + 适配
4.1 模型规模与超参数
- MLLM backbone:Qwen2.5-VL 7B。
- 冷启动(SFT):
- 迭代:20K
- batch size:32
- lr:1e-5
- RL(GRPO):
- 迭代:6K
- batch size:64
- rollout size:5
- lr:1e-6
- KL 系数
- 最大响应长度:1024 token
- 采样:温度 1.0,top-p = 0.99
- Action Model:
- DiT policy,432M 参数
- 在 OXE 上预训练
- reasoning-conditioned 适配:
- 先在 100K OXE 样本上训练 120K iter(batch 256,lr 2e-5)
- 再在 LIBERO 上 fine-tune 75K iter(batch 128)
硬件:16 张 A100 80G。
4.2 用到哪些数据集?
用于训练 Reasoning MLLM(SFT + RL):
- 轨迹数据:
- OXE 的 fractal20220817_data、bridge 子集(机器人)
- Something-Something V2(人手操作)
- 用 gripper / hand detector + RDP 简化成 8 个关键点的 2D 轨迹。
- QA / CoT 数据:
- RoboVQA(机器人长时序视频问答)
- EgoPlan-IT / EgoPlan-Val(生活场景多步规划)
- Video-R1-CoT(165K 有 CoT 的视频问题)
- LLaVA-Video-178K(视频 caption + QA)
- Reflect / RoboFail(失败检测相关)
用于训练 Action Model:
- OXE(大规模机器人示范)
- LIBERO(四个任务套件:Spatial / Object / Goal / Long)
评测基准:
- Manipulation:
- SimplerEnv(Google-VM / Google-VA / Bridge-VM)
- LIBERO(Spatial / Object / Goal / Long)
- Embodied Reasoning:
- EgoPlan-Bench2(多选)
- RoboVQA(BLEU)
- OpenEQA(LLM 打分)
5. 实验结果:是不是比别人强?
5.1 机器人操作任务(SimplerEnv + LIBERO)
Table 1 是大比武的结果。简要读数:
- 在 SimplerEnv 上:
- Google-VM(视觉匹配):
- DiT-Policy:56.0%
- ThinkAct:71.5%
- Google-VA(变体聚合):
- DiT-Policy:48.2%
- ThinkAct:65.1%
- Bridge-VM:
- DiT-Policy:35.4%
- ThinkAct:43.8%
- Google-VM(视觉匹配):
ThinkAct 基本全线超过 DiT-Policy 和 OpenVLA / TraceVLA / Magma 等方法。
- 在 LIBERO 上:
- Spatial:ThinkAct 88.3%
- Object:91.4%
- Goal:87.1%
- Long:70.9%
- Overall:84.4%,
比 CoT-VLA、DiT-Policy 都略高一些。
结论:加了 reasoning + visual latent 之后,尤其在长时序、复杂场景中,成功率明显上升。
5.2 具身推理任务(EgoPlan-Bench2, RoboVQA, OpenEQA)
Table 2 比的是「会不会想」这一块:
- EgoPlan-Bench2(多步日常任务规划,accuracy):
- Qwen2.5-VL*(只做常规 fine-tune):45.7%
- ThinkAct:48.2%(提升 2.5 个点)
- RoboVQA(BLEU):
- Qwen2.5-VL*:55.7
- ThinkAct:59.8(+4.1)
- OpenEQA:
- 最终 Overall:ThinkAct 56.2,
也是所有方法里数一数二的表现。
- 最终 Overall:ThinkAct 56.2,
说明:用动作对齐的视觉奖励去强化推理,确实能提升多模态长时序推理质量。
5.3 可视化例子:Think 先想,再 Act 执行
图 3 展示了几个任务:
- “Move the 7up can near the apple”
- “Put eggplant into yellow basket”
- “Pick up the book and place it in the back compartment”
可以看到:
<think>里模型先描述场景、分解子任务:- 找目标物体 → 找目标位置 → 规划路径。
- 然后给出 2D 轨迹,
把这条轨迹传给 Action Model 后,机械臂真的沿着类似的路径移动。
图 4 / A7 对比了 有无 RL 的推理差异:
- SFT-only:经常误解问题或只描述当前画面,缺乏未来规划。
- RL 之后:
- 更关注任务目标和未来步骤,
- 理解更深入,回答更稳定。
6. 消融实验:奖励设计到底有多重要?
Table 3 + A6 是关键消融:
| 方法 | SimplerEnv | EgoPlan | RoboVQA | LIBERO | OpenEQA |
|---|---|---|---|---|---|
| Full ThinkAct | 60.1 | 48.2 | 59.8 | 84.4 | 56.2 |
| w/o | 59.2 | 47.9 | 58.5 | 82.1 | 55.9 |
| w/o | 59.1 | 47.6 | 58.9 | 81.7 | 55.6 |
| w/o both | 56.9 | 47.2 | 58.3 | 81.6 | 55.7 |
| SFT only | 56.4 | 46.4 | 57.9 | 79.1 | 53.3 |
结论很直接:
- 单拿掉 goal reward 或 trajectory reward,性能都会掉一点。
- 全拿掉,只用 QA 式奖励,和 SFT 差不多,说明动作对齐的视觉奖励是核心贡献。
- RL 整体比 SFT-only 提升明显。
他们还做了一个 N(每次 reasoning 覆盖的动作数) 的消融:
- 在 LIBERO 上:
- N=25: 84.0%
- N=50: 84.6%(最好)
- N=75: 84.4%
- N=100: 83.7%
解释也很直观:
- N 太大:reasoning 太稀疏,错了也来不及纠正 → 自纠能力下降。
- N 太小:频繁调用 MLLM,计算贵,收益有限。
7. Few-shot 适应与自纠能力:Reasoning 真有用吗?
7.1 Few-shot 适应(5-shot & 10-shot LIBERO)
他们做了类似「小样本迁移学习」的实验:
- 在 LIBERO 的 Spatial / Object / Goal 上:
- 每个任务只给 5 或 10 条 demo 进行 fine-tune。
- 比较 OpenVLA / Magma / ThinkAct。
结果:
- 在 10-shot 设置下,ThinkAct 在 Spatial 和 Goal 上都比 Magma 高 7~10 个百分点;
- 5-shot 下也是同样趋势。
作者解释:
因为 Action Model 能利用来自 MLLM 的高层计划 latent,迁移到新场景/新目标时,只要能重新“想清楚要做什么”,动作层需要适配的部分就少得多。
7.2 自我反思与自纠(Self-Correction)
他们做了一个很有意思的展示(图 6 + A8):
- 任务:把 box 放进 basket。
- 执行过程中机器人不小心把 box 掉在半路。
- 这时,把输入给 Reasoning MLLM 从单帧图像扩展到短视频片段 ():
- 让它看到“刚才发生了什么”。
RL 后的 ThinkAct 会在 <think> 中说类似:
> “我发现奶油盒子从机械臂上掉下来了……
> 那我需要重新去抓它,再放入篮子。”
然后产生一个新轨迹,指导 Action Model 回去捡起物体,再完成任务。
这个能力本质上来自:
- 长时序视频理解(通过 QA 数据和 RL 学的),
- 再加上「计划 → 轨迹 → 执行」的闭环。
8. 进一步分析与扩展结果
8.1 更小模型也可用
他们把 backbone 换成 Qwen2.5-VL-3B,做了一个 ThinkAct-3B,
再和其他 2B/3B 多模态模型对比:InternVL2.5-2B, NVILA-2B 等。
结果:
- 在 EgoPlan-Bench2 / RoboVQA / OpenEQA 上,ThinkAct-3B 依然整体最强。
- 说明这个「用视觉奖励强化 latent planning」的思路不限于某一个 backbone 或大模型体量。
8.2 推理速度开销
他们还测了一下推理时间:
- 在 LIBERO 上,ThinkAct 比 end-to-end 的 OpenVLA 慢了约 17%。
- 原因就一个:多了一次 autoregressive 的 Reasoning 步骤。
作者认为这是一个「用一些速度换来长时序规划和自纠能力」的 trade-off。
9. 总结、局限与更大的图景
9.1 论文主要贡献回顾
作者自己总结了四点贡献,可以用大白话串一下:
- 提出 ThinkAct:
一个把「视觉-语言推理」和「动作执行」用 visual latent plan 串起来的双系统 VLA 框架。 - 设计了 动作对齐的视觉奖励(goal + trajectory),
用 GRPO 强化 MLLM 的具身推理能力,而不是只看 QA 准确率。 - 发挥 visual latent planning 的力量:
让下游 Action Model 在新环境/新任务中更易适配(few-shot)。 - 实验上证明了:
在多种 robot manipulation 与 embodied reasoning benchmark 上,
ThinkAct 拥有 更好的长时序规划、few-shot 适应和自我纠错能力。
9.2 局限性
论文也很诚实地说了几个坑:
- 建立在预训练 MLLM 之上,所以难免继承:
- 视觉幻觉(看错颜色/位置),
- 空间关系理解错误。
- 一旦推理部分 hallucinate(比如“看到一个并不存在的杯子”),
后面的轨迹和动作就跟着跑偏。 - 未来可以研究:
- 更强的 grounding / hallucination suppression,
- 更安全、可控的 CoT 输出。
9.3 更大的格局:为什么这类工作值得关注?
从更宏观一点看,这篇 paper 其实在做三件事的「拼接」:
- 把 CoT-style 推理 不再局限在文本题、数学题,而是用到机器人的世界模型中;
- 把 RL 信号的定义 从「答案对不对」提升到「轨迹是否合理」;
- 把「会想」和「会动」拆成两个系统,再用一个 latent 打通。
这条路往前走,有可能演化出:
- 可以先用语言(+视频)想半天,再谨慎执行的家庭机器人;
- 在仿真环境中不断通过 RL 打磨“思考风格”的行动智能体;
- 对长时序、开放世界任务更有适应力的 VLA。
如果你之后想基于这篇做自己的工作,可以重点思考:
- 能否设计更细粒度的奖励(比如 subgoal-level success,而不是整条轨迹)?
- visual latent 之外,是否可以加上 符号化的子目标图,让 action model 可解释性更强?
- RL 的数据效率和稳定性,是否能用off-policy / critic-based 方法进一步优化?
这篇论文给的是一个挺清晰的框架,后面很多改造点都可以往里挂。
总结
个人观感:Kimi>ChatGPT>Doubao
kimi是真的把你当学生再教,论文的核心思路也被展现的淋漓尽致,我真的哭死。
ChatGPT是论文翻译器,将论文顺序条理分明的展现出来,但是看着依然让人头大。
Doubao有点南平,比较中庸。
综上,可以先用kimi读一遍论文对论文有大致的了解,对于具体的细节,比如奖励设计和训练细节可以去读论文或者参考ChatGPT。
但是OpenAI的model routing过于逆天,多数时间回答的水平并没有很高,甚至不如豆包。
不得不说大家对于内容输出的把控是真的越来越严格了,只有kimi在短提示词下做到了教师角色带入,输出内容比较丰富,有表格和表情读起来不至于很累,且输出质量比较稳定。
作者没有对提示词进行不同的尝试,可能通过不同提示词的调教是能达到理想的效果的。但是复杂的Prompt设计其实也增加了使用的复杂性。。。。
胡言乱语
又是周五喽,晚上健个身去看《魔盗团3》,爽!周末可以小小放纵一下