前言

本文具有一定的时效性,目前市面上几家主流厂商的模型为:ChatGPT-5.1;Doubao-Seed-1.6;Kimi k2-thinking(刚发布,跑分SOTA);deepseek-v3.2exp。

最近做文献调研很苦恼于读文献,往往看几页就头痛(从小就不爱看书,只爱看小说),感觉也没什么收获,从网上学了点邪招,发现不同的模型效果也不太一样。

正文

论文:ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

Prompt:

1
像给高中生讲课一样把这篇论文的完整内容讲给我听,不要遗漏细节和创新,但是高中生有认知基础,不需要更改原有的专有名词和基础知识的表述

Result:

好的!今天我们来一起精读一篇2025年9月发表在arXiv上的前沿论文,题目是:

《ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning》

这篇论文来自NVIDIA和台湾大学,研究的是如何让机器人“先思考,再行动”,也就是让机器人不仅能看懂图像、听懂人话,还能在复杂环境中做长期规划、灵活适应新任务,甚至自己纠正错误


🧠 一、为什么要研究这个?

你们可能已经听说过大语言模型(比如GPT)和多模态模型(比如LLaVA、Qwen-VL),它们能看图、说话、做题。但问题是:

它们不会“动手”!

要让机器人真正“聪明”,它必须能:

  • 看懂图像(Vision)
  • 听懂人话(Language)
  • 做出动作(Action)

这就是VLA(Vision-Language-Action)模型的目标。

但现在的VLA模型大多是端到端训练的,也就是:

输入图像 + 指令 → 直接输出动作

这就像你考试时不列步骤直接写答案,虽然快,但容易错,而且没法做复杂题(比如多步操作、长期规划、适应新环境)。


🧩 二、ThinkAct的核心思想:先思考,再行动

ThinkAct提出了一个双系统架构

系统作用类比
思考系统(Reasoning MLLM)看图 + 指令 → 生成“计划”大脑
行动系统(Action Model)根据计划 → 控制机器人动作手脚

关键创新:这两个系统不是混在一起训练的,而是通过一个**“视觉计划潜变量”**(visual plan latent)连接起来。


🔍 三、思考系统是怎么“思考”的?

1. 输入:

  • 一张图像(机器人看到的场景)
  • 一条指令(比如“把草莓放进抽屉”)

2. 输出:

  • 一段链式思维(Chain-of-Thought, CoT):比如“我看到草莓在桌子上,抽屉在右边,我要先拿起草莓,再打开抽屉,再放进去”
  • 一个视觉计划潜变量(visual plan latent):用一串2D坐标表示机器人手爪的运动轨迹(比如从草莓位置到抽屉位置)

创新点1:这个轨迹不是随便画的,而是通过强化学习(RL)训练出来的,奖励函数设计得非常巧妙:

🎯 奖励函数 = 目标完成度 + 轨迹合理性 + 格式正确性

  • 目标奖励(r_goal):预测的起始点和终点要和真实轨迹接近
  • 轨迹奖励(r_traj):整个轨迹要平滑、合理(用DTW距离衡量)
  • 格式奖励(r_format):输出格式要对(比如有<think><answer>标签)

创新点2:用**GRPO(Group Relative Policy Optimization)**来做强化学习,不需要人工标注每一步,只要给奖励信号,模型就能自己“摸索”出最好的思考方式。


🦾 四、行动系统是怎么“行动”的?

1. 输入:

  • 当前图像 + 指令 + 视觉计划潜变量(ct)

2. 输出:

  • 一连串动作(比如手爪怎么移动、什么时候抓、放)

3. 训练方式:

  • 模仿学习(Imitation Learning):看人类怎么做,学着做
  • 只更新行动系统,不动思考系统(就像老师只教你怎么动手,不教你怎么想)

创新点3异步执行——思考系统可以“慢思考”,每N步才更新一次计划;行动系统可以“快反应”,每步都执行动作。


🧪 五、实验结果:ThinkAct有多强?

✅ 1. 机器人操作任务(SimplerEnv & LIBERO)

模型平均成功率
OpenVLA76.5%
CoT-VLA83.9%
ThinkAct( ours)84.4%

提升明显:尤其在“长任务”(比如“把书从左边拿到右边抽屉”)上,ThinkAct比第二名高出15.3%

✅ 2. 推理任务(EgoPlan-Bench2、RoboVQA、OpenEQA)

任务指标ThinkAct第二名
EgoPlan-Bench2准确率48.2%45.7%
RoboVQABLEU-452.448.0
OpenEQA平均分56.255.5

结论:ThinkAct不仅能动手,还能“动脑子”,在理解、推理、规划上都更强。


🧠 六、ThinkAct的“超能力”:自我纠正 & 少样本学习

✅ 自我纠正(Self-Correction)

  • 机器人中途把草莓掉了
  • ThinkAct的思考系统发现了问题,重新规划:“哦,草莓掉了,我得回去重新抓”
  • 然后行动系统执行新计划,任务完成!

这就像人类一样:摔了杯子,知道捡起来,而不是继续走

✅ 少样本学习(Few-shot Adaptation)

  • 只给10个演示,ThinkAct就能学会一个新任务
  • 比OpenVLA、Magma等模型高出**7~9%**的成功率

这就像你只看了老师做几遍题,就能举一反三


⚠️ 七、局限性与未来方向

问题说明
幻觉问题大模型有时会“看错”或“想错”,比如把“蓝色杯子”说成“红色杯子”
依赖预训练模型如果基础模型本身有偏见,ThinkAct也会继承
安全性如果机器人误解了“把猫放进箱子”为“把猫扔进箱子”,可能会造成伤害

未来方向

  • 让模型更“接地气”:减少幻觉,增强空间理解
  • 加入人类反馈(RLHF):让机器人更懂“人话”
  • 加入安全约束:比如“不能抓活体”“不能摔东西”

📌 八、总结一句话

ThinkAct = 让机器人像人一样“先想后做”,不仅能看懂、听懂,还能规划、适应、纠错,是目前最强的“视觉-语言-动作”推理框架之一。


📚 九、课后思考题(可选)

  1. 如果你来设计一个“视觉计划潜变量”,你会用什么信息?(颜色?深度?物体关系?)
  2. 如果机器人误解了“把书放进抽屉”为“把书扔进垃圾桶”,你觉得该怎么改进奖励函数?
  3. 你觉得ThinkAct能不能用在自动驾驶、智能家居、虚拟助手上?为什么?

需要我出一份思维导图PPT大纲吗?

ThinkAct:视觉 - 语言 - 动作推理的新框架

各位同学,今天我们要拆解一篇 2025 年的前沿论文 ——《ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning》。这篇论文解决了一个关键问题:如何让 AI agents(智能体)像人一样 “先思考、后行动”,在动态环境中完成复杂的多步骤任务。接下来我们从背景、方法、实验、创新点和意义几个方面,把这篇论文的完整内容讲清楚。

一、研究背景:AI “行动” 的痛点是什么?

首先我们要明白,这篇论文关注的是 “视觉 - 语言 - 动作(VLA)推理” 任务。简单说,就是让 AI 接收图像(视觉)、文字指令(语言),然后做出相应的动作(比如机器人抓取物体、移动物品)。但之前的技术存在三个核心痛点:

1. 端到端训练的局限

早期 VLA 模型大多是 “输入直接映射到动作” 的端到端训练,没有中间的思考过程。就像让你不打草稿直接写作文,遇到多步骤任务(比如 “拿起苹果→放到抽屉→关上抽屉”)就会混乱,也没法适应环境变化(比如苹果位置变了)。

2. 推理痕迹的成本与泛化问题

后来有人尝试加入 “思维链(CoT)”,让 AI 先分解任务步骤再行动,但需要人工标注大量中间思考过程,成本极高。而且这些标注的思考痕迹太固定,AI 换个场景就不会用了(比如在桌子上学会拿苹果,在地上就不会了)。

3. 奖励信号不贴合实际行动

还有用强化学习(RL)激励 AI 思考的方法,但奖励信号大多是 “问答准确率” 这种抽象指标,和实际动作执行脱节。比如 AI 答对 “苹果在哪里”,但实际抓取时还是会出错。

所以这篇论文的目标很明确:设计一个框架,让 AI 能自主进行长时程规划、快速适应新场景,还能在出错时自我纠正,同时不用依赖大量人工标注。

二、核心方法:ThinkAct 框架的 “双系统” 设计

ThinkAct 的核心是 “双系统架构”—— 一个负责 “思考规划”,一个负责 “动作执行”,中间通过 “视觉潜规划” 连接。我们一步步拆解这个框架的工作原理:

1. 问题定义

先明确任务场景:在每个时间步 t,AI 会收到 “视觉观察 oₜ”(比如当前场景的图像)和 “文字指令 l”(比如 “把草莓放进抽屉”),需要输出动作 aₜ(可能是文字指令,也可能是机器人的 7 自由度控制向量)。目标是让 AI 完成多步骤、动态环境中的任务。

2. 系统一:强化视觉潜规划(负责 “思考”)

这个系统的核心是让多模态大语言模型(MLLM)学会 “有奖励的思考”,奖励来自 “和动作对齐的视觉反馈”,而不是抽象指标。

(1)动作对齐的视觉奖励设计

这是论文的关键创新之一 —— 奖励不是看 “思考对不对”,而是看 “思考能不能指导动作做好”。奖励分两部分:

  • 目标奖励(r_goal):比较 AI 预测的动作起点和终点(比如抓取草莓的起点、放入抽屉的终点)与真实轨迹的偏差。用公式表示为:r_goal = 1/2 [f (p₁,ŷ₁) + f (p_K,ŷ_K)],其中 f (p,p’)=max (0,1-||p-p’||²₂),简单说就是偏差越小,奖励越高。
  • 轨迹奖励(r_traj):确保 AI 规划的动作轨迹(比如机器人手臂移动路径)符合物理规律,和真实轨迹的分布一致。用动态时间规整(DTW)计算轨迹距离 d (τ,τ̂),奖励为 r_traj = max (0,1-d (τ,τ̂))。

总奖励是视觉奖励和格式正确性奖励的加权和:r=0.9r_visual + 0.1r_format,其中 r_visual=ω_goal r_goal + ω_traj r_traj(ω 是权重系数)。

(2)强化微调:用 GRPO 优化思考过程

为了让 MLLM 学会按这个奖励 “思考”,论文用了 Group Relative Policy Optimization(GRPO)算法。过程很简单:

  1. 给 MLLM 输入 (oₜ,l),让它生成 M 个不同的思考结果(比如不同的任务分解步骤);
  2. 用上面的奖励函数给每个思考结果打分;
  3. 优化 MLLM,让它更倾向于生成高分的思考结果,同时用 KL 散度防止模型偏离原有能力。

(3)视觉规划潜变量:连接思考与行动

MLLM 思考后会输出两个东西:一是可解释的推理步骤(比如 “1. 找到草莓;2. 移动到草莓位置;3. 抓取”),二是压缩后的 “视觉规划潜变量 cₜ”。这个潜变量是关键,它把抽象的思考转化为机器能理解的、包含时空信息的向量,用来指导后续动作执行。

3. 系统二:推理增强的动作适配(负责 “行动”)

动作模型 π_φ 基于 Transformer(具体是 DiT 架构),输入是视觉观察 oₜ、文字指令 l,再加上系统一输出的视觉规划潜变量 cₜ。训练时:

  • 先在大规模机器人数据集(Open X-Embodiment)上预训练,打好动作执行的基础;
  • 然后通过模仿学习微调,让动作模型学会 “跟着思考结果行动”,此时系统一的 MLLM 保持冻结,只更新动作模型和连接两者的 “潜变量投射器”。

(4)异步设计:慢思考、快行动

两个系统可以异步工作:MLLM 每 N 步思考一次(比如规划 5 个动作的整体方向),动作模型则根据这个规划连续执行 N 个动作。这样既保证了思考的全局性,又不影响动作执行的速度。

4. 训练策略

分三个阶段:

  1. 冷启动(SFT):用标注数据让 MLLM 学会基本的推理格式和视觉轨迹理解,动作模型在 Open X-Embodiment 上预训练;
  2. 强化微调:用 GRPO 和视觉对齐奖励优化 MLLM 的思考能力;
  3. 动作适配:冻结 MLLM,微调动作模型和潜变量投射器,适配目标环境。

三、实验验证:ThinkAct 表现如何?

论文做了大量实验,覆盖机器人操作和具身推理两大场景,我们重点看核心结果:

1. 实验设置

  • 模型初始化:MLLM 用 Qwen2.5-VL 7B,动作模型是 432M 参数的 DiT-Policy;
  • 训练数据:包括机器人轨迹数据(Open X-Embodiment)、人类操作视频(Something-Something V2)、具身问答数据(RoboVQA、EgoPlan-IT 等);
  • 评估基准:机器人操作(SimplerEnv、LIBERO)、具身推理(EgoPlan-Bench2、RoboVQA、OpenEQA)。

2. 核心实验结果

(1)机器人操作任务

在 SimplerEnv 和 LIBERO 上,ThinkAct 的整体成功率远超现有方法:

  • SimplerEnv 的 Google-VM 子集,整体成功率 71.5%,比第二名 Magma 高 3.1%;
  • LIBERO 的长时程任务(LIBERO-Long)成功率 70.9%,比 CoT-VLA 高 1.9%,解决了多步骤规划的难题。

(2)具身推理任务

  • EgoPlan-Bench2 整体准确率 48.2%,比微调后的 Qwen2.5-VL 高 2.5%;
  • RoboVQA 的 BLEU-1 分数 69.1,比第二名高 3.8,说明推理的连贯性和准确性更强。

3. 关键能力验证

(1)少样本适配

只用 10 个任务演示微调,ThinkAct 在 LIBERO 的空间布局、物体多样性任务上的成功率远超 OpenVLA、Magma 等方法,说明思考能力让 AI 能快速适应新场景。

(2)自我纠正

当机器人执行中出错(比如抓取物体时掉落),ThinkAct 能通过观察连续视频帧发现问题,重新规划动作(比如 “重新定位掉落的物体→再次抓取”),而其他模型会一直按原计划执行,导致任务失败。

4. 消融实验

为了验证各组件的作用,论文做了对比实验:

  • 去掉轨迹奖励(r_traj):SimplerEnv 成功率从 60.1 降到 59.2,说明轨迹奖励能保证动作的物理合理性;
  • 去掉目标奖励(r_goal):EgoPlan-Bench2 准确率从 48.2 降到 47.6,说明目标奖励能引导长时程规划;
  • 不使用视觉对齐奖励,只用水问答奖励:性能接近冷启动模型,证明视觉 - 动作对齐的奖励是核心。

四、创新点总结

这篇论文的核心创新的三个方面,也是它能解决之前痛点的关键:

  1. 双系统架构:首次将 “结构化推理” 和 “动作执行” 通过视觉潜规划明确分离,既保证了思考的逻辑性,又让动作执行更稳健;
  2. 动作对齐的视觉奖励:突破了传统强化学习中 “奖励与动作脱节” 的问题,用视觉轨迹和目标完成度作为奖励,让思考直接服务于行动;
  3. 异步推理 - 执行机制:实现 “慢思考、快行动”,平衡了规划的全局性和执行的高效性,还能支持少样本适配和自我纠正。

五、局限性与未来方向

1. 局限性

  • 继承了多模态大语言模型的 “幻觉问题”:有时会推理出不存在的物体或错误的空间关系,影响动作执行;
  • 推理频率(N 值)需要根据任务调整:太稀疏会导致无法及时纠正错误,太频繁会增加计算成本。

2. 未来方向

  • 优化幻觉抑制:让推理更贴合真实视觉场景;
  • 加入人类意图对齐:在安全关键场景(比如家庭服务机器人)中,确保 AI 的思考和动作符合人类预期;
  • 扩展到更复杂的环境:比如动态障碍物、多机器人协作等场景。

六、总结

ThinkAct 的核心思想很简单 —— 让 AI “先想清楚再动手”,但它通过双系统架构、视觉对齐奖励、强化微调等技术,把这个思想落地成了一个高效、稳健的框架。它不仅在机器人操作、具身推理任务中表现突出,还为未来的物理 AI 应用(比如家庭助手机器人、AR 辅助系统)提供了新的思路:只有让 AI 具备和动作紧密结合的推理能力,才能真正适应复杂的真实世界

要不要我帮你整理一份ThinkAct 框架核心组件思维导图,把论文的关键结构、公式和实验结论可视化呈现?

我直接把这篇 ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning 当成一堂「具身智能 + 强化学习 + 大模型」的系统课来讲,目标:讲完你关掉网页也能把这篇 paper 的主线、公式、实验记在脑子里。


0. 这篇论文到底在解决什么问题?

先捋概念:

  • MLLM / VLM:会“看图说话”的多模态大模型,做 VQA、caption、视频理解都很强。
  • VLA(Vision-Language-Action):不仅看和说,还要「动手」——例如机器人看场景、听指令,然后真的去抓物体、开抽屉。

现状问题:

  1. 现有很多 VLA(OpenVLA、TraceVLA 等)通常是
    视觉 + 文本 → 直接输出低层动作,是 end-to-end 黑箱映射
    • 好处:简单、推理快。
    • 坏处:没有显式“思考 / 计划”过程
      • 长时序任务(多步、长距离搬运)不稳。
      • 碰到新环境、新目标,泛化差。
  2. 最近有人给 VLA 加上 CoT(Chain-of-Thought)
    • 如 ECoT、RAD、CoT-VLA:
      先让大模型生成中间的「文字计划 / 子目标」,再输出动作。
    • 问题:这些 CoT 轨迹大多靠「手工标注 / prompt 其他大模型生成」,
      • 质量参差不齐,
      • 容易 overfit 特定场景、特定套路。
  3. 还有一条路线:用 RL(强化学习)优化大模型的“思考过程”(比如 R1、GRPO 系列),
    • 典型做法是:奖励 = 答案对不对 + 格式对不对
    • 这类方法只适合 QA 类任务,很难直接指导「真实世界中的机械臂轨迹」。

作者想做的事:

> 让大模型在执行动作前,真正“想一想”(Think),
> 用和动作强相关的视觉奖励强化这个思考过程,
> 然后用这份「想好的计划」去指导机器人执行(Act)。

所以有了 ThinkAct ——一个「双系统」VLA 框架:

  • 上层:Reasoning MLLM(会想)
  • 下层:Action Model(会动)
  • 中间通过一个 Visual Plan Latent(视觉计划隐变量) 来沟通。

1. 总体架构:Think + Act 这两个系统怎么协同?

1.1 任务设定与符号

在每个时间步 tt

  • 输入:
    • 视觉观测 oto_t:可以是一张图或一段视频片段。
    • 文本指令 ll:比如 “put the strawberry in the drawer”。
  • 目标:输出一个动作 ata_t
    • 可以是离散指令(比如“open drawer”)、
    • 也可以是 7-DOF 控制向量((Δx,Δθ,ΔGrip)(\Delta x, \Delta \theta, \Delta Grip) 之类)。

他们搭了两个模块:

  1. Reasoning MLLM (Fθ\mathcal{F}_\theta)
    • 输入:(ot,l)(o_t, l)
    • 输出两类 token embedding:
      • vtv_t:对应 &lt;think&gt; ... &lt;/think&gt;语言推理步骤
      • ctc_t:对应视觉计划 latent,之后会被解析为一条 2D 轨迹 τ\tau
  2. Action Model (πϕ\pi_\phi)
    • 输入:
      • 当前状态(图像 + 语言编码)
      • 上面的视觉计划 latent ctc_t
    • 输出:未来连续 NN 步的动作 [ai]i=tt+N[a_i]_{i=t}^{t+N}

关键点:Reasoning 不必每一步都重算,可以 每 N 步计划一次,中间 Action Model 快速执行,这就是论文口中的 “slow thinking, fast control”。


2. 如何用强化学习教大模型「想出好的视觉计划」?

这部分是论文的核心创新:Reinforced Visual Latent Planning(用动作对齐的视觉奖励来强化推理)。

2.1 先把「计划」变成一条可比较的 2D 轨迹

他们把高层计划用一条 2D 轨迹来表示:

  • 从人类/机器人演示数据中,用现有 detector 提取机械臂末端(gripper)的屏幕坐标轨迹:

    τ~=[p~k]k=1K,p~k[0,1]2\tilde{\tau} = [\tilde{p}_k]_{k=1}^K,\quad \tilde{p}_k \in [0,1]^2

  • MLLM 在 &lt;answer&gt; 中也输出一个 8 个点左右的 2D 轨迹 τ=[pk]k=1K\tau = [p_k]_{k=1}^K

这两个轨迹之间的「相似程度」就是之后 reward 的来源。

2.2 两种视觉奖励:Goal Reward + Trajectory Reward

作者设计了一个叫 action-aligned visual feedback 的奖励,由两部分组成:

① Goal Reward (rgoalr_{\text{goal}})

目标:起点/终点是否对得上

  • 用函数

    f(p,p~)=max(0,1pp~22)f(p, \tilde{p}) = \max\left(0, 1 - \lVert p - \tilde{p}\rVert_2^2\right)

  • 再对起点和终点位置做平均:

    rgoal=12(f(p1,p~1)+f(pK,p~K))r_{\text{goal}} = \frac{1}{2}\left(f(p_1, \tilde{p}_1) + f(p_K, \tilde{p}_K)\right)

  • 直觉:预测起点终点越接近演示轨迹,rgoalr_{\text{goal}} 越高。

② Trajectory Reward (rtrajr_{\text{traj}})

目标:整条路径的形状要像

  • 用 Dynamic Time Warping (DTW) 计算两条轨迹的距离 d(τ,τ~)d(\tau, \tilde{\tau})

  • 然后:

    rtraj=max(0,1d(τ,τ~))r_{\text{traj}} = \max(0, 1 - d(\tau, \tilde{\tau}))

总结一下:

  • rgoalr_{\text{goal}}:终点对不对?
  • rtrajr_{\text{traj}}:路线像不像?

③ 视觉奖励 + 格式奖励 = 总奖励

视觉奖励:

rvisual=ωgoalrgoal+ωtrajrtraj,ωgoal=ωtraj=0.5r_{\text{visual}} = \omega_{\text{goal}} r_{\text{goal}} + \omega_{\text{traj}} r_{\text{traj}}, \quad \omega_{\text{goal}} = \omega_{\text{traj}} = 0.5

再加上一个 格式奖励 (rformatr_{\text{format}})(确保输出有 &lt;think&gt;&lt;answer&gt;,格式正确,类似 R1 / Video-R1 做法),最终:

r=0.9rvisual+0.1rformatr = 0.9\, r_{\text{visual}} + 0.1\, r_{\text{format}}

> 也就是说:大部分奖励来自「你的轨迹和演示轨迹像不像」,少部分来自「你有没有乖乖用指定格式输出」。

2.3 用 GRPO 优化 MLLM 的「思考过程」

他们用的是近两年很热门的 GRPO(Group Relative Policy Optimization) 来训练 MLLM:

  • 给同一个输入 (ot,l)(o_t, l),从旧策略 Fθold\mathcal{F}_{\theta_{\text{old}}} 里面采样 MM 个完整输出 {zi}i=1M\{z_i\}_{i=1}^M
    每个都包含 &lt;think&gt; ... &lt;/think&gt; 和 2D 轨迹。

  • 对每个 ziz_i 计算 reward rir_i,算出 group 内的「相对优势」:

    Ai=rimean(r1,,rM)std(r1,,rM)A_i = \frac{r_i - \text{mean}(r_1,\dots,r_M)}{\text{std}(r_1,\dots,r_M)}

  • 优化目标:

    JGRPO(θ)=1Mi=1M(Fθ(ziot,l)Fθold(ziot,l)AiβDKL(FθFθold))\mathcal{J}_{\text{GRPO}}(\theta)= \frac{1}{M}\sum_{i=1}^M\left(\frac{\mathcal{F}_\theta(z_i|o_t, l)}{\mathcal{F}_{\theta_{\text{old}}}(z_i|o_t, l)}A_i- \beta\, D_{KL}\big(\mathcal{F}_\theta \Vert \mathcal{F}_{\theta_{\text{old}}}\big)\right)

    • 第一个部分:鼓励高 reward 的输出概率变大。
    • KL 项:防止模型离原始权重太远,保持稳定。

此外,他们把其它 QA 数据(RoboVQA、EgoPlan、LLaVA-Video)的 reward 也并进来:

  • QA 题:奖励就是答案是否正确ROUGE 分数等。
  • 这样 MLLM 一边学「能看懂视频、答问题」,一边学「能为机械臂想轨迹」。

训练完 RL 后,模型就能产生既有 &lt;think&gt; 长推理,又能输出合理 2D 轨迹的答案;然后把这个 2D 轨迹embedding部分抽象成一个 visual plan latent (ctc_t) 提供给行动模块用。


3. Action Model:如何利用「想好的计划」去执行动作?

下面讲第二个系统:Reasoning-Enhanced Action Adaptation

3.1 Action Model 架构

他们选了一个 Diffusion Policy(DiT-based) 的动作模型 πϕ\pi_\phi

  • State Encoder:
    • 图像编码:DINOv2
    • 文本编码:CLIP text encoder
      把当前图像 + 指令编码成 1024 维向量。
  • Policy 本体:
    • 一个 DiT(Diffusion Transformer)作为 policy,输出一段动作序列。
  • Latent Projector:
    • 使用 Q-Former(类似 BLIP-2 中的)来把视觉计划 latent ctc_t 映射到能和 state 结合的空间:
      • 32 个 learnable queries。
      • 输入:ctc_t
      • 输出:一组嵌入,拼接进 action model 的条件输入。

3.2 训练目标:模仿学习 + 计划条件

在动作适配阶段:

  • 冻结 Fθ\mathcal{F}_\theta(推理模型),只更新:

    • State Encoder
    • Latent Projector(Q-Former)
    • DiT policy 本身
  • Loss:标准的 imitation learning:

    LIL(ϕ)=E(oi,l,ai)[(πϕ(ct,oi,l),ai)]\mathcal{L}_{\text{IL}}(\phi) = \mathbb{E}_{(o_i, l, a_i)} \big[ \ell\big(\pi_\phi(c_t, o_i, l), a_i\big) \big]

    其中 \ell 可以是 MSE 或类似的轨迹 loss。

异步执行(asynchronous)

  • 每隔 NN 步才调用一次 MLLM 生成新的 ctc_t
  • 中间 NN 步都由 πϕ\pi_\phi 快速滚动执行。
    • 例如:SimplerEnv 里 N=15N=15,LIBERO 里 N=75N=75

这样就实现了:

> 上层慢思考(生成计划),下层快执行(跟随计划),
> 又不至于每一步都跑一次大模型,推理太慢。


4. 训练策略与数据:冷启动 + RL + 适配

4.1 模型规模与超参数

  • MLLM backbone:Qwen2.5-VL 7B
  • 冷启动(SFT):
    • 迭代:20K
    • batch size:32
    • lr:1e-5
  • RL(GRPO):
    • 迭代:6K
    • batch size:64
    • rollout size:5
    • lr:1e-6
    • KL 系数 β=1e2\beta = 1e-2
    • 最大响应长度:1024 token
    • 采样:温度 1.0,top-p = 0.99
  • Action Model:
    • DiT policy,432M 参数
    • 在 OXE 上预训练
    • reasoning-conditioned 适配:
      • 先在 100K OXE 样本上训练 120K iter(batch 256,lr 2e-5)
      • 再在 LIBERO 上 fine-tune 75K iter(batch 128)

硬件:16 张 A100 80G。

4.2 用到哪些数据集?

用于训练 Reasoning MLLM(SFT + RL):

  • 轨迹数据:
    • OXE 的 fractal20220817_data、bridge 子集(机器人)
    • Something-Something V2(人手操作)
    • 用 gripper / hand detector + RDP 简化成 8 个关键点的 2D 轨迹。
  • QA / CoT 数据:
    • RoboVQA(机器人长时序视频问答)
    • EgoPlan-IT / EgoPlan-Val(生活场景多步规划)
    • Video-R1-CoT(165K 有 CoT 的视频问题)
    • LLaVA-Video-178K(视频 caption + QA)
    • Reflect / RoboFail(失败检测相关)

用于训练 Action Model

  • OXE(大规模机器人示范)
  • LIBERO(四个任务套件:Spatial / Object / Goal / Long)

评测基准:

  • Manipulation:
    • SimplerEnv(Google-VM / Google-VA / Bridge-VM)
    • LIBERO(Spatial / Object / Goal / Long)
  • Embodied Reasoning:
    • EgoPlan-Bench2(多选)
    • RoboVQA(BLEU)
    • OpenEQA(LLM 打分)

5. 实验结果:是不是比别人强?

5.1 机器人操作任务(SimplerEnv + LIBERO)

Table 1 是大比武的结果。简要读数:

  • SimplerEnv 上:
    • Google-VM(视觉匹配):
      • DiT-Policy:56.0%
      • ThinkAct:71.5%
    • Google-VA(变体聚合):
      • DiT-Policy:48.2%
      • ThinkAct:65.1%
    • Bridge-VM:
      • DiT-Policy:35.4%
      • ThinkAct:43.8%

ThinkAct 基本全线超过 DiT-Policy 和 OpenVLA / TraceVLA / Magma 等方法。

  • LIBERO 上:
    • Spatial:ThinkAct 88.3%
    • Object:91.4%
    • Goal:87.1%
    • Long:70.9%
    • Overall:84.4%
      比 CoT-VLA、DiT-Policy 都略高一些。

结论:加了 reasoning + visual latent 之后,尤其在长时序、复杂场景中,成功率明显上升。

5.2 具身推理任务(EgoPlan-Bench2, RoboVQA, OpenEQA)

Table 2 比的是「会不会想」这一块:

  • EgoPlan-Bench2(多步日常任务规划,accuracy):
    • Qwen2.5-VL*(只做常规 fine-tune):45.7%
    • ThinkAct:48.2%(提升 2.5 个点)
  • RoboVQA(BLEU):
    • Qwen2.5-VL*:55.7
    • ThinkAct:59.8(+4.1)
  • OpenEQA
    • 最终 Overall:ThinkAct 56.2,
      也是所有方法里数一数二的表现。

说明:用动作对齐的视觉奖励去强化推理,确实能提升多模态长时序推理质量。

5.3 可视化例子:Think 先想,再 Act 执行

图 3 展示了几个任务:

  • “Move the 7up can near the apple”
  • “Put eggplant into yellow basket”
  • “Pick up the book and place it in the back compartment”

可以看到:

  • &lt;think&gt; 里模型先描述场景、分解子任务:
    • 找目标物体 → 找目标位置 → 规划路径。
  • 然后给出 2D 轨迹,
    把这条轨迹传给 Action Model 后,机械臂真的沿着类似的路径移动

图 4 / A7 对比了 有无 RL 的推理差异:

  • SFT-only:经常误解问题或只描述当前画面,缺乏未来规划。
  • RL 之后:
    • 更关注任务目标和未来步骤,
    • 理解更深入,回答更稳定。

6. 消融实验:奖励设计到底有多重要?

Table 3 + A6 是关键消融:

方法SimplerEnvEgoPlanRoboVQALIBEROOpenEQA
Full ThinkAct60.148.259.884.456.2
w/o rtrajr_{\text{traj}}59.247.958.582.155.9
w/o rgoalr_{\text{goal}}59.147.658.981.755.6
w/o both56.947.258.381.655.7
SFT only56.446.457.979.153.3

结论很直接:

  • 单拿掉 goal reward 或 trajectory reward,性能都会掉一点。
  • 全拿掉,只用 QA 式奖励,和 SFT 差不多,说明动作对齐的视觉奖励是核心贡献
  • RL 整体比 SFT-only 提升明显。

他们还做了一个 N(每次 reasoning 覆盖的动作数) 的消融:

  • 在 LIBERO 上:
    • N=25: 84.0%
    • N=50: 84.6%(最好)
    • N=75: 84.4%
    • N=100: 83.7%

解释也很直观:

  • N 太大:reasoning 太稀疏,错了也来不及纠正 → 自纠能力下降。
  • N 太小:频繁调用 MLLM,计算贵,收益有限。

7. Few-shot 适应与自纠能力:Reasoning 真有用吗?

7.1 Few-shot 适应(5-shot & 10-shot LIBERO)

他们做了类似「小样本迁移学习」的实验:

  • 在 LIBERO 的 Spatial / Object / Goal 上:
    • 每个任务只给 5 或 10 条 demo 进行 fine-tune。
    • 比较 OpenVLA / Magma / ThinkAct。

结果:

  • 在 10-shot 设置下,ThinkAct 在 Spatial 和 Goal 上都比 Magma 高 7~10 个百分点;
  • 5-shot 下也是同样趋势。

作者解释:
因为 Action Model 能利用来自 MLLM 的高层计划 latent,迁移到新场景/新目标时,只要能重新“想清楚要做什么”,动作层需要适配的部分就少得多。

7.2 自我反思与自纠(Self-Correction)

他们做了一个很有意思的展示(图 6 + A8):

  • 任务:把 box 放进 basket。
  • 执行过程中机器人不小心把 box 掉在半路
  • 这时,把输入给 Reasoning MLLM 从单帧图像扩展到短视频片段 (otN:to_{t-N:t}):
    • 让它看到“刚才发生了什么”。

RL 后的 ThinkAct 会在 &lt;think&gt; 中说类似:

> “我发现奶油盒子从机械臂上掉下来了……
> 那我需要重新去抓它,再放入篮子。”

然后产生一个新轨迹,指导 Action Model 回去捡起物体,再完成任务。

这个能力本质上来自:

  • 长时序视频理解(通过 QA 数据和 RL 学的),
  • 再加上「计划 → 轨迹 → 执行」的闭环。

8. 进一步分析与扩展结果

8.1 更小模型也可用

他们把 backbone 换成 Qwen2.5-VL-3B,做了一个 ThinkAct-3B
再和其他 2B/3B 多模态模型对比:InternVL2.5-2B, NVILA-2B 等。

结果:

  • 在 EgoPlan-Bench2 / RoboVQA / OpenEQA 上,ThinkAct-3B 依然整体最强。
  • 说明这个「用视觉奖励强化 latent planning」的思路不限于某一个 backbone 或大模型体量

8.2 推理速度开销

他们还测了一下推理时间:

  • 在 LIBERO 上,ThinkAct 比 end-to-end 的 OpenVLA 慢了约 17%
  • 原因就一个:多了一次 autoregressive 的 Reasoning 步骤。

作者认为这是一个「用一些速度换来长时序规划和自纠能力」的 trade-off。


9. 总结、局限与更大的图景

9.1 论文主要贡献回顾

作者自己总结了四点贡献,可以用大白话串一下:

  1. 提出 ThinkAct
    一个把「视觉-语言推理」和「动作执行」用 visual latent plan 串起来的双系统 VLA 框架。
  2. 设计了 动作对齐的视觉奖励(goal + trajectory)
    用 GRPO 强化 MLLM 的具身推理能力,而不是只看 QA 准确率。
  3. 发挥 visual latent planning 的力量:
    让下游 Action Model 在新环境/新任务中更易适配(few-shot)。
  4. 实验上证明了:
    在多种 robot manipulation 与 embodied reasoning benchmark 上,
    ThinkAct 拥有 更好的长时序规划、few-shot 适应和自我纠错能力

9.2 局限性

论文也很诚实地说了几个坑:

  • 建立在预训练 MLLM 之上,所以难免继承:
    • 视觉幻觉(看错颜色/位置),
    • 空间关系理解错误。
  • 一旦推理部分 hallucinate(比如“看到一个并不存在的杯子”),
    后面的轨迹和动作就跟着跑偏。
  • 未来可以研究:
    • 更强的 grounding / hallucination suppression,
    • 更安全、可控的 CoT 输出。

9.3 更大的格局:为什么这类工作值得关注?

从更宏观一点看,这篇 paper 其实在做三件事的「拼接」:

  1. CoT-style 推理 不再局限在文本题、数学题,而是用到机器人的世界模型中;
  2. RL 信号的定义 从「答案对不对」提升到「轨迹是否合理」;
  3. 把「会想」和「会动」拆成两个系统,再用一个 latent 打通。

这条路往前走,有可能演化出:

  • 可以先用语言(+视频)想半天,再谨慎执行的家庭机器人;
  • 在仿真环境中不断通过 RL 打磨“思考风格”的行动智能体;
  • 对长时序、开放世界任务更有适应力的 VLA。

如果你之后想基于这篇做自己的工作,可以重点思考:

  • 能否设计更细粒度的奖励(比如 subgoal-level success,而不是整条轨迹)?
  • visual latent 之外,是否可以加上 符号化的子目标图,让 action model 可解释性更强?
  • RL 的数据效率和稳定性,是否能用off-policy / critic-based 方法进一步优化?

这篇论文给的是一个挺清晰的框架,后面很多改造点都可以往里挂。

总结

个人观感:Kimi>ChatGPT>Doubao

kimi是真的把你当学生再教,论文的核心思路也被展现的淋漓尽致,我真的哭死。

ChatGPT是论文翻译器,将论文顺序条理分明的展现出来,但是看着依然让人头大。

Doubao有点南平,比较中庸。

综上,可以先用kimi读一遍论文对论文有大致的了解,对于具体的细节,比如奖励设计和训练细节可以去读论文或者参考ChatGPT。

但是OpenAI的model routing过于逆天,多数时间回答的水平并没有很高,甚至不如豆包。

不得不说大家对于内容输出的把控是真的越来越严格了,只有kimi在短提示词下做到了教师角色带入,输出内容比较丰富,有表格和表情读起来不至于很累,且输出质量比较稳定。

作者没有对提示词进行不同的尝试,可能通过不同提示词的调教是能达到理想的效果的。但是复杂的Prompt设计其实也增加了使用的复杂性。。。。

胡言乱语

又是周五喽,晚上健个身去看《魔盗团3》,爽!周末可以小小放纵一下