从图像能得到什么？VLA&视频生成模型&world model

2025年末的视频生成模型

字节发布了最新的视频生成模型Seedance 1.5 pro，原生音视频联合生成。

与此同时，通义最近更新了wan2.6视频生成模型。

VLA和视频生成模型和世界模型

VLA和视频生成模型本质上都是在对世界做理解，VLA相较于视频生成模型注入了人类指定的编码参数，比如人体的躯干关节参数，同时简化了Diffussion模型的输出，只输出动作的chunk，以获得在动作生成一致性或者稳定性方面的提升。

然而其存在包含关系。如果视频生成模型能够生成高质量的人类操作物体的视频数据，那么VLA也可以直接通过retarget生成的视频中的关键点来实现。反之如果VLA的发展更快，那么也可以通过VLA来辅助生成高质量特定动作的视频。

如果VLA或者视频生成模型做的足够好，那么说明模型对于真实世界的物理规律有清晰而准确的认知。那么为何不称之为世界模型呢？

一张图像能得到什么？

上述的讨论都有一个共同的基石：图像。

围绕大家开展的研究，VQA，VGGT，Depth Anything3，SAM3，这些研究说明图像包含了从高层语义到底层物理的各类信息。

语义信息相对而言比较熟悉，一张图像里包含的“物理”大概至少分三类：

可观测几何（几何/尺度/位姿）：深度、法线、相机位姿、物体尺寸比例、遮挡关系……
动力学（时间相关）：速度、加速度、受力、碰撞、刚体/软体状态、手部关节随时间的轨迹……
因果与可干预变量：如果我推一下杯子会怎样、如果相机绕到侧面会看到什么（反事实/多视角一致性…

图像是终点吗？

参见Minimax的技术报告Towards Scalable Pre-training of Visual Tokenizers for Generation

随着训练时间增加，模型产生了一些有趣的现象：

重建能力持续变强：rFID（衡量还原质量，越小越好）从 2.0 降到 0.5。

生成能力持续变差：gFID（衡量生成质量，越小越好）从 55 涨到 58。

当视觉分词器学习「还原像素」时，它会把注意力放在「底层信息」上：边缘在哪、纹理是什么样、颜色的精确数值是多少，这些信息对于「还原」很重要。

在分词器被过度训练后，通过它的到的信息，就会更偏向于「底层信息」，而非「高层语义」，到了生成的时候，很难从中「理解」图像应该是什么样的，效果自然变差。

FID参数越好，某种程度上刻画了压缩后向量对于图片信息的理解。但是FID参数越好，其他的参数不一定好。从侧面说明模型可能只是对像素点的记忆，而非真实理解。毕竟224*224的RGB图像只有224*224*255^3种组合。

物理世界当然比像素更“厚”。像素是投影，是渲染结果。很多真实变量（质量、摩擦系数、内部结构）从像素是不可唯一恢复的。（the gap between pixel space and 3D space）

那么图像会是这个世界的完整表征吗？如果不是，那又会是什么？图像是数字计算机时代的产物，而世界某种意义上是“模拟”的，而非“数字”的。连续世界被我们用离散观测采样。数字系统做不到“完全等价的连续”，但或许可以在误差容许范围内逼近？

结语

可见的未来，图像应该会是研究的主流，文本输入应该也会与图像统一输入格式，这样至少能容纳更高的文本上下文，更长距离的信息捕捉（Deepseek-OCR），也许会实现更好的对齐效果？至于图像，人类如何构建时序的、高效的模型架构仍是研究的重点。图像这些“稠密”的信息数据，似乎在揭示——宇宙确实高维、我们确实像在低维投影里摸象。