2025年末的视频生成模型
字节发布了最新的视频生成模型Seedance 1.5 pro,原生音视频联合生成。
与此同时,通义最近更新了wan2.6视频生成模型。
VLA和视频生成模型和世界模型
VLA和视频生成模型本质上都是在对世界做理解,VLA相较于视频生成模型注入了人类指定的编码参数,比如人体的躯干关节参数,同时简化了Diffussion模型的输出,只输出动作的chunk,以获得在动作生成一致性或者稳定性方面的提升。
然而其存在包含关系。如果视频生成模型能够生成高质量的人类操作物体的视频数据,那么VLA也可以直接通过retarget生成的视频中的关键点来实现。反之如果VLA的发展更快,那么也可以通过VLA来辅助生成高质量特定动作的视频。
如果VLA或者视频生成模型做的足够好,那么说明模型对于真实世界的物理规律有清晰而准确的认知。那么为何不称之为世界模型呢?
一张图像能得到什么?
上述的讨论都有一个共同的基石:图像。
围绕大家开展的研究,VQA,VGGT,Depth Anything3,SAM3,这些研究说明图像包含了从高层语义到底层物理的各类信息。
语义信息相对而言比较熟悉,一张图像里包含的“物理”大概至少分三类:
- 可观测几何(几何/尺度/位姿):深度、法线、相机位姿、物体尺寸比例、遮挡关系……
- 动力学(时间相关):速度、加速度、受力、碰撞、刚体/软体状态、手部关节随时间的轨迹……
- 因果与可干预变量:如果我推一下杯子会怎样、如果相机绕到侧面会看到什么(反事实/多视角一致性…
图像是终点吗?
参见Minimax的技术报告Towards Scalable Pre-training of Visual Tokenizers for Generation
随着训练时间增加,模型产生了一些有趣的现象:
- 重建能力持续变强:
rFID(衡量还原质量,越小越好)从2.0降到0.5。- 生成能力持续变差:
gFID(衡量生成质量,越小越好)从55涨到58。当视觉分词器学习「还原像素」时,它会把注意力放在「底层信息」上:
边缘在哪、纹理是什么样、颜色的精确数值是多少,这些信息对于「还原」很重要。在分词器被过度训练后,通过它的到的信息,就会更偏向于「底层信息」,而非「高层语义」,到了生成的时候,很难从中「理解」图像应该是什么样的,效果自然变差。
FID参数越好,某种程度上刻画了压缩后向量对于图片信息的理解。但是FID参数越好,其他的参数不一定好。从侧面说明模型可能只是对像素点的记忆,而非真实理解。毕竟224*224的RGB图像只有224*224*255^3种组合。
物理世界当然比像素更“厚”。像素是投影,是渲染结果。很多真实变量(质量、摩擦系数、内部结构)从像素是不可唯一恢复的。(the gap between pixel space and 3D space)
那么图像会是这个世界的完整表征吗?如果不是,那又会是什么?图像是数字计算机时代的产物,而世界某种意义上是“模拟”的,而非“数字”的。连续世界被我们用离散观测采样。数字系统做不到“完全等价的连续”,但或许可以在误差容许范围内逼近?
结语
可见的未来,图像应该会是研究的主流,文本输入应该也会与图像统一输入格式,这样至少能容纳更高的文本上下文,更长距离的信息捕捉(Deepseek-OCR),也许会实现更好的对齐效果?至于图像,人类如何构建时序的、高效的模型架构仍是研究的重点。图像这些“稠密”的信息数据,似乎在揭示——宇宙确实高维、我们确实像在低维投影里摸象。