“解码”一夜刷屏的Sora，专家：它在短视频等场景前景广阔

"解码"一夜刷屏的Sora，"世界模型"看出更多端倪

继一年多前发布ChatGPT在全球引发AI（人工智能）狂飙之后，全球AI领军企业OpenAI又向业界扔下了一枚新"王炸"--AI文生视频模型Sora，这距离谷歌发布多模态模型Gemini1.5仅过去了几个小时。

在Gemini1.5的演示中，机器可以"读懂"人类的各种举动：当测试员拿出一张纸，Gemini1.5立刻回答"你拿出了一张纸"；而Sora可根据简短的文字提示生成一段长达一分钟的高清视频，其中包含细腻复杂的场景、生动的角色表情以及复杂的镜头运动。上海人工智能研究院高级分析师方帅表示："两个最新发布的AI模型表明，机器在理解人类语言和文字上更近了一步。"

OpenAI在关于Sora的详细技术报告中表示，Sora对自然语言的理解能力很强。OpenAI将其视为能够理解和模拟现实世界的模型的基础，相信其能力是实现AGI（通用人工智能）的重要里程碑。

AI"文生视频"如何改变未来？正如业界专家所说，Sora的影响往小了说是文生视频技术突破了一个数量级，可直接应用于短视频、广告等行业；往大了说，它提供了理解、重建和模拟这个世界的可能性。

"缺乏新颖性"的技术如何成为"王炸"？

"很震撼，却也在意料之中。"在多年从事计算机视觉研究的上海交通大学人工智能研究院副教授王韫博看来，Sora就是用人类已有的"零件"拼装出了一辆性能超高的汽车--从技术角度看，并不新鲜；但从结果来看，效果炸裂。

Sora带给业界最大的启发是DIT模型，即以Transformer为主干的扩散模型。尽管它们已经是非常成熟的技术，但之前很少有人将两者放在一起。

Transformer架构是产生长视频的基础，它之前被广泛用于大语言模型训练。受到训练大语言模型的Token（文本单元）启发，此次OpenAI团队引入了Patch（视觉块嵌入代码）的概念，它能对像素、尺寸等各不相同的视频进行编码，在潜空间里将Patch的时空数据整合在一起进行训练，再解码成为一个高清视频。

值得一提的是，Meta首席AI科学家杨立昆称，他的前同事、纽约大学助理教授谢赛宁和他在伯克利的学生、现任OpenAI工程师的William Peebles前年合著的关于DIT的论文，是Sora的基础。戏谑的是，这篇论文曾因"缺乏新颖性"而被计算机视觉顶级学术会议拒收。

被拒收的论文何以成就新"王炸"？王韫博认为，这与OpenAI的工程能力密不可分。在公开发布的技术信息中，OpenAI坦言，Sora使用了大规模训练和超大数据集。谢赛宁推测，整个Sora模型可能有30亿个参数。

在攻破语言和视频两个堡垒的同时，OpenAI公布筹资7万亿美元建立芯片帝国计划，这笔巨资相当于美国GDP的1/4。业界人士评价，这些或许将帮助OpenAI确立其在算法与算力上的AI霸主地位，进而向AGI发起最后挑战。

"模拟世界里程碑"距世界模型有多远？

Sora展现出的视频生成能力让网友惊呼"逆天"，而专业人士则从模型中看出了更多端倪。

英伟达人工智能研究院首席研究科学家吉姆·范在社交平台上表示，"如果你还是把Sora看成DALL-E那样的生成式玩具，还是好好想想吧，这是一个数据驱动的物理引擎。它是对许多世界的模拟，无论是真实的还是幻想的。"

"世界模型""世界模拟器"是Sora的重要标签，毕竟Sora技术报告的标题就是"作为世界模拟器的视觉生成模型"。

王韫博表示，因为机器与真实世界交互的成本非常高，所以科学家希望能够在虚拟世界中建立一个与现实世界物理规则相同的模型，方便机器"试错"。有意思的是，按照"人工智能之父"艾伦·图灵提出的具身智能概念，想要理解物理世界的法则，就必须有像人一样的身体与世界交互。但Sora带来了惊喜：据OpenAI科学家提姆·布鲁克斯透露，没通过人类预先设定，Sora就自己通过"观察"大量数据，自然而然地学会了关于3D几何形状和一致性的知识。

而Sora被人诟病最多的不足之处，也在对物理规则的理解上。比如，在展示老奶奶吹蜡烛的视频中，蜡烛并没有随风熄灭；在另一段玻璃杯从空中坠落的视频中，玻璃没有碎，里面的水已经流出来了。对此，OpenAI也坦言，目前Sora还难以准确模拟复杂场景的物理原理，可能无法理解因果关系。

"Sora对真实世界的模拟还有很多提升空间，就目前的展示内容来看，并不意味着它已经'读懂'了物理规律。"王韫博说，因为人们并不知道究竟是模型建立了真实世界的法则，还是解码能力比较强大。