OpenAI在龙年春节扔出了“王炸”:文生视频大模型Sora。据了解,Sora的革命性不仅是突破了目前AI视频生成大约10秒的界限,达到了60秒的内容时长,更重要是它能支持多角色,并保持场景、角色的一致性;切换视频视觉与镜头;一定程度遵循真实世界的客观规律,包括光影变化、水流变化等。
OpenAI官网截图
然而,Sora撼动的不仅是视频、影视行业,还有汽车领域,大模型本身就与自动驾驶有着千丝万缕的关系。业内指出,Sora或在自动驾驶大有可为。
对机器人“具身智能”和自动驾驶带来巨大影响
360集团创始人、董事长周鸿祎在谈及Sora的影响称,这次Sora对物理世界的模拟,至少将会对机器人具身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面,而没有工作在认知层面。
“其实人在驾驶汽车的时候,很多判断是基于对这个世界的理解。比如对方的速度怎么样,能否发生碰撞,碰撞严重性如何,如果没有对世界的理解就很难做出一个真正的无人驾驶。”周鸿祎表示,这次Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,它展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。
在OpenAI对外发布Sora后,特斯拉CEO马斯克在社交媒体表达了惊叹。随后,他更多次在社交媒体上发表观点或回复评论,力证特斯拉在视频生成上的实力。对此,有网友们表示,连马斯克也“不淡定”了。
机构指,Sora的成功以及其背后展现出的涌现能力可能为计算机视觉领域的研究提供了一个明确的方向,成为未来视频与模拟领域(例如自动驾驶)的统一范式。
Sora处于内测阶段 车企明确加大AI投入
据悉,目前Sora仍处于内测阶段,据OpenAI官网介绍,当下版本的Sora仍有弱点,“它可能难以准确地模拟复杂场景的物理特性,并且可能无法理解因果关系,也会混淆左和右等。”“正如ChatGPT4令人惊讶其聪明,但深入仔细研究时,事情就有些崩溃,它更多是存在某些特定背景下。”一位科技博主如此表示。正如当前大模型存在“幻觉”,Sora未来必定会通过多次升级来解决这些问题。
OpenAI官网发布的Sora生成视频图像显示,一辆汽车行驶在盘山公路上
一方面是Sora的登场,能预期未来一段时间会出现的智能涌现,另一方面,各大车企都在大模型与Sora的热潮下,不断加快AI的研发。龙年伊始,小鹏汽车CEO何小鹏在节后开工第一天发布的一封内部公开信中提到,要投入共计35亿元,发展以智驾为核心的AI技术。几乎同时,吉利汽车集团CEO淦家阅发表的开工长文中称,当下年轻人最关注的科技焦点,就是 AIGC(生成式人工智能)。AI将成为智能汽车竞争的分水岭,没有AI的只是出行工具,具备AI的才是智能伙伴。
面对Sora,行业已有这样的场景畅想:ChatGPT大模型给Sora下达生成视频的指令,并且能根据人们最初的输入来实现指令的不断进阶。
Sora生成视频截图
Sora大模型可以根据文本、图片,乃至视频生成自动驾驶的模拟世界,训练现有的自动驾驶感知决策模型,甚至可以把互动的能力加成给现有模型。
在智能座舱层面,Sora可以将文本、2D的大模型交互形式升维成3D,用户可以随时生成一段视频,甚至将沿途拍摄的视频在线实时剪辑。(记者 文静)