谷歌正在摧毁 OpenAI 和 Sora

13426109659

webmaster@21cto.com

登录注册

谷歌正在摧毁 OpenAI 和 Sora

场长

资讯 70 1242 2025-01-07 08:08:04

就在萨姆·奥特曼，以为他们已经凭借Sora遥遥领先于竞争对手时……谷歌随之掩杀而来，并用其新的 Veo 2 视频创作 AI 模型击败了它们。

已经过去一周了。但是 Sora 似乎已经有点过时了，没人关心了。

谷歌归来

自ChatGPT问世以来，过去两年AI之战一直未曾平息。科技巨头的风光，特别是AI技术，一度被OpenAI抢去。

此外，同为科技巨头的Meta、微软、Amazon不断施压，以马斯克旗下xAI为代表的AI初创企业如春笋涌现，有些让谷歌有一些“喘不上气”。

作为谷歌的劲敌之一，微软CEO萨提亚·纳德拉曾嘲讽道，“从人才、数据、算力等资源算来，谷歌本是这场AI竞赛的赢家，但现实并非如此。”

1月2号深夜，谷歌的 Veo 2、Imagen3、Whisk一套组合拳袭来，AI视频和生图根据，再次被改写了。

从此模型表现来看，谷歌收获一众好评。在编码、数学、逻辑推理等方面，谷歌模型的表现一度超越OpenAI等对手。

在刚刚结束的OpenAI“双十二”直播中，备受期待的Sora终于亮相，但实际表现却意外“拉胯”，令人大失所望。

相比之下，从官方及网友实测分享的视频生成结果来看，谷歌Veo 2模型的输出效果显然更加逼真，生成的“幻觉”问题更少。

“哭死，那个曾经的老大哥——谷歌，终于回来了！”网友感叹道。

谷歌首席执行官劈柴在前几天的发言时充满信心，“在历史上，你并不一定总是第一，但必须力争成为同类产品中最好的，我认为这就是2025年的意义所在。”

效果展示

来看看，这些火烈鸟到底在干什么，Sora的表现如何？

我不太确定滑板的动作，因为它的速度太快了，但它看起来确实很逼真。而且摄像机的运动非常动态和流畅。还可以看看背景中的观众。

这条消息已经在互联网上疯传：

Veo 2的输出

Sora的输出

Google Veo 2的视频在各方面都表现得更好。

看他逼真的动作——西红柿真的被切成薄片并分开了，可以看看它们是如何根据切片动作的。再看右Sora，都切到手了，还在切。

有网友说，在理解物理世界和一致性上，Veo 2已经到了next level。

高达4K的分辨率，大大提升的细节和真实感，人体动作和表情的改善，以及更好的物理建模和时间一致性，都让Veo 2达到了顶级AI视频模型的级别。

在Meta的Movie Gen Bench上，Veo已经可以和Kling、Minimax、Sora掰手腕了

Veo 2强势升级，4K电影级画质

想象一下，只用简单文字描述，就能生成高达4K、超长分钟的精美视频。

Veo 2正是这样一个颠覆性的创新。

它可以遵循简单和复杂的指令，并在物理模拟过程中，展现出令人惊叹的生成质量。


镜头如清风般轻柔地穿梭在粉彩色的木制蜂箱之间，勤劳的蜜蜂翩翩起舞，时隐时现于画框之中。画面缓缓停驻在场景中央那位气质优雅的养蜂人身上，他身着的洁白养蜂服在金色的午后阳光中熠熠生辉。他轻抬着一罐琥珀色的蜂蜜，略微倾斜着让阳光透过蜜液折射出温暖的光晕。在他身后，一片高大的向日葵随着微风轻轻摇曳，金黄的花瓣在温暖的阳光照耀下绽放出柔和的光芒。镜头徐徐上移，展现出一座典雅的乡村老宅，薄荷绿色的百叶窗点缀其间，摇曳的树影在墙面上织就出斑驳的光影图案。这组照片采用35毫米镜头搭配柯达Portra 400胶片摄制，浸润在金色光线中的每一个细节——养蜂人的手套、晶莹的蜂蜜罐、饱经岁月的蜂箱木纹，都呈现出丰富而细腻的质感层次

现在，Veo 2可以像电影摄影师一样和我们交流。

不必再费力和它讨论技术参数、猜测Gemini的标题，只要用习惯的术语说出想要的内容即可。

Veo 2生成的经典追车场景

另外，我们还可以进行更精确的相机控制，比如下图就是一个包含第一人称视角、转移焦点的提示。

可以看到，车内的皮革内饰、车速表等高频细节，给人留下极其深刻的印象。

通过人类评估，Veo 2模型在与几大顶尖视频模型的对比中，脱颖而出。

它不仅仅是简单地生成视频，更是对现实世界物理规律、人类动作，表情方面得到了极致的理解。

对此，谷歌总结了新模型的三大亮点：

首先是，增强的真实感和保真度。

相较于其他的AI视频模型，Veo 2在细节、真实感、伪影减少方面得到了显著的改进。

其次是，领先的运动能力。

Veo 2能以精确的方式生成运动画面，这主要归功于它对物理学的理解、和遵循详细指令的能力。

第三个是，更强大的相机控制选项。

它能精确理解指令，创建各种拍摄风格、角度、运动效果，以及这些元素的组合。

对于创作者而言，Veo 2就像是一个无所不能的AI导演。你可以指定电影类型、镜头风格，甚至是特定的电影技巧，它皆可完美呈现。

比如这位在显微镜前科学家的面部特写。


富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生，实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写，细腻的横向推移突显出她眉宇间深深刻画的忧思与焦虑。她专注地俯身于实验台前，目不转睛地透过显微镜观察，手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中，防护服呈现出令人不安的黄色，与实验室冰冷的不锈钢器械相互映衬，无声地诉说着事态的严峻和未知的威胁。景深精确控制下，镜头对准她眼中流露的恐惧，完美传达出她肩负的重大压力与责任

再比如，一个从场景中间滑过的低角度追踪镜头。


晨光徐徐升起，为这幅精心布置的早餐图景镀上一层温暖的金边。金黄色的枫糖浆如丝绸般缓缓流淌，轻柔地浇注在层层叠起的蓬松松饼上，每一片松饼都袅袅升起缕缕暖意盎然的水汽。特写镜头捕捉着金黄酥脆的培根，只见它滋滋作响，细小的油珠在阳光下化作金色光点翩翩起舞。醇香的咖啡优雅地旋转注入通透的玻璃杯中，逐渐在杯中漾开层层叠叠的焦糖色咖啡奶泡。最后，镜头如潜水般俯入一枚刚切开的鲜橙，以震撼的微距视角展现出饱满晶莹、汁水四溢的果肉纹理

更令人惊叹的是，Veo 2对专业术语的理解。

只需在提示中输入「18mm lens」，Veo 2就得知创建拍摄广角镜头，或在提示中加入「浅景深」（shallow depth of field）它便可模糊背景，突出主体。