OpenAI 直播划水的一天裸舞 抖音,谷歌版 Sora 迎来了它的 2.0 ——
Veo 2,凭证文本或图像生成更为高质料的视频。
从官方先容中看,这次主要有三个方面的升级。
比如分歧率能达到 4K。
大略意会干系镜头结果的 Prompt。
更严防实验物理寰宇与东谈主类形貌的意会和展示。
在官方账号下面,全球都对这些成果示意了咋舌:
我的确思谷歌输掉比赛,可是谷歌莫得输。
另外,图像生成模子 Imagen 3 也有进一步的矫正。
谷歌版 Sora2.0:从头界说质料和结果
质料和结果,是这次视频模子升级的关节词。
除了不言而喻的明晰度的栽植——最高可达 4K 分歧率,它大略赤诚地效率浅近和复杂的指示 Prompt,并令东谈主笃信地模拟实验寰宇的物理以及种种视觉立场。
具体体目下它的真确感和保真度上,比如细节、伪影减少等方面都有权贵矫正。
还有高档的畅通功能,基于对物理学的意会,大略更高精度的示意畅通。
还能准确地效率种种镜头结果类的 Prompt裸舞 抖音,比如拍摄立场、角度、行为以及所有这些的组合。
那么接下来直不雅地感受一下成果。
Prompt:特写镜头聚焦于一位女 DJ 的脸部,她蔼然、浓密的玄色鬈发勾画出她的五官,她透彻千里浸在音乐中。她闭上双眼,千里浸在节拍中,嘴角挂着一点浅笑。当她跟着节拍点头和扭捏时,相机捕捉到了她头部的轻微行为,她的体魄本能地跟着耳机中传出的音乐而作念出反应,传到东谈主群中。浅景深使布景变得依稀。她被绚烂的霓虹色包围着。特写镜头强调了她迷东谈主的气质以及音乐传递和卓著的力量。
还有是这种集体的蜂群也能描画出来。
草榴社区地址Prompt:镜头轻轻捷过一行排粉刷过的木制蜂箱,嗡嗡作响的蜜蜂在画面中进收开销。镜头落在站在画面中央的优雅农民身上,他纯洁的养蜂服在金色的午后阳光下闪闪发光。他举起一罐蜂蜜,稍稍歪斜以捕捉光泽。在他死后,雄壮的向日葵在微风中有节拍地摇曳,花瓣在和善的阳光下闪闪发光。镜头朝上歪斜,领略一座相沿的农舍,百叶窗是薄荷绿色的,摇曳的树木在墙上投下斑驳的暗影。用 35 毫米镜头在柯达 Portra 400 胶片上拍摄,金色的光泽在农民的手套、果酱罐和蜂箱的风化木料上酿成了丰富的纹理。
还不错切换镜头,从近景到前景,而在镜头之下,非论是蜂蜜已经咖啡的泡沫细节都有精准地描画。
Prompt:太阳在一盘摆放整都的早餐场景后渐渐起飞。浓稠的金色枫糖浆以慢行为倒在松软的煎饼上,每一块煎饼都泄气出优轻柔善的蒸汽云。特写镜头中,脆培根发出嘶嘶声,金色油脂的轻微余烬在空中航行。咖啡以顺滑的旋动弹作倒入水晶般透明的杯子中,杯子里充满了深棕色的咖啡油层。场景已毕时,相机俯冲到崭新切好的橙子上,以令东谈主咋舌的微距细节展示出它亮堂多汁的果肉。
那么在凭证东谈主类对其性能的评估中,Veo 2 的发达优于其他跳动的视频生成模子
在 Meta 基准数据集 MovieGenBench 上,东谈主类参与者不雅看了 1003 个教导和反应的视频。
结果夸耀,跟市面上的主流视频生成模子比较,Veo2.0 在全体偏好、Prompt 指示准确效率方面都发达最好。
值得一提的是,这里除了 Sora,国产模子可灵、MiniMax 都上桌了。
所有的比较都在 720P 分歧率下进行,Veo 采样时长为 8 秒,VideoGen 采样时长为 10 秒,其他型号采样时长为 5 秒。咱们向评分者展示完竣视频时长。
终末,他们示意,创建传神、动态或复杂的视频,并在复杂场景或复杂畅通的场景中保捏透彻一致性仍然是一项挑战。他们将陆续成就和矫正这些畛域的性能。
图像模子 Imagen 3 也增强了
除此除外,还增强了他们的图像生成模子 Imagen 3。
不错生成更种种化的艺术立场,真实验成见、梦境、肖像画等等。
生成的图像会更赤诚于 Prompt,哪怕这个 Prompt 有何等地离谱。(Doge)
而从种种生成的图像来看,视觉成果也比之前更亮堂,构图也愈加均衡。
好了,感兴致的一又友可戳下方一语气了解更多细则。
参考一语气:
[ 1 ] https://deepmind.google/technologies/veo/veo-2/
[ 2 ] https://x.com/GoogleDeepMind/status/1868703624714395907
[ 3 ] https://deepmind.google/technologies/imagen-3/
— 完 —
点这里� � 关怀我,难忘标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再见 ~