爱游戏(ayx)中国官方网站

爱游戏ayx,爱游戏ayx官方

爱游戏ayx,爱游戏ayx官方

OpenAI新模型,会冲击影视行业吗?——技术解读

2月16日,OpenAI全新的文生视频模型Sora,成为全球的焦点,很多人惊呼,认为OpenAI的新模型会冲击当前的影视行业,本文从新发布的Sora模型技术原理角度解读,看看Sora是如何直接从文字生成视频,未来又有哪些技术上的应用;从目前OpenAI透露的消息来看,Sora可能并不仅仅只是用来生成视频,在模拟物理世界方面也有很大的潜力,未来升级版的Sora也可能与传说中的“GPT-5”一同发布,真正推动AGI时代的到来!

上面是奥特曼放出的生成视频,一位女子走在东京夜晚的街上,拉近甚至能看到女子脸上的褶皱斑点,这样的精度确实超越了笔者之前介绍过的Pika()。

OpenAI技术上同样从LLM大型语言模型获得了灵感,此前也是尝试了很多坑,比如循环神经网络RNN、生成对抗模型GAN、自回归变换(Autoregressive Transformers),以及最后的扩散模型(Diffusion Model),在过去很多文生视频聚焦于较短的视频,或者生成视频的题材局限于小部分视觉数据——

而Sora足足能够提供1分钟的高清输出。OpenAI主要是通过互联网大规模的视频数据进行训练,像大模型那样将不同形式的文本、代码和数字通过tokens统一,Sora则是将视觉数据转化成补丁数据包(patches)的统一形式。

这里可以参考何恺明经典论文MAE,利用自监督学习在更大规模的数据,输入随机“Patch”对图像进行重建,OpenAI这里将“Patch”先压缩到了低维潜特征空间(latent space),然后再分解成时空“Patch”(Spacetime Patches),将视频数据的时间和空间统一。

这里OpenAI的训练步骤很像今年初放在arxiv上的沙漏扩散模型HDiT,在Transformer的基础上支持在像素空间(pixel-space)中进行高分训练。

Sora仍然是基于Transformers模型(可以详看Karpathy对Transformer的小白科普介绍),OpenAI给定输入的噪声“Patch”,包括文本prompts提示等信息,用来训练预测一个原始干净的“Patch”,在实际训练中,OpenAI发现扩散模型在文生视频领域的巨大潜力。

下面展示的是对固定种子和输入Prompt的样本对比,随着训练计算量增加,扩散模型的输出质量有显著提高,之前的Pika也是利用的扩散模型,即Transformer+Diffusion model的思路。

这里OpenAI和PIka、Runaway们的差距,主要是很多扩散模型都是先将视频进行裁剪到标准尺寸,比如输出一个256×256的4秒视频,而OpenAI认为应该直接使用原始大小的数据,第一个优点是采样(Sampling)更加灵活,Sora可以直接采样1920x1080p-1080×1920任意分辨率的所有视频。

第二个优点是用原始长宽比视频进行训练,能够大幅改善构图和取景能力,下图左侧是常规将训练视频裁剪到正方形,右侧(Sora)是用原始尺寸视频训练,Sora有了明显改善。

Recaptioning

扩散模型可能对复杂Prompt理解能力较弱,OpenAI在Sora上还利用了DALL·E 3的重新描述转译(re-captioning),首先训练生成一个高度描述性的captioner描述模型,再用它作为训练集中所有生成视频的文本描述进行训练,实机测试中发现可以提高文本描述的准确度和视频的整体质量。

DALLE图像动画

之前大力3还有个小Trick,就是对简短的用户Prompt提示,先进行转换变得更长,然后再生成,Sora也用了这个小技巧,提高语言理解能力,下面是DALLE2和DALLE3图像生成的实例,从单张图片喂给Sora,生成一段视频。

扩展视频

上面这个DALLE→Sora的小应用(图生视频)就给人无限遐想,影视行业当然会受到冲击,但如果能将Sora用好,也是生产力质的飞跃,在计算资源充足的情况下,将大幅度降低视频制作的时间成本;Sora还可以在时间维度上对视频进行扩展,或者是将视频进行无缝拼接,理论上来说可以营造一种视频无缝无限循环的错觉。

拼接视频

另一个技巧是对输入视频进行拼接插值,将两个风格近似的视频进行拼接,Sora的理解能力和生成连贯视频的能力得以体现。综上所述,从技术来看Sora用的也是扩散模型+Transformer,但是训练视频并没有像Pika那样先进行裁剪,而是直接秀操作秀资源训练原始尺寸模型,在模拟物理世界上潜力很大,生成视频效果已经是业界内遥遥领先的水平。

对于风格完全不同的视频,Sora也能将不同主题和场景构成的视频之间,创建无缝过渡,比如下图无人机飞行过程中,无缝变成蝴蝶的形成,效果丝滑无比。

3D一致性

Sora可以生成带有动态摄像角度的视频,镜头移动旋转,人和场景元素在三维空间中一起移动,过去的文生视频模型在长视频中,3D一致性很差,Sora可以有效地对短期和长期依赖关系进行建模,比如模型可以保留人、动物和物体,或者实现在单个样本中生成同一角色的多个镜头。

接下来缺点也是笔者昨天提到的问题,Sora很难准确模拟复杂场景的物理原理,无法理解实例间的因果关系,在长时间样本中也会有不连贯性,这也是为何OpenAI提供最长一分钟的限制(尽管目前看1分钟也已经超出了我们的预期),包括大量的对齐(Alignment)工作,这也是下阶段Sora将要解决的问题。从GPT3.5turbo-GPT4的跃升来看,OpenAI可能会在今年后面推出更加强大的Sora,如果集成在GPT-5中一同发布,将是绝杀!

最后一点,在所生成的视频数据中,我个人感觉OpenAI拿到了大量虚幻5生成的视频,想象一下用Sora模拟高清渲染的游戏视频,在《爱游戏(ayx)中国官方网站》中,Sora理解了爱游戏ayx官方家的物理动作,直接用“我的世界”提示词让Sora生成游戏视频,也就是常常说的零样本学习(zero-shot),无需训练文本-视频数据,直接实现文生视频,这样的梦幻场景正在成为现实,与大模型类似,Sora也具备涌现的模拟能力,总体来看,未来Sora也不会只局限于影视行业,OpenAI将Sora直接形容成现实世界模拟器,未来也会在物理世界和数字世界上爆发巨大潜力!


ChatGPT:

聊天机器人——

聊天机器人——

ChatGPT移动端——

微软——

ChatGPT王炸官宣——

火爆全网——

英伟达重磅:

黄仁勋:

ChatGPT免费开源平替——

ChatGPT王炸升级——

ChatGPT史诗升级——

ChatGPT加强版——

ChatGPT王炸官宣——

ChatGPT重磅升级——

ChatGPT:

ChatGPT突发:

ChatGPT之父:

ChatGPT之父:

ChatGPT:

游戏界大变天:

人工智能“觉醒”:

ChatGPT最强挑战者:

ChatGPT最强竞品:

ChatGPT:!

ChatGPT:

ChatGPT:

ChatGPT:

OpenAI重磅突破:

OpenAI王炸——

微软重磅官宣:

乔布斯剧本:

奥特曼回归?

奥特曼宣布:

奥特曼回归:

GPT商店上线:

#免责声明#

①本站部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。

②若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。

③如果本站有侵犯、不妥之处的资源,请联系我们。将会第一时间解决!

④本站部分内容均由互联网收集整理,仅供大家参考、学习,不存在任何商业目的与商业用途。

⑤本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与任何商业和非法行为,请于24小时之内删除!

给TA打赏
共{{data.count}}人
人已打赏
生活杂谈

藤本树人气作品《爱游戏(ayx)中国官方网站》正式宣布推出剧场版动画

2024-2-16 0:00:00

生活杂谈

小米14u发布会定档2月22日,开启人车家全生态新篇章!

2024-2-18 0:00:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索