爱游戏(ayx)中国官方网站

2月16日，OpenAI全新的文生视频模型Sora，成为全球的焦点，很多人惊呼，认为OpenAI的新模型会冲击当前的影视行业，本文从新发布的Sora模型技术原理角度解读，看看Sora是如何直接从文字生成视频，未来又有哪些技术上的应用；从目前OpenAI透露的消息来看，Sora可能并不仅仅只是用来生成视频，在模拟物理世界方面也有很大的潜力，未来升级版的Sora也可能与传说中的“GPT-5”一同发布，真正推动AGI时代的到来！

上面是奥特曼放出的生成视频，一位女子走在东京夜晚的街上，拉近甚至能看到女子脸上的褶皱斑点，这样的精度确实超越了笔者之前介绍过的Pika（）。

OpenAI技术上同样从LLM大型语言模型获得了灵感，此前也是尝试了很多坑，比如循环神经网络RNN、生成对抗模型GAN、自回归变换（Autoregressive Transformers），以及最后的扩散模型（Diffusion Model），在过去很多文生视频聚焦于较短的视频，或者生成视频的题材局限于小部分视觉数据——

而Sora足足能够提供1分钟的高清输出。OpenAI主要是通过互联网大规模的视频数据进行训练，像大模型那样将不同形式的文本、代码和数字通过tokens统一，Sora则是将视觉数据转化成补丁数据包（patches）的统一形式。

这里可以参考何恺明经典论文MAE，利用自监督学习在更大规模的数据，输入随机“Patch”对图像进行重建，OpenAI这里将“Patch”先压缩到了低维潜特征空间（latent space），然后再分解成时空“Patch”（Spacetime Patches），将视频数据的时间和空间统一。

这里OpenAI的训练步骤很像今年初放在arxiv上的沙漏扩散模型HDiT，在Transformer的基础上支持在像素空间（pixel-space）中进行高分训练。

Sora仍然是基于Transformers模型（可以详看Karpathy对Transformer的小白科普介绍），OpenAI给定输入的噪声“Patch”，包括文本prompts提示等信息，用来训练预测一个原始干净的“Patch”，在实际训练中，OpenAI发现扩散模型在文生视频领域的巨大潜力。

下面展示的是对固定种子和输入Prompt的样本对比，随着训练计算量增加，扩散模型的输出质量有显著提高，之前的Pika也是利用的扩散模型，即Transformer+Diffusion model的思路。

这里OpenAI和PIka、Runaway们的差距，主要是很多扩散模型都是先将视频进行裁剪到标准尺寸，比如输出一个256×256的4秒视频，而OpenAI认为应该直接使用原始大小的数据，第一个优点是采样（Sampling）更加灵活，Sora可以直接采样1920x1080p-1080×1920任意分辨率的所有视频。

第二个优点是用原始长宽比视频进行训练，能够大幅改善构图和取景能力，下图左侧是常规将训练视频裁剪到正方形，右侧（Sora）是用原始尺寸视频训练，Sora有了明显改善。

Recaptioning

扩散模型可能对复杂Prompt理解能力较弱，OpenAI在Sora上还利用了DALL·E 3的重新描述转译（re-captioning），首先训练生成一个高度描述性的captioner描述模型，再用它作为训练集中所有生成视频的文本描述进行训练，实机测试中发现可以提高文本描述的准确度和视频的整体质量。

DALLE图像动画

之前大力3还有个小Trick，就是对简短的用户Prompt提示，先进行转换变得更长，然后再生成，Sora也用了这个小技巧，提高语言理解能力，下面是DALLE2和DALLE3图像生成的实例，从单张图片喂给Sora，生成一段视频。

扩展视频

上面这个DALLE→Sora的小应用（图生视频）就给人无限遐想，影视行业当然会受到冲击，但如果能将Sora用好，也是生产力质的飞跃，在计算资源充足的情况下，将大幅度降低视频制作的时间成本；Sora还可以在时间维度上对视频进行扩展，或者是将视频进行无缝拼接，理论上来说可以营造一种视频无缝无限循环的错觉。

拼接视频

另一个技巧是对输入视频进行拼接插值，将两个风格近似的视频进行拼接，Sora的理解能力和生成连贯视频的能力得以体现。综上所述，从技术来看Sora用的也是扩散模型+Transformer，但是训练视频并没有像Pika那样先进行裁剪，而是直接秀操作秀资源训练原始尺寸模型，在模拟物理世界上潜力很大，生成视频效果已经是业界内遥遥领先的水平。

对于风格完全不同的视频，Sora也能将不同主题和场景构成的视频之间，创建无缝过渡，比如下图无人机飞行过程中，无缝变成蝴蝶的形成，效果丝滑无比。

3D一致性

Sora可以生成带有动态摄像角度的视频，镜头移动旋转，人和场景元素在三维空间中一起移动，过去的文生视频模型在长视频中，3D一致性很差，Sora可以有效地对短期和长期依赖关系进行建模，比如模型可以保留人、动物和物体，或者实现在单个样本中生成同一角色的多个镜头。

接下来缺点也是笔者昨天提到的问题，Sora很难准确模拟复杂场景的物理原理，无法理解实例间的因果关系，在长时间样本中也会有不连贯性，这也是为何OpenAI提供最长一分钟的限制（尽管目前看1分钟也已经超出了我们的预期），包括大量的对齐（Alignment）工作，这也是下阶段Sora将要解决的问题。从GPT3.5turbo-GPT4的跃升来看，OpenAI可能会在今年后面推出更加强大的Sora，如果集成在GPT-5中一同发布，将是绝杀！

最后一点，在所生成的视频数据中，我个人感觉OpenAI拿到了大量虚幻5生成的视频，想象一下用Sora模拟高清渲染的游戏视频，在《爱游戏(ayx)中国官方网站》中，Sora理解了爱游戏ayx官方家的物理动作，直接用“我的世界”提示词让Sora生成游戏视频，也就是常常说的零样本学习（zero-shot），无需训练文本-视频数据，直接实现文生视频，这样的梦幻场景正在成为现实，与大模型类似，Sora也具备涌现的模拟能力，总体来看，未来Sora也不会只局限于影视行业，OpenAI将Sora直接形容成现实世界模拟器，未来也会在物理世界和数字世界上爆发巨大潜力！

ChatGPT：

聊天机器人——

聊天机器人——

ChatGPT移动端——

微软——

ChatGPT王炸官宣——

火爆全网——

英伟达重磅：

黄仁勋：

ChatGPT免费开源平替——

ChatGPT王炸升级——

ChatGPT史诗升级——

ChatGPT加强版——

ChatGPT王炸官宣——

ChatGPT重磅升级——

ChatGPT：

ChatGPT突发：

ChatGPT之父：

ChatGPT之父：

ChatGPT：

游戏界大变天：

人工智能“觉醒”：

ChatGPT最强挑战者：

ChatGPT最强竞品：

ChatGPT：！

ChatGPT：

ChatGPT：

ChatGPT：

OpenAI重磅突破：

OpenAI王炸——

微软重磅官宣：

乔布斯剧本：

奥特曼回归？

奥特曼宣布：

奥特曼回归：

GPT商店上线：

#免责声明#

①本站部分内容转载自其它媒体，但并不代表本站赞同其观点和对其真实性负责。

②若您需要商业运营或用于其他商业活动，请您购买正版授权并合法使用。

③如果本站有侵犯、不妥之处的资源，请联系我们。将会第一时间解决！

④本站部分内容均由互联网收集整理，仅供大家参考、学习，不存在任何商业目的与商业用途。

⑤本站提供的所有资源仅供参考学习使用，版权归原著所有，禁止下载本站资源参与任何商业和非法行为，请于24小时之内删除!

爱游戏(ayx)中国官方网站

{{userData.name}}已认证

OpenAI新模型，会冲击影视行业吗？——技术解读

藤本树人气作品《爱游戏(ayx)中国官方网站》正式宣布推出剧场版动画

小米14u发布会定档2月22日，开启人车家全生态新篇章！

浅谈SRPG战棋游戏的历史发展和关卡设计

《爱游戏(ayx)中国官方网站》重返XGP，《爱游戏(ayx)中国官方网站》登录Xbox并加入XGP

S13半决赛T1 vs JDG宣传片：Legends Never Die

奋发新活力！中美青年在大使馆跳科目三

不吵架，冷静讨论

索尼2023黑五活动PS5/PS4数字版游戏推荐，豪华版完全版史低价

用户协议

隐私政策

广告合作

在线工单