一、结论写在前面
这不是OpenAI的正式技术报告。Sora是一个文本到视频的生成式AI模型,于年2月由OpenAI发布。该模型经过训练,可以根据文本指令生成逼真或想象中的场景视频,展示了在模拟物理世界方面的潜力。根据公开的技术报告和逆向工程,论文全面回顾了该模型的背景、相关技术、应用、存在的挑战和文本到视频AI模型的未来发展方向。论文提供了对Sora的全面评估,以帮助开发人员和研究人员研究Sora的能力和相关工作。该评估基于对已发表的技术报告和对现有文献的逆向工程的调查。
二、论文的简单介绍
2.1论文背景
自年11月ChatGPT发布以来,AI技术的出现标志着一个重大转变,重塑了交互方式,并深入融入了日常生活和行业的各个方面。在这一势头的推动下,OpenAI于年2月发布了Sora,这是一种文本到视频的生成式AI模型,可以根据文本提示生成逼真或想象中的场景视频。与以前的视频生成模型相比,Sora以其能够高质量地生成长达1分钟的视频而与用户的文本指令保持一致而与众不同。Sora的进步体现了长期以来AI研究任务的使命,即赋予AI系统(或AI代理)理解和互动的物理世界的能力。这涉及开发能够不仅解释复杂用户指令,而且应用这种理解来通过动态和丰富的上下文模拟解决现实世界问题的AI模型。
Sora展现了准确解释和执行复杂人类指令的显着能力,如图2所示。该模型可以生成包括多个执行特定动作的角色在内的详细场景,针对复杂的背景。研究人员将Sora的熟练程度归因于不仅处理用户生成的文本提示,还能辨别场景中元素之间复杂的相互作用。Sora最引人注目的一个方面是其生成长达一分钟视频的能力,同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频剪辑的早期模型不同,Sora生成的一分钟长视频具有从第一帧到最后一帧的进展感和视觉一致性。此外,Sora的进步体现在其生成具有细微运动和交互描绘的扩展视频序列的能力,克服了早期视频生成模型受制于更短剪辑和更简单的视觉渲染的局限。这种能力代表了一个飞跃,允许用户将文本叙述转换为丰富的视觉故事,推动了AI驱动的创意工具。总体而言,这些进步展示了Sora作为世界模拟器的潜力,为所描绘场景的物理和语境动态提供细微的洞察。
技术:Sora的核心是一种预训练的diffusiontransformer。transformer模型在许多自然语言任务中已经被证明是可扩展和有效的。与GPT-4等强大的大语言模型(LLM)类似,Sora可以解析文本并理解复杂的用户指令。为了使视频生成在计算上高效,Sora采用空间潜在补丁作为其构建块。具体来说,Sora将原始输入视频压缩为潜在的空间时间表示。然后,从压缩后的视频中提取一系列潜在的空间时间补丁,以封装视觉外观和运动动力学上的细微间隔。这些补丁与语言模型中的词标记类似,为Sora提供详细的视觉词组,用于构建视频。
Sora的文本到视频生成是由一个diffusiontransformer模型执行的。从填充了视觉噪声的帧开始,该模型逐步去噪图像并根据提供的文本提示引入具体细节。本质上,生成的视频通过多步精炼过程浮现出来,每一步都使视频与所需的内容和质量更加一致。
Sora的亮点:Sora的能力对各个方面具有深远的意义:
提高模拟能力:大规模训练Sora归因于其在模拟物理世界各个方面的显著能力。尽管缺乏明确的3D建模,但Sora展示了包括对象持久性在内的动态相机运动和长程连贯性的3D一致性,并模拟与世界的简单交互。此外,Sora有趣地模拟了像Minecraft这样的数字环境,由一个基本策略控制,同时保持视觉保真度。这些新兴的能力表明,扩展视频模型的规模对于创建能够模拟物理和数字世界复杂性的AI模型是有效的。
提升创造力:想象通过文字概述一个概念,无论是一个简单的对象还是一个完整的场景,并在几秒钟内看到一个逼真或高度样化的视频呈现。Sora允许加速设计过程,以更快地探索和完善想法,从而显著提高艺术家、电影制作人和设计师的创造力。
推动教育创新:视觉辅助材料长期以来一直是理解教育中重要概念的组成部分。有了Sora,教育工作者可以轻松地将课程计划从文本转化为视频,以吸引学生的注意力并提高学习效率。从科学模拟到历史戏剧化,可能性是无限的。
提高可访问性:提高视觉领域的可访问性至关重要。Sora通过将文本描述转换为视觉内容提供了一种创新的解决方案。这种功能赋予所有人,包括视力损伤者,主动参与内容创作和以更有效的方式与他人互动的能力。因此,它允许创造一个更具包容性的环境,每个人都有机会通过视频表达自己的想法。
培育新兴应用程序:Sora的应用范围广泛。例如,市场营销人员可以使用它根据特定受众描述创建动态广告。游戏开发者可以使用它从玩家叙述中生成定制的视觉效果甚至是角色行为。
局限性和机遇:虽然Sora的成就突显了AI的重大进步,但挑战仍然存在。描绘复杂的行动或捕捉细微的面部表情是模型可以增强的领域。此外,诸如减轻生成内容中的偏见和防止有害视觉输出等伦理考量凸显了开发者、研究人员和更广泛社区负责任地使用的重要性。确保Sora的输出始终安全无偏见是主要挑战。
视频生成领域正在迅速发展,学术和行业研究团队正在不断取得进展。竞争性文本到视频模型的出现表明,Sora很快可能成为一个动态生态系统的一部分。这种合作与竞争的环境促进创新,导致视频质量的改进和新的应用程序,这些应用程序有助于提高工作人员的生产力,并使人们的生活更加娱乐。
2.2技术
2.2.1Sora概述
在核心本质上,Sora是一个具有灵活采样维度的diffusiontransformer[,如图4所示。它由三部分组成:
(1)时间空间压缩器首先将原始视频映射到潜空间;
(2)然后ViT处理标记化的潜在表示,并输出去噪后的潜在表示;
(3)类似CLIP[26]的条件机制接收增强用户指令的大语言模型和潜在的视觉提示,以引导扩散模型生成样式化或主题化视频。
经过多次去噪步骤之后,获得生成视频的潜在表示,然后使用相应的解码器将其映射回像素空间。在本节中,论文旨在逆向工程Sora使用的技术,并讨论大量相关工作。
2.2.2数据预处理
2.2.2.1可变时长、分辨率、宽高比
Sora的一个显著特点是其训练、理解和生成原生大小[3]的视频和图像的能力,如图5所示。传统方法通常调整视频的大小、裁剪或宽高比以适应统一的标准——通常是固定低分辨率的短片段与方形帧。这些样本通常以更宽的时间步幅生成,并依赖于单独训练的帧插入和分辨率渲染模型作为最后一步,在整个视频中造成不一致。利用diffusiontransformer体系结构,Sora是第一款接受视觉数据多样性的模型,可以在各种视频和图像格式中进行采样,包括从宽屏xp视频到垂直xp视频及之间的所有格式,而无需损害其原始尺寸。
在原生大小的数据上进行训练可以显著改善生成视频中的构图和构架。经验结果表明,通过维持原始宽高比,Sora实现了更自然和连贯的视觉叙事。与在统一裁剪的正方形视频上训练的模型相比,Sora明显具有优势,如图6所示。Sora生成的视频展示了更好的构架,确保主体完全呈现在场景中,而不是正方形裁剪带来的有时会被截断的视角。这种对原始视频和图像特征的细微理解和保留标志着生成模型领域的重大进步。Sora的方法不仅展示了更真实和吸引人的视频生成潜力,还凸显了训练数据多样性对实现生成AI高质量结果的重要性。
Sora的训练方法与RichardSutton的THEBITTERLESSON[30]的核心原则一致,其指出利用计算而不是人为设计的特征会导致更有效和灵活的AI系统。正如最初的diffusiontransformer设计寻求简单性和可扩展性[31],Sora在原生大小的数据上训练的策略避免了传统AI对人类派生抽象的依赖,而更青睐随计算力扩展的通用方法。在本节的余下部分,论文试图逆向工程Sora的体系结构设计,并讨论实现这一惊人特性的相关技术。
2.2.2.2统一的视觉表示
为了有效处理不同时长、分辨率和宽高比的图像和视频等不同的视觉输入,一个关键方法是将所有形式的视觉数据转换为统一的表示,这有助于大规模训练生成模型。具体来说,Sora通过首先将视频压缩到更低维的潜在空间,然后将表示分解成时空补丁来对视频进行补丁化。然而,Sora的技术报告[3]仅呈现了一个高层次的想法,使复制对研究社区来说具有挑战性。在本节中,论文试图逆向工程潜在的组成部分和技术路径。此外,论文将讨论可行的替代方案,这些替代方案可以复制Sora的功能,并借鉴现有文献的见解。
2.2.2.3视频压缩网络
Sora的视频压缩网络(或视觉编码器)旨在降低输入数据尤其是原始视频的维度,并输出在时间和空间上都被压缩的潜在表示,如图7所示。根据技术报告中的参考文献,压缩网络建立在VAE或矢量量化-VAE(VQ-VAE)之上。然而,如果不进行调整大小和裁剪,VAE将难以将任意大小的视觉数据映射到统一的固定大小的潜在空间,正如技术报告中所述。论文总结了两种不同的实现来解决这个问题:
空间补丁压缩:这包括在编码到潜在空间之前,将视频帧转换为固定大小的补丁,类似于ViT和MAE中使用的方法ologies(参见图8),这在适应不同分辨率和宽高比的视频方面特别有效,因为它通过处理单个补丁来编码整个帧。随后,这些空间标记以时间序列的形式组织,以创建空间-时间潜在表示。这项技术凸显了几个关键的注意事项:
时间维度的可变性:给定训练视频的不同持续时间,潜在空间表示的时间维度不能固定。为了解决这个问题,可以对特定数量的帧进行采样(对于更短的视频可能需要填充或时间插值[34]),或者为后续处理定义一个通用的扩展(超长)输入长度;
利用预训练的视觉编码器:对于处理高分辨率视频,利用现有的预训练视觉编码器(如StableDiffusion[19]中的VAE编码器)对大多数研究人员来说是可取的,而Sora团队预计将从零开始通过训练自己的压缩网络与解码器(视频生成器)的方式进行训练,类似于训练潜在扩散模型[19,35,36]的方式。这些编码器可以有效压缩大尺寸的补丁(例如×),便于管理大规模数据;
时间信息聚合:由于这种方法主要