顶分享评论编辑

Sora

Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器” ），于2024年2月15日（美国当地时间）正式对外发布。

Sora可以根据用户的文本提示创建最长60秒的逼真视频，该模型了解这些物体在物理世界中的存在方式，可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力，能理解用户在提示中提出的要求。

Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能，其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步，也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。

行业背景编辑本段

OpenAI在大模型领域的成功

2022年底，OpenAI正式推出ChatGPT，这款由人工智能技术驱动的自然语言处理工具能够通过学习和理解人类的语言来进行对话。ChatGPT是OpenAI迈出的第一步，这款让所有人都能体会到人工智能潜力的现象级产品，展现出了文字对于过去人工智能的理解力和逻辑能力的超越。随后，OpenAI的开发重点逐步过渡到图像的生成，Dall-E模型在生成图像方面也获得了重大突破。

原生规模训练

Sora采用“原生规模训练”，过往的图像和视频生成通常会将视频调整为标准大小，但这样会失去视频的原始长宽比和细节，而原生规模的训练方法可以带来更好的效果。Sora可以对各种尺寸和纵横比的视频进行采样，允许直接为不同尺寸的设备创建内容，并快速原型化较低分辨率的内容。与将视频裁剪为正方形的模型相比，Sora可以生成更完整、更美观的视频

社会影响编辑本段

价值意义

Sora对于需要制作视频的艺术家、电影制片人或学生来说，都带来了无限可能。该模型可以深度模拟真实物理世界，标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃，也被认为是实现通用人工智能（AGI）的重要里程碑，通过不断深入研究和发展Sora等先进模型，有望在未来实现更加智能、高效和多样化的视频生成与处理技术。

产业格局

估值上涨

Sora发布后，OpenAI的估值迅速上涨（有望超过800亿美元，2023年ChatGPT发布不久时其估值约为290亿美元），且文生视频大模型将会大幅推动人工智能基础设施的需求，英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局，英伟达也因大模型训练需要GPU算力支持而股价大涨。与此同时，受Sora发布的影响，美国图片供应商Shutterstock的股价大跌。

在中国，龙年开市第一天，Sora相关概念全线“爆发”，会畅通讯、当虹科技、万兴科技、易点天下、因赛集团、东方国信、数码视讯、华扬联众、国脉文化等股票均大幅上涨，多家公司回应称，将根据自身业务特点，在文生视频技术落地、Sora应用等方面寻找突破入口。

生产变革

浙商证券预测，Sora及同类产品将参与到改变信息生产和分发两大环节的进程中，PGC（专业生产内容）将广泛采用AI工具辅助生产，UGC（用户生成内容）将借助AI工具逐步替代PGC。此间，AI生成视频工具的商业化将提速。

Sora可生成一段长达60秒的视频，远超市面同类AI产品视频生成时长，60秒的视频时长，已经超过抖音等短视频平台的平均视频时长，Sora的诞生也为以后短视频平台的内容生产提供了更大的可能性。

职业取代

截至2024年2月，已有一些视觉艺术家、设计师和电影制作人以及OpenAI员工获得了Sora访问权限，他们也已开始在社交平台不断晒出使用Sora生成的新作品，为人们展示AI生成视频的创意可能。许多网友称“不少人要丢工作了”，甚至有人开始“悼念”一整个素材行业。

Sora的发布引发了关于虚假信息传播的争议。其强大的图像视频生成能力达到了以假乱真的程度，这不仅改变了人们“眼见为实”的传统观念，还可能带来一系列社会问题，如视频证据真实性和有效性的验证难题。在Sora问世前已有多起利用AI伪造视频进行诈骗的案例，显示了AI生成视频可能被滥用于非法目的的风险。Sora的普及可能会进一步降低制作高质量虚假视频的门槛，加剧虚假信息的传播。尽管互联网平台已有针对特定类型虚假信息的检测机制，但对于复杂难辨的信息仍需加强深度分析和及时阻断。随着AI生成内容的激增，网络上的合成内容将大量存在，这要求不仅在技术上持续改进，还需建立更全面的治理体系来有效应对虚假信息的挑战 [52]。

版权问题

Sora可能引发侵权争议。一方面，Sora生成的视频版权是否受到保护尚不明确，这可能导致使用这些视频的主体面临侵权索赔和版权保护追溯的风险。另一方面，Sora在训练过程中使用了相关素材，即使只是用这些素材进行训练，也可能存在潜在的侵权风险 [53]。

视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展，这预示着技术拐点的临近以及爆款应用的涌现。特别是在3D资产生成和视频生成领域，由于扩散算法的成熟，这些领域受益匪浅。然而，与图像生成相比，3D资产和视频生成在数据和算法方面面临的难点更多。

尽管如此，考虑到大型语言模型（LLM）对人工智能各领域的加速作用以及已经出现的优秀开源模型，2024年该行业有望实现更大的发展。在2023年末至2024年初，Pika、HeyGen等人工智能生成的视频应用逐渐受到关注，这验证了多模态技术的持续进步与成熟。但与此同时，民主倡导者和人工智能研究人员警告说，这些工具已经被用来欺骗和欺骗民众。

名字由来编辑本段

Sora在日语中是“天空”（そら）的意思，引申含义还有“自由”，象征着其无限的创造潜力。

正式发布

美国当地时间2024年2月15日，OpenAI正式发布文生视频模型Sora ，并发布了48个文生视频案例和技术报告，正式入局视频生成领域。Sora能够根据提示词生成60s的连贯视频，“碾压”了行业目前大概只有平均“4s”的视频生成长度。

功能特色编辑本段

优点

功能综述

Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频（其他AI视频工具还在突破几秒内的连贯性），视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景” 。

静态图生成视频

Sora还具备根据静态图像生成视频的能力，能够让图像内容动起来，并关注细节部分，使得生成的视频更加生动逼真，这一功能在动画制作、广告设计等领域具有应用前景。

视频扩展与缺失帧填充

Sora能够获取现有视频并对其进行扩展或填充缺失的帧，这一功能在视频编辑、电影特效等领域具有应用前景，可以帮助用户快速完成视频内容的补充和完善。

连接视频

可以使用Sora连接两个输入视频，在具有完全不同主题和场景组成的视频之间实现无缝过渡。

其他能力
Sora的其他能力

图像生成

Sora可以生成各种尺寸的图像，分辨率最高达2048×2048 。

3D一致

Sora可以生成动态运动的视频，随着相机的移动和旋转，人和场景元素在三维空间中一致移动。

远距离连贯性

物体持久性编辑本段

Sora通常能够有效地对短期和长期依赖关系进行建模，包括人、动物和物体的持久化，即使它们被遮挡或离开框架。同时，它还能在单个样本中生成同一角色的多个镜头，以保持其在整个视频中的外观。

互动性

Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触，并随着时间的推移而持续，或者一个男人可以吃汉堡并留下咬痕。

模拟数字世界

Sora可以模拟人工过程，例如电子游戏，并能够通过基本策略控制玩家，同时高保真地渲染世界及其动态。

多机位

Sora可以生成多机位、多角度的视频。

缺点

Sora也存有以下弱点：可能难以准确模拟复杂场景的物理原理，无法理解因果关系，混淆提示的空间细节，难以精确描述随着时间推移发生的事件。

例如，在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中，狼的数量会变化，一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

OpenAI表示，Sora存在不成熟之处，可能难以理解因果关系，多位人工智能领域人士表示，该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题，但无法根治。想要真正突破最底层逻辑上的问题，因果关系是一条必经之路。

技术特点编辑本段

多帧预测生成

Sora是一种扩散模型，具备从噪声中生成完整视频的能力，它生成的视频一开始看起来像静态噪音，通过多个步骤逐渐去除噪声后，视频也从最初的随机像素转化为清晰的图像场景，其能够一次生成多帧预测，确保画面主体在暂时离开视野时仍保持一致。

特殊架构

Sora采用与GPT模型相似的Transformer架构，OpenAI用Transformer结构替代Diffusion模型中常用的U-Net结构，提升了原来Diffusion模型在深度和宽度上的可扩展性，为视频模型增加输出时长奠定基础。Transformer架构能够处理长序列数据，并通过自注意力机制捕捉数据中的依赖关系，从而提高模型的生成能力。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题，扩散模型采用更可扩展的状态空间模型（SSM）主干替代了传统的注意力机制，从而减少了算力需求，并能够生成高分辨率图像。

重述提示词

Sora借鉴DALL-E 3的“重述提示词技术”，为视觉训练数据生成高度描述性的标注，这使得模型能够更忠实地遵循用户的文本指令，生成符合用户需求的视频内容，同时也提高了模型的灵活性和可控性。

数据表示

OpenAI将视频和图像表示为Patch，类似于GPT中的token，这种统一的数据表示方式使得Sora能够在更广泛的视觉数据上进行训练，涵盖不同的持续时间、分辨率和纵横比，有助于模型学习到更丰富的视觉特征，提高生成视频的质量和多样性

原生规模训练

社会影响编辑本段

价值意义

估值上涨

生产变革

职业取代

社会争议编辑本段

虚假信息

版权问题

Sora可能引发侵权争议。一方面，Sora生成的视频版权是否受到保护尚不明确，这可能导致使用这些视频的主体面临侵权索赔和版权保护追溯的风险。另一方面，Sora在训练过程中使用了相关素材，即使只是用这些素材进行训练，也可能存在潜在的侵权风险。

免责声明：锐百科的词条系由网友创建、编辑和维护
如您发现词条内容涉嫌侵权，请通过vmeiti@qq.com与我们联系，我们将按照相关法律规定及时处理。
词条内容仅供参考，如果您需要解决具体问题（尤其在法律、医学等领域），建议您咨询相关领域专业人士。

如果您认为本词条还有待完善，请编辑

Sora

行业背景编辑本段

社会影响编辑本段

社会争议编辑本段

名字由来编辑本段

功能特色编辑本段

物体持久性编辑本段

技术特点编辑本段

社会影响编辑本段

社会争议编辑本段

附件列表

标签

同义词

Sora

行业背景编辑本段

社会影响编辑本段

社会争议 编辑本段

名字由来编辑本段

功能特色编辑本段

物体持久性编辑本段

技术特点 编辑本段

社会影响 编辑本段

社会争议编辑本段

附件列表

标签

同义词

社会争议编辑本段

技术特点编辑本段

社会影响编辑本段