English | 中文

Sora发展历程

  • 2024年04月19日 13:27
  • AI时代
Sora发展历程Sora,人工智能公司OpenAI开发的一个生成式人工智能模型,专门用于生成视频内容。它可以根据用户的文字指令,自动生成相应的视频。这项技术打破了以往需要从0到1的创新,Sora可以直接输出的视频长达60秒,内容不仅包含高度精细的背景、复杂的运镜、丰富的角色,而且可以实现一镜到底和多机位切换,视频质量高清连贯,风格多变,甚至能模拟人物微表情和动物神态,足以以假乱真。在Sora之前,市面上已有多个文本到视...

Sora发展历程

Sora,人工智能公司OpenAI开发的一个生成式人工智能模型,专门用于生成视频内容。它可以根据用户的文字指令,自动生成相应的视频。这项技术打破了以往需要从0到1的创新,Sora可以直接输出的视频长达60秒,内容不仅包含高度精细的背景、复杂的运镜、丰富的角色,而且可以实现一镜到底和多机位切换,视频质量高清连贯,风格多变,甚至能模拟人物微表情和动物神态,足以以假乱真。

在Sora之前,市面上已有多个文本到视频生成模型,包括Meta的Make-A-Video、Runway的Gen-2和Google的Lumiere,不过最后一个截止目前也仍处在研究阶段,这次OpenAI抢在Google之前,提前发布了重磅产品Sora,自此OpenAI在AIGC内容生成领域,打造了3大堪称王炸的产品矩阵:

阶段一:AI生成文本:ChatGPT

ChatGPT是一个人工智能聊天机器人程序,由OpenAI于2022年11月推出。该程序基于大型语言模型GPT-3.5,使用指令微调(Instruction Tuning)和基于人类反馈的强化学习技术(RLHF)训练而成。能够进行自然语言对话,回答用户的问题和要求,它还能根据用户的反馈进行自我学习和改进。此外,ChatGPT还可以用于生成文章、编辑文本、编写代码、设计图像等任务。

ChatGPT介绍

阶段二:AI生成图像:DALL-E 3

DALL-E 3是一个由OpenAI开发的人工智能程序,能够根据文本提示生成相应的图像。它使用了一种被称为“扩散模型”的深度学习技术,通过逐渐为图像添加像素,从而生成高质量的图像。用户可以输入文本提示,例如“一个金色的凤凰”,DALL-E 3则会生成与该文本提示相匹配的图像。OpenAI表示,DALL-E 3的图像生成能力非常强大,可以生成各种类型和风格的图像,包括人物、动物、风景、建筑等等。DALL-E 3的出现标志着人工智能技术的发展进入了一个新的阶段,为图像生成和人工智能应用领域带来了新的可能性。

阶段三:AI生成视频:Sora

开发Sora的团队以日语中天空的意思来命名它,象征着它“无限的创造潜力”。在正式发布的当日,Sora官网展示了多段使用Sora生成的视频片段,其中包括一位时尚女性漫步在东京街头、一辆SUV行驶在山路上、旁边有一个“短毛怪”的动画一根蜡烛、两个人在雪地里走过东京,以及加州淘金热的虚假历史镜头。



女性漫步在东京街头



一辆SUV穿梭在山路



短毛小怪物和蜡烛



加州淘金热的虚假历史镜头

Sora是一种由美国OpenAI研究机构研发的人工智能模型,能够根据用户提供的复杂或抽象的文本描述,精确模拟物体运动轨迹、环境渲染以及镜头切换等电影级别的视频制作技术,生成场景逼真、视觉冲击强烈的科技主题视频。它的出现不仅能帮助内容创作者提供了全新的艺术表达手段,也预示着人工智能将深度介入并重新定义影视及多媒体制作行业的工作流程。

Sora具有五大提升之处,包括一键生成60秒视频、复杂场景和角色生成能力、多镜头生成能力、三维空间的连贯性和物体持久性以及与世界的互动。然而,值得注意的是,目前Sora可能还存在一些问题,如生成的视频中可能包含不合逻辑的图像,空间细节混淆等,随着算力的增强和模型的改进,这些问题有望得到解决。

在商业化方面,虽然关于Sora的具体价格尚未公布,但OpenAI正在寻求影业高管们的意见,以决定如何将其商业化。未来,Sora有望在诸如虚拟现实、增强现实、游戏开发等领域发挥更大的作用,甚至在非娱乐产业如医疗、科研等方面,也能帮助专业人士快速生成概念演示、模拟实验结果等可视化内容,提升工作效率和决策质量。


相关推荐