发布时间 : 2022-10-13 阅读量 : 480
图片来源
当我们沉浸于抖音、快手,吃着零食葛优躺,这个世界正在悄然刷新着我们的认知。此前,通过 dall-e、midjourney 和 craiyon 等 ai 工具,普通用户可以输入简单的文本内容,经过人工智能创作出艺术插画。近期,meta和google在此基础上更进一步,相继推出文本、语音生成视频的黑科技。
meta的make-a-video不仅能够生成图片,还可以生成声情并茂的视频内容。根据用户输入的描绘某个场景的文本信息,生成一个相匹配的短视频。样例网站:
除了meta,google也在假期之末献上两名视频生成竞争选——imagen video和phenaki。根据google ceo sundar pichai介绍,imagen video比meta的make-a-video拥有更高的分辨率,能生成1280*768,每秒24帧的视频分段。样例网站:
而phenaki则可以根据200个单词左右的文字描述,生成2分钟以上的视频,讲述一个完整的小故事,堪比一个小小的导演。样例网站:
-
make-a-video的模型架构如下所示,该技术是在原来text-to-image的基础上改进而来,主要动机是了解世界的样子,以及描述与其配对的文本图像数据,并从无监督视频中学习现实世界录制视频时的镜头移动。
-
首先,作者解耦了完整的时间 u-net 和注意力张量,并在空间和时间上对它们进行近似逼近。其次,作者设计了一个时空流水线来生成高分辨率和帧率视频,其中包含一个视频解码器、插值模型和两个超分辨率模型,可以实现包括 text-to-video的各种文本生成应用。
来自源论文:
- make-a-video 的高级架构图中显示,给定由先验 p 翻译成图像嵌入的输入文本 x 和所需的帧速率 f ps ,解码器 dt 生成 16 个 64 × 64 分辨率的帧,然后通过 ↑f 将其插值到更高的帧速率,并提高分辨率到 srt l 为 256 × 256,srh 为 768 × 768,最后生成高时空分辨率的视频 y^。
-
imagen video是基于最近大火的扩散模型,直接继承图像生成sota模型imagen。除了分辨率高以外,还展示出三种特别能力。
-
首先它能理解并生成不同艺术风格的作品,物体的3d结构在旋转展示中不会变形。imagen video是一系列模型的集合。语言模型部分是google自家的t5-xxl,训练好后冻结文本编码器部分。其中,语言模型只负责编码文本特征,把文本到图像转换的工作交给了后面的视频扩散模型。基础模型在生成图像的基础上,以自回归方式不断预测下一帧,首先生成一个48*24每秒3帧的视频。其从文本提示输入开始到生成视频的流程图如下图所示:
来自源论文:
-
在phenaki之前,ai模型可以一个具体提示生成一个超短视频,但是无法生成2分钟连贯的视频。phenaki实现了脑部故事情节,生成2分钟以上视频。
-
研究人员引入了一个新的因果模型来学习表示视频:将视频视作图像的一个时间序列。该模型基于transformer,可以将视频分解成离散的小表示,而分解视频则是按照时间的因果顺序来进行的。也就是通过空间transformer将单个提示进行编码,随后再用因果transformer将多个编码好的提示串联起来。其流程图如下所示:
来自源论文:
随着文本生成视频技术的快速发展,未来,各大短视频平台的视频或许不再是真人表演秀,而是合成视频的秀场,这将给依靠短视频平台的视频剪辑和录制的人员带来经济冲击。
ai正在革新着各行业,在带来挑战的同时,也带来了更多进步。stability ai新任首席信息官daniel jeffries表示,ai最终会带来更多的工作岗位。任何时候都是挑战与机遇并存,把握时代脉搏就能创造更好的未来。