• AI对话
  • AI绘画
  • AI办公
  • AI语音
  • AI视频
  • 智能体
  • AI最新资讯
  • 协会动态
  • 图片广场
  • 角色广场
  • AI教育
  • AI商城

AI门户

logo
      首页
    • AI工具
    • AI资讯
    • AI社区
    • AI商业
    • APP
登录

视频胜过千张图片:探索长视频生成的最新趋势

作者 · 来源 · 雷丁大学英国伯克郡雷丁(2024)
浏览 · 125次2025-01-03

概述

一张图片可能传达千言万语,但由数百或数千个图像帧组成的视频则讲述了一个更复杂的故事。尽管多模态大型语言模型 (MLLM) 取得了重大进展,但生成扩展视频仍然是一项艰巨的挑战。截至撰写本文时,OpenAI 的 Sora是目前最先进的系统,但它仍然只能生成一分钟以内的视频。这一限制源于长视频生成的复杂性,它需要的不仅仅是生成式 AI 技术来近似密度函数——规划、故事发展以及保持空间和时间一致性等基本方面也带来了额外的障碍。将生成式 AI 与分而治之的方法相结合可以提高长视频的可扩展性,同时提供更大的控制权。在这篇调查中,我们研究了长视频生成的现状,涵盖了 GAN 和扩散模型等基础技术、视频生成策略、大规模训练数据集、评估长视频的质量指标,以及未来的研究领域,以解决现有视频生成能力的局限性。我们相信它将作为一个全面的基础,提供广泛的信息来指导长视频生成领域的未来进步和研究。

调查、文本到视频生成、文本到图像生成、生成式人工智能、视频编辑、时间动态、人工智能的可扩展性、通用人工智能、人工智能模型泛化

1.介绍

2022 年,随着 ChatGPT 的发布,标志着生成式人工智能时代领域的一个重要里程碑。ChatGPT 是一种高级语言模型,可以根据用户输入生成类似人类的文本,支持回答问题、创意写作和对话等任务。该技术使用基于大量文本数据训练的大型语言模型的复杂深度神经网络来捕捉复杂的语言模式和上下文细微差别,从而实现精确的文本生成和理解。从那时起,各大科技公司都推出了自己的大型语言模型 (LLMS),例如 Facebook 的 LLama 系列、谷歌的 Gemini,以及其他一些著名模型,包括Claude和 Mistral。

图像生成领域的革命性突破伴随着LLM的成功。DALL-E 2代表了对传统生成对抗网络 (GAN) 和变分自动编码器 (VAE) 模型的重大飞跃,这要归功于它能够解释自然语言并呈现各种概念和风格。它擅长从现实和富有想象力的提示中创建照片般逼真的图像。其他领先的生成式 AI 系统,如 Stable Diffusion 3和 MidJourney,还展示了基于真实和想象的想法制作照片般逼真的视觉效果的卓越能力。

制作视频比创建文本或图像要困难得多。与静态图像或文本不同,视频是动态的,具有不断变化的摄像机角度、运动、变形和遮挡模式。制作逼真的长时视频需要不断生成新内容,同时保持一致性。视频由多个帧组成,其语义内容不断演变。在这里,帧的“语义内容”是指概念图,它表示帧内的各种元素(例如对象、动作和交互)如何有助于对视频的整体理解。图1示出了单场景视频的示例,其中女孩在静态背景下以重复的动作跳舞。此示例突出显示了帧间语义内容的最小变化,没有引入新的角色或动作。这样的视频片段可以归类为单个场景,其语义内容始终保持不变或大致一致。相比之下,图 2显示了多场景视频的示例,其中对象的数量发生变化,并且新的演员出现在后面的帧中。在这种情况下,帧的语义内容会随着视频的进展而变化。

图 1.语义内容不随帧的进展而变化的示例。图 2.语义内容随帧的进展而变化的示例[55]。

由于动态场景的复杂性,早期的视频生成模型仅限于生成仅持续几秒钟的短片,通常为单个静态帧制作动画,而不包含不同的背景或对象。例如,Make-A-Video和 RunwayML Gen-2使用单个动画帧生成 4-5 秒的视频,语义内容几乎没有变化。CogVideo是首批使用自回归变换器创建扩展视频的长视频生成模型之一。然而,它基于单一提示进行操作,并且视频语义内容的变化也微乎其微。Phenaki采用自回归视频转换器,是首批基于多个提示生成具有动态语义内容的长视频的模型之一。同样,Gen-L-Video视频使用扩散模型将短视频片段组合成单个连续的视频。最近,Sora在视频生成领域建立了新的领先地位。它利用扩散变换器和从压缩时空表示中采样,制作出视觉上令人印象深刻且语义内容丰富的视频。长视频生成领域的另一个领先模型是 RunwayML 的 Gen-3 Alpha。这是一个商业模型,可以生成长达 10 秒的照片级逼真视频,并且也基于扩散变压器。图3展示了这些长视频生成技术的演变,与人造商业视频相比,这些技术仍处于早期阶段,尤其是在视频长度和叙事组织方面。

图 3.长视频生成模型的演变。后来的模型如SORA和Gen-3 Alpha更注重视频的质量而不是视频的长度。

图 4.大多数关注长视频生成的论文发表于 2023 年和 2024 年。

1.1.调查贡献——需要总结长视频生成方法

除了制作和维护跨场景的一致故事情节之外,长视频生成还面临着许多挑战。这些挑战包括缺乏带有详细字幕的大规模视频数据集以及需要大量计算资源。尽管存在这些障碍,长视频生成已成为生成式 AI 的新前沿,为娱乐、教育、医学、营销和游戏领域提供了潜在的应用。这引起了广泛的研究兴趣,导致研究数量迅速增加。如图4所示,大多数关于长视频生成的论文都是在过去两年内发表的。

鉴于这些兴趣和机会,现在正是总结长视频生成的最新进展并讨论相关挑战、进展和未来方向以支持该领域发展的最佳时机。据我们所知,只有两项相关的长视频生成调查《长视频生成调查:挑战、方法和前景》和《2024 年针对视频生成、理解和流媒体的生成式人工智能和LLM的调查》,前者深入探讨了长视频生成的最新趋势,强调了分而治之和自回归方法是两个主要主题。它还研究了照片写实主义趋势和生成范式,例如 VAE、GAN 和基于扩散的模型。然而,虽然它强调了分而治之的方法,即将长视频分解成更小、更易于管理的块,从而简化了长视频的复杂性,但对这种方法的详细探索——例如如何将短视频无缝地集成到较长的叙述中——却缺乏。我们的工作旨在通过彻底分析分而治之策略的各个维度及其在应对长视频生成挑战中的作用来弥合这一差距。相比之下,后者提供了视频生成领域的更广泛概述,涵盖了长视频、视频编辑、超分辨率、数据集和指标等主题。然而,长视频生成只是讨论的众多主题之一。它强调了对长视频生成进行重点深入研究的必要性。我们的贡献通过全面分析这一新兴领域并强调关键方法、挑战和未来前景来满足这一需求。

拟议的工作通过整合最近的研究并对分而治之方法进行全面分析来解决现有文献中的空白。具体来说,我们专注于未被充分探索的方面,例如基于代理的网络和从短视频过渡到长视频的方法,这些方面在当前的评论中是缺失的。此外,我们将研究范围扩大到分而治之和自回归类别之外的方法和论文以及以前的调查未涵盖的最新研究。此外,我们深入研究了文献,强调了生成长视频所采用的算法、模型和输入控制技术,从而为该领域提供了更全面、更详细的视角。

1.2.调查重点——长视频生成的技术、挑战和关键问题

视频生成利用各种技术,例如从潜在空间采样、创建小的视频片段或图像、生成中间帧(“分而治之”)、采用自回归方法根据初始帧预测未来帧,以及增强较长视频的潜在状态表示。训练视频生成模型面临挑战,因为视频数据集对计算的要求更高,内存需求也更大。许多视频生成模型都建立在预先训练的图像模型之上,增强注意力机制以确保相邻帧之间的一致性,因为视频本质上是帧的序列。一些长视频模型是通过扩展短视频生成模型而开发的并改进长内容的控制机制。视频生成的另一个重要方面是输入指导。与图像或短视频生成不同,指导对于长视频生成至关重要,并且通常基于文本嵌入,如 CLIP。LLM通过理解世界动态、物体轨迹和动作分组,在指导视频生成过程中发挥着至关重要的作用,他们利用自己的广博的知识来指导视频的创作。在评估生成的视频的质量时,重要的是要评估各个帧的质量、运动的流畅度和整体的美感。必须确保生成的视频与输入文本一致,并保持整个视频中实体(例如汽车和演员)的一致性。这激发了人们对研究该领域创新研究方向和解决以下相关研究问题的兴趣:

  1. 我们如何生成具有不同参与者、动作和对象的多个语义片段的长视频?
  2. 我们如何确保长视频片段中的语义一致性,例如维护汽车等物体的一致模型?
  3. 我们如何管理长视频训练和推理的资源需求?
  4. 我们如何处理扩展视频序列的控制信号(调节)?

我们的调查文章围绕这些关键问题展开,提供见解来指导研究人员和从业人员应对这些挑战。

1.3.调查方法

为了进行本次调查,我们在多个会议上进行了搜索,包括但不限于 ICCV、ECCV、CVPR、ICLR、ICML、IEEE、TPAMI、IEEE Neural Networks、AAAI、WACV、ICIP、NeurIPS、KDD、ACCV、IJCV、AI Open 和 CVIU。我们使用了“视频生成”、“长视频生成”和“LLM 指导的视频生成”等关键词。此外,我们还搜索了学术数据库,包括 Google Scholar、IEEE Xplore、ACM Transactions 和 Scopus,重点关注“长视频生成”一词进行调查。

我们的调查涵盖了 2021 年至 2024 年(截至 8 月底)期间发表的论文,重点关注“视频生成”和“生成式 AI”。我们通过滚雪球抽样收集了 100 多篇文章,使用了文本转视频、生成式 AI、视觉解释和扩展视频生成等关键词。

1.4.调查组织

我们将首先讨论视频生成的基础框架,包括嵌入和 LLM,为更高级的主题奠定基础。目标是让读者熟悉这些基本组件,使他们能够根据自己的专业水平探索这些构建块。接下来,我们将探索视频生成的骨干机制,如分而治之的自回归和全局增强。我们将探索输入指导机制,包括 LLM 指导等策略,并根据 LLM 施加的控制深度将它们分为不同的级别。我们还将讨论必要的图像和视频扩散模型修改,以促进这种控制。我们还将讨论在扩散模型生成的视频中实现高时间和空间质量所需的后处理管道。然后,我们将讨论用于训练视频生成模型的数据集。然后,我们将讨论用于衡量生成视频质量的指标。最后,我们将讨论未来趋势和未解决的挑战。

2.长视频生成:骨干架构与方法

长视频生成的进步建立在许多基础构建模块的进步之上。这些模块包括基于 GAN 的架构、自动编码器、基于 Transformer 的模型、LLM 和语言理解以及图像和视频传播模型。

2.1.基于 GAN 的视频生成

从 2014 年左右到 2020 年代初,生成对抗网络 (GAN) 被认为是生成任务的最新成果 (SOTA),但最近的进展(例如扩散模型和基于 Transformer 的方法)在性能和多功能性方面都超越了它们,特别是在图像合成和视频生成等应用中。本节探讨了 GAN 的制定,并重点介绍了推动该领域进步的关键论文。GAN的灵感来自博弈论,由两个核心组件组成:生成器和鉴别器。生成器的目的是将随机噪声(通常从简单均匀分布中采样)转换为数据样本,范围从图像到视频。同时,鉴别器评估这些样本,将它们分类为真实的(源自训练数据集)或假的(由生成器创建)。这种 GAN 公式是图像和视频生成的基础,后面的部分将对此进行解释。

2.1.1.基于 GAN 的图像生成

GAN 最初彻底改变了图像生成,并占据了该领域的主导地位。本文,我们将按时间顺序介绍 GAN 文献中的关键思想和里程碑。

早期的 GAN:GAN是第一个使用对抗网络生成图像的,但对生成器和鉴别器都采用了简单的前馈神经网络。DCGAN通过合并卷积层扩展了 GAN 架构,使其更适合图像数据。他们生成的图像分辨率为 64×64。LAPGAN通过多尺度生成图像来提高图像的分辨率。它由多个 GAN 组成,每个 GAN 以不同的分辨率生成图像。GAN、DCGAN 和 LAPGAN 主要设计用于基于随机噪声向量生成图像。这些模型不接受文本指导,而基于文本的 GAN 添加了基于文本的控制,这将在下一节中讨论。

GAN 文本输入:是一个多阶段文本转图像 GAN,可以创建高质量图像。它有两个互相叠加的 GAN 堆栈。第一个 GAN 接收文本并生成低分辨率图像。第二个 GAN 接收文本和输入图像并创建高质量图像。AttnGAN使用注意力机制从文本创建图像,使其能够专注于输入描述中的特定单词或短语。

风格/图像转换:GAN 是第一个生成高质量艺术图像的生成模型,其中一项关键创新是将文森特·梵高等艺术风格转移到现实世界的图片和图像翻译中。CycleGAN进行图像到图像的转换,由两个生成器和两个鉴别器组成。StyleGAN主要专注于生成高质量、多样化的图像,尤其是人脸。它引入了解缠结的潜在空间。潜在空间中,N 维向量代表每幅图像。将不同的高级属性(如肤色、发型等)投射到潜在空间的不同维度上,为逼真的图像生成、语义处理和局部编辑提供了出色的编辑功能。StyleGAN 为高级图像处理打开了大门。StyleGAN2是对 StyleGAN 的改进,可获得更高质量的图像。pix2pix专为图像到图像的转换任务而设计。它学习条件生成模型并根据输入图像生成输出图像。GAN 还彻底改变了视频生成,我们将在2.1.2中进行探讨。

2.1.2.视频/多帧生成

早期尝试:视频合成的早期研究主要集中在视频预测上,例如《超越均方误差的深度多尺度视频预测》,其涉及根据先前观察到的一系列帧生成未来的帧。《生成具有场景动态的视频,2016 年》扩展了卷积模型,包括两个不同的卷积网络。它将视频分解为静态背景和移动前景,并用 2D 和 3D 卷积网络生成它们。VGAN 可以生成高尔夫球场、海滩、火车站等 32 帧逼真的视频。VGAN 是一个无条件视频生成器,即不包含任何辅助输入(例如文本)。'多阶段动态生成对抗网络根据第一帧预测未来的视频帧。它通过以延时模式生成 32 帧(分辨率为 128 x 128)改进了现有模型。第一阶段在其两阶段模型中生成具有逼真内容的延时视频。相比之下,第二阶段优化了第一阶段的结果,主要通过结合动态运动信息来增强真实感。上述模型不是基于提示的,下一节将探讨基于提示的模型。

基于提示的指导:许多研究探索了在 GAN 中使用条件输入来指导和改进生成过程。这些条件可以采用各种形式,包括音频信号、文本提示、语义图、图像或其他视频。TGANs-C使用基于 LSTM 的潜在向量来整合文本指导。TGANs-C 被设计用于输入单个句子。

使用 GAN 生成长视频:DIGAN可以创建 128 帧视频。它引入了一个基于 INR(隐式神经表征)的视频生成器,该生成器通过以不同方式操纵空间和时间坐标来改善运动动态,以及一个运动鉴别器,可以在不观察长帧序列的情况下有效识别非自然运动。StyleGan-V改进了最先进的技术,并基于 StyleGAN2 构建。它可以通过设计一个整体鉴别器来生成高分辨率的1024长视频,该鉴别器通过简单地连接帧的特征来聚合时间信息以降低训练成本。

2.2.基于自动编码器的视频生成

自动编码器,变分自动编码器,以及掩蔽自动编码器属于将信息压缩到紧凑潜在空间的模型系列,可作为图像和视频生成管道的构建块。蒙版自动编码器可以从这个学习到的潜在空间生成视频。我们将讨论自动编码器的基础,并通过蒙版自动编码器构建视频生成过程。

2.2.1.自动编码器公式

自动编码器是一种无监督神经网络,它将输入压缩到紧凑的潜在层,然后通过反向传播学习重现其输入。自动编码器经过训练,可以最小化输入之间的重构损失𝐱以及重构的输出𝐱^自动编码器在视频和长视频生成中最常见的应用是构建压缩潜在空间。例如,在《利用潜在扩散模型进行高分辨率图像合成》,作者使用编码器和解码器将图像从像素投影到潜在空间,以降低学习图像分布的计算复杂度。

变分自动编码器(VAE)是基于贝叶斯网络原理的概率生成模型。VAE 采用重建策略,将输入视频数据从高维空间投影到低维空间,然后从这个紧凑表示(也称为瓶颈层)重建视频,再将其恢复到原始的高维空间。虽然传统的自动编码器学习压缩的潜在向量,但它们无法生成新的数据点,因为它们学习的是输入数据的固定潜在表示。VAE 通过将输入转换为潜在空间中的分布而不是离散点来解决此问题。变分自动编码器 (VAE) 在视频生成的一个应用是 VQ-VAE。VQ-VAE 使用矢量量化变分自动编码器 (VQ-VAE) 学习下游潜在表示,该编码器已用于许多视频和图像生成管道,例如 VideoGen、VQGAN和 DALL-E。除了使用 VAE 模型进行压缩外,还有使用变分自动编码器进行视频生成的相关工作。例如,Hierarchical Patch VAE-GAN使用分层方法来利用 VAE 和 GAN 技术。VAE 也已应用于视频异常检测。在《通过变分自动编码器进行视频中的视觉异常检测》中,作者设计了一个基于LSTM-Convolutional的自动编码器来学习单场景视频的分布,其中摄像机固定在单个背景上。

2.2.2.掩蔽自动编码器

掩蔽自动编码器是可扩展的计算机视觉自监督学习器,已被用作视频生成的骨干,通过屏蔽输入图像的随机块并重建缺失的像素。视频掩码自动编码器基于图像掩码自动编码器。在预训练期间,大量随机的图像块被屏蔽。编码器只处理剩余的可见块。编码后,引入掩码标记,并将编码的块和掩码标记的组合集通过小型解码器以在像素级重建原始图像。这种方法在视频领域的扩展是 VideoMAC。它采用了 Masked Encoders 和资源友好的 convNet 架构。VideoMAC 旨在重建蒙版补丁,随机且对称地应用于具有高蒙版比(本研究中使用的是 0.75)的帧对。另一个值得注意的模型是 MAGVIT Masked Generative Video Transformer。MAGVIT 在推理时间上比现有的扩散和自回归模型高出几个数量级。MAGVLT也是基于掩蔽自动编码器主干。它提出了一个统一的生成视觉和语言 (VL) 模型来生成图像和文本序列。

2.3.基于 Transformer 的视频生成

GAN 存在模式崩溃等限制,训练不稳定,需要对参数进行微调,并投入大量的训练时间和资源。2017 年推出的 Transformer,通过自回归和掩码编码进入图像和生成领域。需要理解的一些关键概念是视觉变换器和视频变换器。

2.3.1.基于 Transformer 的图像生成

视觉变形金刚 (ViT)代表了计算机视觉领域的重大转变。ViT 架构的运行方式与自然语言处理中使用的转换器类似,它将图像分成更小的块,就像将文本分解为标记一样。DALL-E使用 2.5 亿个图像文本对训练自回归变换器。他们使用了“离散 VAE”将 256*256 图像压缩为 32 × 32 图像标记网格。他们将这些标记与相应的 BPE 文本标记连接起来,并使用 GPT 转换器自回归学习文本和图像标记的联合分布。CogView基于 GPT Transformer 架构的表现优于使用 FID 距离的 DALL-E,但 DALL-E 对复杂提示的渲染能力更强。DALL-E 和 CogView 等自回归方法由于其单向逐个标记生成特性而导致生成速度缓慢。CogView通过使用掩蔽学习图像和文本标记的联合分布来训练跨模态通用语言模型,从而改进了以前方法的局限性。

2.3.2.基于自回归的视频生成

视频变压器 (VViT)代表了计算机视频生成领域的重大转变。VViT 架构的功能类似于视觉转换器,但它不是对图像补丁进行标记,而是对视频补丁进行标记。Phenaki可以根据一系列提示生成任意长的视频。Phenaki 使用预先训练的语言模型 t5x 进行文本嵌入。它使用了 ViViT 的变体,C-ViViT,提取视频标记并将其压缩到最少。它屏蔽了一些标记,并通过双向变换器学习预测屏蔽的视频标记。在推理过程中,它可以使用自回归变换器预测下一个标记。压缩机制使我们能够训练和预测非常长的视频序列。CogVideo扩展 CogView2。它使用具有多种帧速率的分层训练来增强文本剪辑对的对齐,从而显著提高生成准确率,尤其是对于具有复杂语义的动作。在其用于视频生成的两阶段架构中,它首先自动回归生成关键帧,然后另一个转换器在这些帧之间进行插值。

2.4.视频生成中的语言理解

2.4.1.文本到图像特征表示

基于文本的视觉生成任务背后的核心原则是有效地将文本与视觉内容配对。许多视觉生成流程利用预先存在的图像文本对模型,如 CLIP(对比语言-图像预训练)。CLIP 已使用对比学习方法进行了预训练,该方法优化了图像和文本嵌入之间的余弦相似度。鉴于 CLIP 的强大性能,许多视觉生成模型(如 DALL·E 2结合 CLIP 的文本嵌入来利用其卓越的语义理解。它允许这些模型增强其生成视觉相关和上下文适当内容的能力,从而有效地弥合文本和视觉表示之间的差距。

2.4.2.LLM视频指导

许多视觉生成模型,如 LLM Director利用独立大型语言模型 (LLM)来提高其性能。通过集成 LLM,视觉生成模型可以从高级自然语言处理功能中受益,从而使它们能够解释和生成一个或多个带有详细场景的提示中更细致入微、上下文相关的字幕描述。这种设计的一个例子是基于 LLM 的 VDM。当与视觉输入相结合时,LLM 可以将简单的图像描述转化为更复杂的故事叙述,增加意义和背景的层次,从而增强观看者的体验。LLM 还可以充当整个视频生成过程的导演,并创建 Vlogger 所展示的连贯脚本。3.2.1中解释了最近的长视频生成方法如何利用 LLM 的细节。

2.5.扩散模型

扩散模型现在是图像和视频扩散领域最先进的模型。基于扩散的图像和视频管道使用了许多构建块,例如变分自动编码器、转换器和语言理解,并引入了新的基线。我们将简要介绍基于扩散的架构的历史和进展。基础工作为这种方法建立了一个关键框架,将非平衡热力学原理应用于无监督学习。这一见解为生成模型的后续发展铺平了道路。概率扩散模型是一个参数化的马尔可夫链,通过变分推理进行训练,以生成在有限时间内与数据非常相似的样本。这些想法应用于图像和视频生成,如下一节所述。

2.5.1.图像扩散

图像扩散模型通过噪声预测对噪声输入进行去噪来生成图像。《通过估计数据分布的梯度进行生成建模》通过估计数据分布的梯度引入了一种新颖的视角,进一步丰富了对生成过程的理解。然而,这一领域的重大突破来自有影响力的论文“去噪扩散概率模型”。在潜在空间中进行正向和反向扩散过程。从文本等单一模态进行条件调节的一般机制是使用 UNET 主干中的变压器交叉注意层进行条件去噪解码器,并使用来自文本编码器(如 CLIP)的嵌入进行训练。除了 CLIP,还有 BERT或T5编码器可以使用。在他们的论文中,作者通过修改 U-Net 的注意层来调节图像生成,从而实现了这一范式。他们通过连接来自不同模态(如文本或其他)的嵌入来实现这一点。

2.5.2.通过扩散模型生成视频

视频扩散模型建立在与图像扩散模型相同的扩散架构上,但视频扩散模型还需要确保帧之间的一致性。图像扩散模型可以通过将其扩展到时间域来生成视频,就像在视频扩散模型中所做的那样,或者通过使用具有修改后的注意力和噪声采样策略的图像扩散模型生成关键帧来保持帧一致性。我们可以插入这些关键帧以实现更平滑的过渡,如 FreeBloom 中所述。

U-Net 和 Transformers 是驱动视频生成模型的两个主要骨干架构。视频扩散模型采用标准的基于 U-Net 的扩散模型设置,但修改了视频建模的架构。它将传统的 2D U-Net 扩展为 3D 架构,其中每个特征代表一个 4D 张量,包括帧、高度、宽度和通道。这个 3D U-Net 在空间和时间上分解,结合了空间和时间注意机制。空间注意块关注单个帧内的相关区域,而时间注意块捕获时间域上不同帧之间的依赖关系。另一方面,Sora基于 Transformer 的扩散模型,它对视频和图像潜在代码的时空块进行操作。视觉输入表示为时空块序列,这些时空块作为 Transformer 的输入标记。长视频生成策略将在下一节详细讨论。

3.长视频:生成范式

我们将各种视频生成方法总结为三种核心范式。

  • 自回归范式:视频是按顺序生成的,每一帧都以之前生成的帧为条件。
  • 分而治之方法:通过创建由故事情节提示引导的关键帧或短视频片段来制作视频,通常借助大型语言模型 (LLM)。
  • 隐式视频生成:通过设计潜在空间来表示可变大小的视频,从模型中隐式生成视频,而无需显式外推(自回归方法)或显式插值(分而治之)。

这些方法将在以下章节中解释。

3.1.自回归方法

自回归生成范式通过未来帧预测来工作。它在先前的视频帧上训练并执行模型推理。每个帧都作为未来帧的输入。此预测过程可确保生成的视频一致且结构连贯。它从锚帧(通过文本提示生成)、文本到图像嵌入、图像或多模态输入生成上下文。它使用上下文和前 N 帧,并根据附加提示和前一帧选择性地生成未来 N 帧。由于帧转换的顺序性,它确保了帧之间的稳健一致性。这在图5中进行了说明。然而,它在生成长视频时需要改善性能瓶颈,因为它必须按顺序创建帧并且无法利用并行化。

CogVideo是首批用于长视频生成的开源自回归转换器之一。CogVideo 以预先训练的文本转图像模型 CogView2 为基础继承从文本到图像预训练中获得的知识。CogVideo 对输入序列的长度和帧的空间分辨率有限制(默认 160 x 160 可以上采样到 480 x 480)。NUWA-Infinity通过采用分层视频生成模型提高了空间分辨率。CogVideo 和 NUWA-Infinity 的一个限制是它们使用单​​个提示作为输入。Phenaki可以处理多个渐进式文本提示。该模型设法在适应新提示的同时保留视频的时间连贯性。它使用单级自回归模型而不是两级架构,并使用 C-ViViT(在 ViViT [之上构建)压缩动态标记])。压缩机制使其能够训练和预测非常长的视频序列。Phenaki 使用预先训练的语言模型 t5x用于文本嵌入。它屏蔽了一些标记,并学会了通过双向变换器预测屏蔽的视频标记。在推理过程中,它可以使用自回归变换器预测下一个标记。Phenaki 的局限性之一是训练的内存要求。MeBT提出了一种内存高效的双向变换器,通过提出一种高效的视频合成变换器克服了自回归方法的内存限制,该变换器可以在训练期间充分利用视频帧的长程依赖性,同时能够以线性时间复杂度实现快速生成。MeBT 采用基于固定数量潜在瓶颈标记的编码器-解码器架构,而固定规模的潜在标记赋予了其内存效率。

图 5.自回归方法的基本原理是,给定初始锚帧、先前帧和可选的渐进提示,生成新帧。

讨论的所有方法基于 transformers。网格扩散基于扩散。网格扩散首先使用压缩,并使用由关键帧创建的图像来表示视频,该图像涵盖了视频的主要动作或事件。它被称为“网格图像”,由 4 个代表视频关键帧的子帧组成。在训练阶段,他们屏蔽了这些帧,并学习根据先前的网格图像和非屏蔽图像生成屏蔽帧。该设计范例如图6所示。由于他们用图像生成取代了视频生成的挑战,他们可以自回归地创建长达 128 帧的高图像质量(低 FVD 分数,他们利用了预先训练的稳定扩散模型的迁移学习。并且只使用了 2 个 Nvidia A-100 进行训练。图6解释了这种架构。

图 6.网格扩散模型。它首先生成网格图像,然后通过学习预测先前图像和未屏蔽帧上的屏蔽子帧条件来学习空间自回归模型。

先前描述的方法在呈现复杂的组合提示方面存在局限性。组合提示描述的是具有动态交互的时空实体。例如,让我们以一个提示为例:一个男人带着一只黑狗在右侧行走,而一辆蓝色汽车从对面驶来。视频俄罗斯方块接受构图提示的挑战。VideoTetr​​is 通过操纵和组合空间和时间去噪网络的注意力图来解决此问题。它支持使用渐进式构图提示生成长视频,其中“渐进式”是指通过引入时空组合扩散来连续改变对象的位置、数量和属性,它操纵去噪网络中的交叉注意力值来合成遵循复杂或不断发展的指令的视频。

自回归长视频生成方法从 CogVideo 的单个提示、低分辨率视频发展而来。将单个场景动画化为 VideoTetris 等现代架构,后者可以使用多个提示对复杂的科学动态进行建模,并保持高图像质量。自回归方法可在帧之间提供平滑的运动过渡,但由于其顺序性,生成速度较慢。此外,它对复杂场景动态(如参与者、边界框和实体之间的空间关系)的控制较少。如3.2中所述,分而治之的方法试图通过生成并行帧来解决这个问题,并且通常在 LLM 的帮助下创建更适合处理复杂动态场景、参与者和空间关系的视频蓝图。表1列出了具有重要见解的关键论文。

3.2.分而治之范式

分而治之的基本主题是根据单个或多个提示生成关键帧或短片,然后在这些帧或短片之间进行插值。系统通常使用锚图像作为生成所有后续帧的参考帧。系统独立生成每个关键帧,从而实现并行处理。分而治之方法的一些挑战是保持语义一致性、插值帧之间的平滑运动转换以及帧质量。分而治之方法的一个关键主题是将规划和视频生成阶段分开,使其有别于自回归方法,如图8所示。分而治之范式可以分为三个子范式:大型语言模型作为导演、中间转换模型和基于代理的框架。一些里程碑式的论文及其时间表如图7所示

图 7.分而治之的时间线:我们使用了这些论文在 arXiv 或 https://openreview.net/ 等在线资源上发表的日期。论文目录如下:Align your Latents、Gen-L-Video、Free-Bloom、VideoDirectorGPT,基于LLM的视频传播模型, SEINE、FlowZero,Mora、Vlogger,Vlogger、DreamFactory和Kubrik。

3.2.1.大型语言模型作为指导者

大型语言模型作为指导范式首先识别定义核心叙事的关键帧,然后创建中间帧,将这些关键帧平滑地连接成一个连贯的扩展视频。这种方法区分了基本的故事情节关键帧和连续性所需的额外帧。它由两个主要组件组成:LLM 规划器(生成故事情节蓝图)和视频生成器主干(遵循 LLM 提供的蓝图生成视频,如图9所示)。最初,该模型开发一个脚本,详细说明每个帧和可选元数据,例如实体、布局和动作。然后,该模型可以使用来自早期帧的语义描述和实体来创建图像并在它们之间进行插值,以指导去噪过程。LLM 在这种方法中至关重要,因为它们根据文本提示生成详细的故事情节,指定场景、角色和动作。该范式适用于基于训练和无训练(零样本)的方法。Free-Bloom采用了零样本方法。它具有三阶段架构,从 LLM 开始生成一系列基于文本的提示,然后使用 LLM 的世界知识将原始提示分解为语义连贯的提示序列。它提出了联合噪声采样、步进感知注意和双路径插值等新技术,以确保生成的帧的时间连贯性。该模型通过将视频级别的统一噪声与帧级别的单独噪声相结合来实现联合噪声采样。通过使注意机制在生成过程中感知每个特定帧,该模型可以动态调整对输入数据不同方面的关注,包括文本提示和先前生成的帧。在对偶插值中,上下文路径在上下文帧之间插入潜在变量以确保时间连贯性。去噪路径通过 DDIM以插值文本嵌入为条件的去噪过程,以提高语义连贯性。Free Bloom 的局限性之一是其对 LLM 脚本生成能力的使用有限,因为 LLM 可以创建具有故事情节、场景描述和实体的丰富脚本。视频导演 GPT是在零样本设置下构建的,类似于 Free Bloom,但它提供了 GPT-4 作为视频规划师的更详细指导。它开发了一个包含多个组件的综合故事蓝图,包括布局、边界框以及演员和对象等实体。该计划使用基于 ModelScopeT2V 的 Layout2Vid 执行,一个基于视频生成模块,可确保多场景视频的布局和一致性控制。基于 LLM 的视频扩散模型与 VideoDirectorGPT 类似,使用 LLM 的详细指导,例如帧布局和轨迹信息。但是,它是一种基于训练的方法,而不是零样本方法。它可以从文本中理解复杂的时空动态,并生成与提示和现实世界中通常观察到的物体运动模式紧密一致的布局。

图 8.LLM 作为导演的方法使用 LLM 作为脚本的时空导演,并使用一个可以理解 LLM 生成的 DSL(元数据)的单独视频生成模块图 9.VideoDirectorGPT:GPT-4 生成视频生成的蓝图,包括场景和实体描述。独立模块 Layout2Vid 根据此视频计划生成视频

与 VideoDirectorGPT、FlowZero 一样采用了零样本(免训练)方法,但 LLM 比 Video Director GPT 发挥着更详细的作用。它生成详细的动态场景语法 (DSS),包括场景描述、对象排列和背景运动模式。DSS 组件指导图像扩散模型生成具有平滑对象运动和一致帧过渡的视频。使用动态场景布局的主题如图8所示。LLM 作为导演方法有局限性,因为它是一个两阶段架构,添加语音或集成短片将需要在管道中进行修改。我们可以通过合并更多专门的组件来扩展基于 LLM 的分而治之方法,例如用于生成参考图像的模型、用于视频创建的模块以及用于添加过渡片段和语音的即插即用模块。这是使用多智能体框架实现的,如第3.2.2节所述。

3.2.2.基于多阶段/代理的分而治之方法

图 10.Mora 采用多代理框架。提示选择代理通过详细说明来增强提示,文本转图像代理根据输入提示生成图像,图像转图像代理增强照片质量,文本转视频代理生成视频片段,视频转换代理将这些视频整合成更长的视频

基于代理的 LLM 框架是一个系统,其中多个模型充当专门的代理,每个模型都旨在执行不同的任务或在定义的环境中进行交互。在这个系统中,LLM 充当“大脑”,负责监督复杂的操作,而较简单的模型则充当工具,执行更具体的支持性任务。用于视频生成的多代理框架代表了一种多层文本到视频生成方法。它可以制作高质量的长视频,就像 Sora 生成的视频一样通过将视频创建挑战划分为多个系统,每个系统专门负责视频生成流程的某个方面,如图10所示。该框架通过灵活和迭代地协调这些代理,促进高效和动态的视频制作。像 Mora和 Vlogger说明了如何整合和协调多个专业代理可以增强和简化视频创作。在 Mora多个模型通过代理框架协作,完成脚本创作、图片生成、图片增强、视频制作、视频拼接等功能。VLogger是一个综合系统,旨在通过集成各种模块来制作连贯的 vlog。首先,LLM 总监将用户的故事转化为详细的脚本,概述场景和持续时间。接下来是演员模块,LLM 总监评估脚本以确定角色,并与 SD-XL 等角色设计师合作为演员生成合适的参考图像。它有一个节目制作模块,可充当摄像师;还有一个配音模块,可同步剧本和画外音,利用 Bark 等模型将字幕与视频对齐。此设置体现了用于高质量视频制作的模块化代理系统。DreamFactory模拟了一个由 AI 驱动的电影制作团队,其中基于 LLM 的代理承担导演、艺术总监、编剧和艺术家等角色。这些代理协作完成剧本写作、故事板、角色设计、关键帧创建和视频合成。DreamFactory 采用与 Mora 类似的方法。不过,它通过使用多个 LLM 模型作为不同的电影演员(如编剧和导演)来增强剧本创作部分,这些代理通过思想链 (COT) 模式进行迭代转换,最终确定剧本和行动计划。库布里克采用类似的协作方法生成脚本,让 LLM 代理参与对话,根据用户提示完成脚本。它将视频生成分为由导演、程序员和审阅者代理管理的阶段。利用迭代推理,Kubrick 利用 Blender 引擎来制作逼真的 3D 动画。分而治之方法的另一种应用方式是将长视频视为短视频的组合,首先生成这些短视频,然后将它们整合成长视频。这将在下一节中讨论。

3.2.3.分而治之的组合/过渡方法

该方法使用或生成短视频片段,使用任何标准视频生成技术,例如分而治之策略或自回归模型。然后,它通过使用过渡模型来整合这些片段,以在它们之间创建平滑的过渡。过渡视频的挑战在于确保连贯性和视觉质量,并平滑地从一组实体过渡到另一组实体。SEINE采用预测方法在任何公共文本转视频模型制作的短视频之间创建过渡。它使用一个片段的最后一帧和下一个片段的第一帧作为输入,应用随机掩蔽扩散模型来处理过渡。这种方法涉及在时间域中对重叠的短视频进行联合去噪。它首先使用标准扩散模型生成这些短视频,并根据给定的提示合并时间重叠。然后,该模型将这些片段拼接成一个更长的视频。该过程包括通过噪声反转将视频转换为降噪域,并使用 GenL 模型进行额外去噪。MEVG确保基于多个事件描述的独立生成的视频片段之间的时间连贯性。它首先使用公共单提示视频生成模型为每个事件描述创建一个视频。然后通过调节前一个片段的最后一帧和提供的文本来生成后续片段,保持连续性。MAVIN(多动作视频填充模型)旨在生成无缝连接两个给定视频的过渡视频,形成一个连贯的集成序列。它通过将训练视频分成三个片段,破坏中间片段,然后学习预测缺失片段的噪声来学习视频填充。ENCODER-EMPOWERED GAN使用基于编码器的 GAN 生成长视频,将生成的短视频片段连接成数百帧的长序列。它对连续视频片段之间的时间关系进行建模。该过程包括使用 EncGAN3 生成短视频片段,然后进行训练以通过回忆机制来加强这些片段之间的时间连接。

自回归方法通过根据前一帧生成每一帧来确保帧之间的平滑过渡,但是其顺序性使其在长视频生成中本质上很慢。分而治之3.2.1方法可以并行生成关键帧,但在保持语义一致性的同时,面临着在帧之间进行插值的挑战,需要平滑过渡和提高视频质量。隐式生成3.3方法结合了两者的优点,直接从以用户输入为条件的模型生成完整的视频,而无需在帧之间进行插值(分而治之)或外推(自回归)。表LABEL:table:divideandconquercatalog简要总结了一些探讨与分而治之方法相关的主题的关键论文 。

3.3.隐式视频生成

隐式视频生成涵盖一系列模型,这些模型使用紧凑的潜在空间表示、增强的注意力机制来整合长期依赖关系,或使用去噪策略来在生成的视频中包含短期和全局噪声来生成完整的视频。隐式视频生成与分而治之和自回归方法的区别在于,它同时生成所有帧,而不是顺序或并行生成。例如,Sora将原始视频压缩为潜在时空表示,提取补丁以在短时间内捕捉视觉外观和运动动态。 作为一个扩散变换器,Sora 由三个组件组成:(1)将原始视频映射到潜在空间的时空压缩器,(2)处理此潜在表示以生成去噪版本的视觉变换器 (ViT),以及 (3) 类似 CLIP 的调节机制,使用 LLM 增强指令和视觉提示来指导视频生成。 这在11中有所说明。FreeNoise提出了一种无需调整且省时的范例,可增强预训练视频传播模型的生成能力,同时保持语义一致性。GLOBER是一种视频自动编码器,包括一个视频编码器,用于将视频压缩为全局特征,以及一个基于扩散模型的视频解码器,用于以非自回归方式从这些特征重建视频帧。

尽管这些领域取得了进展,但运动一致性、语义对齐和并行处理仍然是实现可扩展、高质量长视频生成的主要障碍。这种限制的一个例子可以在 SORA 等最先进的视频生成模型中看到。例如,SORA 生成的视频最长只有一分钟,比娱乐或教育视频的典型时长要短得多。不切实际和不连贯的运动、间歇性物体出现和不切实际的现象等问题继续困扰着它的输出,正如表3列出了一些探讨隐性方法相关主题的关键论文 。

图 11.基于 Transformer 的扩散模型 Sora 将可变长度的压缩视频转换为固定时空的潜在压缩表示

除了生成策略之外,长视频的另一个主题是输入控制机制,例如用于视频指导的文本、边界框和图像。我们将在下一节中讨论这一点。

4.长视频:输入控制

输入条件涉及扩散模型、GAN 或自动编码器,它们使用来自用户文本提示、实体布局、边界框和图像的信号来条件化视频生成。虽然长视频生成使用与图像和视频生成模型相同的许多输入控制技术,但它还面临着保留长期依赖关系的额外挑战。视频生成模型利用创新策略,例如使用 LLM 从单个输入提示创建渐进式提示并增强生成机制,以创建框架之间的语义一致性。

长视频输入调节的流行机制是用户文本提示、带场景布局的用户文本提示以及带文本提示和场景布局的图像输入,接下来将讨论这些机制。

4.1.用户文本提示

用户文本提示是调节视频生成模型的最常见方式。视频生成可以利用单个或多个文本提示。Dall-E是首批基于 Transformer 的文本转图像生成模型之一。Dall-E 将 BPE 编码的文本标记与图像标记连接起来,并训练自回归转换器来对文本和图像标记的联合分布进行建模。CogVideo采用类似的方法,在联合分布上用文本和图像标记一起训练自回归变换器。CogVideo 对单个提示有条件限制。Phenaki通过整合 t5x 改进了这一范例预训练嵌入和条件视频生成,以故事方式呈现提示序列。在自回归阶段的推理过程中,模型根据前一帧和文本嵌入来条件化下一帧,这些嵌入可以保持不变,也可以基于新提示。Phenaki 的视频片段在从一个提示到另一个提示之间具有不连贯的运动和语义转换,因为这些连续的提示需要更多的语义连贯性。不同的方法尝试通过生成长视频和管理多个提示来应对这一挑战,同时确保时间一致性和与详细帧级描述的对齐,通常是在 LLM 的帮助下。Free-Bloom通过使用 LLM 生成语义连贯的提示来解决此问题,该提示结合了每帧的全局和局部噪声分布,并采用时空自注意力来整合当前和以前的特征。LLM 接地视频扩散采用多模式方法,在领域特定语言指导的步骤(详细描述实体、背景和场景布局)与视频扩散模型中的去噪步骤之间交替执行。VideoDrafter对图像和视频生成扩散模型中的交叉注意力图进行了修改,使得能够生成与输入提示和参考图像一致的图像和视频,突出了对交叉注意力机制所做的更改。DirecT2V利用类似 GPT4 的 LLM 来生成分步文本提示指令。

图 12.DirectT2V 调制自注意力机制,用于捕捉帧间交互

图12说明了 DirecT2V架构,该架构修改了 U-Net 的注意力模块并加入了经过调制的自注意力。纯文本提示可以指导长视频生成,但缺乏对长视频生成进行细粒度控制的语义。除了帧描述之外,添加诸如人物、汽车和背景等实体的边界框等元数据可以帮助生成更准确的视频描述,并有助于文本和视频之间的精细对齐。

4.2.带有场景布局的用户文本提示

多模态输入控制机制可以与文本、图像、边缘图、边界框、音乐等多模态配合使用。我们可以通过添加有关边界框、实体描述、轨迹和背景上下文的元数据来增强纯文本提示,如图8所示。Stable Diffusion 为多模态输入控制做了一些基础工作。它通过增强底层 UNet 主干,对基于交叉注意的基于扩散的一般调节机制进行调节,如图13所示。ControlNet提出了一种管理多模态控制扩散的突破性方法。它利用大型预训练模型作为学习各种条件控制的坚实基础,对现有的基于扩散的网络进行微调。在此架构中,预训练模型的可训练副本通过零卷积层链接到原始的固定模型,初始权重设置为零。这种设计允许可训练模型在训练过程中逐渐纳入新特征,同时防止将破坏性噪声引入大型扩散模型的深层特征中。它用于许多多模态视频生成策略。 在《VideodirectorGPT:通过 LLM 指导规划实现一致的多场景视频生成,2024 年》,作者训练了视频生成模块,Layout2Vid构建的ModelScopeT2V以及有关布局、实体和背景的附加元数据。他们将边界框、文本和图像嵌入与 MLP 合并。他们增强了 ModelScopeT2V,以使用来自布局、文本实体描述和图像的接地标记的附加条件输入来调节视觉潜在表示。LLM Grounded VDM添加了带有文本提示的元数据,称为动态场景布局 (DSL),但他们采用了无需训练的方法。FlowZero使用 LLM 从文本中理解复杂的时空动态。它生成包含场景描述、对象布局和背景运动模式的动态场景索引

图 13.具有输入条件的潜在扩散模型通过对潜在表示应用逆扩散过程来生成数据,从而调节额外输入信息(例如文本或图像)的生成以指导输出

动态场景布局增加了文本和视频之间的控制和细节对齐,但并未提供美学融合。如果由高质量的文本到图像扩散模型生成或作为参考提供,图像可以引导美学。我们将讨论几篇将图像作为指导机制的论文。

4.3.带有文本提示和场景布局的图像输入

图像为视频生成提供了高质量的美学背景。图像提示提供了空间信息以及不同粒度的细节,例如汽车的颜色、地毯的纹理以及实体的相对位置和大小,这些在 LLM 的场景描述功能中很难指定。我们可以生成或提供关键实体图像(例如演员图像)作为视频生成管道的条件。NUWA-Infinity可以处理文本或图像作为输入。在 VideoStudio 中,视频生成管道使用前景参考图像(如演员)或物体(如厨房),使用文本到图像的扩散模型。然后,我们将照片和文本提示输入到《Videostudio:生成一致内容和多场景的视频》,它使用场景参考图、事件提示中描述的动作以及脚本中的摄像机运动作为输入。微电影采用多阶段流水线,使用高质量文本到图像模型(如 SDXL)根据用户提示构建逼真的图像或 DALL-E。它首先从文本生成图像,然后获取文本提示和图像以生成视频。VideoBooth探索了从参考图像和用户文本生成视频。它使用 CLIP 将图像投影到文本空间视频绘图器采用两阶段控制管道的概念,其中文本编码器首先生成图像,然后使用参考图像和文本提示来创建视频。表LABEL:input-control-papers-table捕获具有输入控制机制的重要里程碑论文。

用户文本提示、场景布局的附加元数据、实体描述和参考图像为视频生成模型提供了丰富的背景信息,并实现了用户意图与生成视频之间的精细对齐。我们还需要带有标签或字幕的长视频数据集来训练长视频生成和输入控制机制,这将在下一节中讨论。

5.现有数据集

现有的长视频生成数据集可分为分类数据集5.1和字幕数据集5.2

5.1.分类数据集

分类数据集包含标有不同类别(例如动作、物体、场景或事件)的视频。UCF-101是较早流行的单类标签长视频分类数据集之一。它包括 101 个动作类,共有 2,500 个不同视频的 13,320 个剪辑,分为五类:人与物体交互、仅身体运动、人与人交互、演奏乐器和运动。UCF101 因规模和类别数量而受到限制。Kinetic 数据集由 DeepMind Google 开发,将视频数据集的规模提升至 306,245 个视频。DeepMind 发布了 Kinetics 数据集的四个版本:Kinetics-400、Kinetics-600、Kinetics-700 和 Kinetics-700-2020,数字代表类别数量。Kinetics-700-2020 是最新版本,于 2020 年发布。Kinetics 数据集包含 306,245 个不同的视频,与 UCF101 数据集的 2500 个视频相比有了很大的改进,并且每个视频只有一个类别。Youtube-8M通过将 800 万个 YouTube 视频(总时长超过 35 万小时)整理为多标签数据集(与单标签 UCF101 和 Kinetics 相比),进一步扩大了视频规模。与 UCF 和 Kinetics 数据集相比,800 万个 YouTube 数据集包含各种主题的视频,包括游戏、食品、娱乐、健康和金融。HowTo100M进一步将其扩展到 1.36 亿个视频片段,每个视频都有多个标签,这些片段来自 122 万个带旁白的教学网络视频,这些视频描绘了人类执行和描述超过 23,000 个不同的视觉任务。通过将视频字幕数据集中的类别标签转移到描述场景的句子,可以增强视频标记的粒度。视频字幕数据集将片段与句子配对,就像 MSR-VTT 中一样;研究人员从每个视频中抽取了四帧,并用人工标记的句子对其进行注释。视频数据集的这种演变代表了从单标签有限视频数据集到带有基于字幕的注释的大规模视频数据集的一般主题。

5.2.字幕数据集

MSR-VTT(MSRVideo to Text)是首批以自然语言视频描述为特征的数据集之一。它有 41.2 小时的视频和 200K 个片段-句子对,涵盖了早期视频研究中最全面的类别。MSR-VTT 如图14所示。WebVid-2M通过汇编 200 万个视频和通过自动图像字幕生成的字幕(类似于谷歌的概念字幕)扩大了数据集的规模实习视频采用了类似的方法,使用自动图像字幕,并通过创建 2.34 亿个视频剪辑的数据集以及总共 41 亿个单词的详细描述,进一步提高了视频的数量。视频生成的一个关键方面是使用空间和时间线索来创建场景和事件的更详细描述。由于字幕生成的算法性质,InternVid 和 WebVid-2M 缺乏具有空间和时间上下文的高质量字幕,而且在许多情况下,字幕通常很短(12-30 个单词)。最新的数据集,如 VideoInstruct-100K,解决了视频生成所需的字幕质量问题。VideoInstruct-100K 采用混合方法来提高字幕质量,并使用了人工辅助和半自动注释技术。人类工作者采用了 ActivityNet 的一个子集并通过有关空间和时间方面、对象关系、推理、场景描述和事件的时间顺序的详细信息对其进行了丰富,从而丰富了字幕。另一个最近专注于提高视频字幕质量的数据集是 MiraData。他们对视频帧进行采样,并使用 GPT4-V 创建“密集字幕”,其中使用结构化标签涵盖了主要主题、动作、风格、背景和摄像机。

图 14.以下是 MSR-VTT 数据集中的示例,展示了与带标签的句子配对的视频片段。每个示例包括代表视频片段的四帧和描述内容的五句人工生成的句子。

有了这些数据集,下一个挑战就是测量生成的视频的质量,这涉及评估各个方面,例如单个帧图像的质量、帧过渡的平滑度以及6.3中讨论的文本和生成的视频之间的对齐。表 LABEL:dataset_long_video列出了用于长视频生成的里程碑数据集。

长视频生成需要大量指标来衡量文本提示和视频之间的美学、动作和语义一致性。我们将在下一节中讨论这些指标。

6.绩效衡量

视频生成指标主要可分为四类,包括图像质量指标6.1、视频质量指标6.2、语义质量指标 6.3和复合指标6.4。

6.1.图像质量指标

图像质量指标对于评估生成模型生成的单个图像帧的质量至关重要。在各种指标中,初始分数 (IS)是用于评估图像生成模型的最广泛使用的方法之一。Inception Score 使用预先训练的 Inception 模型来衡量生成图像的质量和多样性。Inception Score 结合了两个关键因素:图像质量(由对象分类的清晰度和准确性定义)和图像多样性(指模型可以生成的图像类别的多样性)。高 IS 表示模型生成的图像多样化,可在各个类别中识别。但是,IS 存在很大的局限性。虽然它衡量了生成图像的分类准确性,但它并没有考虑它们的感知质量——人类观察者可能判断的清晰度、真实感或自然度。此外,由于 Inception 模型是在 ImageNet 上训练的,因此它很难推广到 ImageNet 以外领域的图像,例如医学图像、艺术品或其他专门的数据集。Fréchet 初始距离 (FID)的提出是为了克服 IS 的局限性。FID 通过将生成的图像的特征分布与自然图像的特征分布进行比较来直接测量生成的图像的质量。FID 度量已被广泛采用,因为它提供了对生成的图像质量的更全面评估,因为它不太依赖特定的类标签,并且更好地捕捉了生成的图像的感知和统计特性。虽然图像度量可以测量帧质量,但它们在测量帧之间的流和运动转换方面受到限制。视频度量试图解决这些问题。

6.2.视频质量指标

为了定性评估生成的视频,我们需要衡量生成样本的视觉质量和时间连贯性的指标。这项任务比评估图像质量更具挑战性,因为在视频中,必须同时分析空间和时间维度。除了 FID 等传统图像质量指标外,还需要更多指标来捕捉视频生成独有的动态和时间关系。为此目的而采用的一种指标是 Fréchet 视频距离 (FVD),它扩展了 FID 距离以处理视频数据。FVD 利用 3D 卷积网络从视频片段中提取特征,有效地捕捉视频内容所必需的时间依赖性。它允许 FVD 评估单个帧的质量以及生成的视频的时间关系(例如运动、过渡和场景连续性)的一致性。

然而,与 FID 一样,FVD 仍然需要耗费大量的计算资源,因为它涉及处理大量视频数据,需要大量的计算资源。尽管 FVD 和 FID 很实用,但它们主要侧重于测量准确数据和生成数据之间的分布相似性。它们不直接评估美学质量或技术缺陷,例如模糊、噪音或闪烁。这给我们带来了另一类旨在解决这些问题的重要指标。其中一个指标是 Dover,即解开客观视频质量评估器。Dover 旨在评估生成的视频的美学和技术质量,包括运动模糊、图像噪声、相机抖动和闪烁等问题。Dover 通过解开这些技术和美学组件,提供更细致入微的视频质量评估。

Dover 创建了 DIVIDE-3k 数据集,第一个用户生成内容视频质量评估 (UGC-VQA) 数据库。DIVIDE-3k 包含超过 450,000 条从美学和技术角度对视频的主观质量意见,帮助研究人员了解这些因素如何共同影响整体质量得分。图15显示了数据集中的一些样本。除了美学之外,运动质量是生成视频的另一个维度。RAFT(循环全对场变换)捕捉帧之间的运动模式和时间连贯性。RAFT 是一种估计光流的方法,它测量连续视频帧中物体的表观运动。通过计算光流,RAFT 可以描述物体的运动和变换,这对于评估生成的视频的时间对齐至关重要。

图 15.多佛分数。来自数据集的样本,其中人类标记了图像的美学和技术方面。多佛分数可以通过汇总或平均人类分配的美学和技术分数来计算。

虽然 FVD 和 Dover 等视频质量指标可以很好地评估生成视频的技术质量,但它们在衡量生成的视频与用户意图或提示中概述的语义内容的契合程度方面存在局限性。为了弥补这一差距,我们必须探索语义对齐指标和复合指标,它们将技术质量和对齐与用户定义的内容相结合。这些指标旨在评估生成的视频反映输入提示中表达的意图的程度。

6.3.语义对齐指标

语义质量指标旨在评估生成的视频与用户意图之间的一致性,具体而言是评估视频内容与输入的描述或提示的匹配程度。该领域用于图像到文本对齐的最广泛使用的工具之一是 CLIP(对比语言-图像预训练)。CLIP 使用对比学习将文本和图像联合嵌入到共享空间中,从而可以测量文本描述与其对应的视觉表示之间的语义相似性。通过计算标题和图像的嵌入之间的距离,CLIP 可以测量图像与描述的对应程度。用于评估图像-文本对齐的 CLIP 扩展是 CLIPScore。CLIPScore 利用预先训练的 CLIP 模型生成的嵌入来计算图像与给定文本提示之间的相似度。该指标之所以流行,是因为它无需参考,也不需要基本事实或人工标记的数据来计算其分数。它提供了一种有效的方法来评估图像生成模型的质量,基于生成的图像与提供的文本描述的匹配准确度。虽然 CLIP 和 CLIPScore 是衡量图像和文本语义对齐的有力工具,但它们主要关注可以轻松表示为嵌入的视觉和文本特征。这些指标通常受限于它们无法捕获图像中对象、动作或属性之间的复杂交互。为了解决这个问题,像 GRiT(生成区域到文本转换器)这样的新方法已被引入,通过超越简单的图像文本匹配来增强生成模型中的语义理解。GRiT 尤其以其专注于图像中高级对象理解的能力而闻名,这使它不仅可以解释简单的名词(例如“狗”,“汽车”),还可以解释包含对象属性或动作的更复杂和描述性的句子(例如“一只棕色的狗跑过田野”或“一辆汽车飞驰穿过城市”)。通过结合这种细粒度的描述,GRiT 可以提供对生成图像中对象和动作的更丰富的理解,使其更能够将生成的内容与用户的语义意图相匹配。

图 16.提示数据集旨在通过关注三个关键质量方面来评估模型:(1)空间质量(帧外观),(2)时间质量(帧连贯性)和(3)文本到视频对齐(内容-文本对应性)图 17.GRiT 根据场景中不同实体之间的关系进行定位,并与密集的标题进行匹配

如图17所示,GRiT 使用基于转换器的架构来学习图像不同区域与其对应的文本描述之间的关系。它允许模型将图像分解为不同的区域,并了解每个部分如何与特定的提示组件相对应。总之,虽然 CLIP 和 CLIPScore 提供了衡量图像和文本之间相似性的实用方法,但 GRiT 通过更深入地理解图像中的内容语义提供了重大进步。通过不仅考虑单个对象,还考虑它们的关系、属性和动作,GRiT 增强了在更复杂和更细致入微的层面上评估生成内容的能力。这些语义质量指标的进步对于提高生成的视频与用户意图的一致性以及确保视频在视觉上准确且在语义上有意义至关重要。

这些语义对齐指标在视频领域存在局限性,因为视频可能包含数百帧,并且必须将字幕边界与相应的帧相匹配。复合指标、许多单独算法的集合以及手动评分解决了这一限制。

图 18.FETV 是多方面的,将提示分为三个不同的方面:主要内容、可控属性和提示复杂性

6.4.综合指标

综合指标是不同单个指标的集合,使用动物、植物、物体、人等各种类别的一套文本提示,以及空间、时间、运动和对齐等其他方面。他们使用算法和手动标记工作来根据这些指标对文本转视频模型进行评分。FETV Bench是首批基于指标的提示组合之一。FETV 是一个多方面提示创建系统,它根据三个正交方面对提示进行分类:内容、属性和提示复杂性。上下文和控制进一步分为空间和时间,如图18所示。他们对四个模型进行了手动评估,并使用了 CLIPScore 等自动指标、BLIPScore和 OtterVQA.UGVQ(统一生成视频质量)通过一个全面统一的框架评估生成视频的空间、运动和语义保真度。它构建了一个大规模生成视频质量评估 LGVQ数据集来评估三个最关键的质量维度:空间质量、时间质量和文本到视频对齐。他们将文本提示划分为前景、背景和运动。这些类别进一步将这些方面划分为动物、人、物体和植物等交叉主题。他们选择了六个文本到视频模型,如图16所示。他们使用手动标记对这些模型的这些方面进行评分。

T2V-CompBench采用与 FETV Bench 类似的方法,根据提示构成的各个方面(包括属性、对象、空间关系、动作、运动绑定和数字准确性)评估视频的质量和语义保真度。该基准包括七个类别的 700 个提示的数据集。它使用手动人工反馈和自动化指标,例如 CLIPScore和 BLIP-VQA进行评估,但得出的结论是,这些自动指标与人工指标的相关性并不差。VBench也是一套用于评估视频质量的提示。它使用了人工反馈和 Dino、CLIP、RAFT等自动模型以提高视频质量。文本对齐使用 MUSIQ和 GRiT. MiraBench也采用了类似的方法。它有一个包含 150 个提示的提示数据集,检查六个视角,包括时间一致性、时间运动强度、3D 一致性、视觉质量、文本-视频对齐和分布一致性。这些复合基准的局限性在于它们需要人工来评估。研究面临的一个挑战是创建能够以算法方式评估这些指标的模型,即开发可靠的自动化长视频生成指标对于准确评估时间一致性、语义保真度和视觉质量仍然至关重要,并且是活跃的研究领域之一。表6总结了视频评估的重要指标。

7.结论和未来趋势

本综述为用户提供了长视频生成的历史、最新进展和持续挑战的广泛概述,重点关注视频生成策略、数据集、指标和开放研究领域。长视频生成是生成式人工智能的实际北方目标之一,旨在制作长时间内连贯逼真的视频。长视频生成需要解决的一些挑战是保持时间连贯性和视觉一致性,同时确保生成的视频符合叙述或特定用户意图。已经探索了几种应对这一挑战的策略,包括分而治之的自回归模型和内在方法。尽管这些领域取得了进展,但运动一致性、语义对齐和并行处理仍然是实现可扩展、高质量长视频生成的主要障碍。长视频生成的未来研究可以集中在增强的自回归模型、新颖的帧和视频片段合并技术以及增强的训练范式上。

长视频生成的一个重要开放研究领域是生成能够准确反映空间、时间和物理动态的长视频。一个关键挑战是需要具有全面空间、时间和物理背景(例如轨迹、阴影、交互)的大规模视频数据集。现有的大规模数据集(如 HD-VG-130M具有规模优势,但在字幕质量方面存在局限性(例如,字幕限制在 15-20 个字以内,并且缺乏丰富的空间和时间上下文信息)。另一方面,诸如 VideoInstruct-100K提供了丰富的空间和时间背景,但规模不足。开发兼顾规模和丰富背景的数据集对于推进长视频生成研究至关重要。除了数据集之外,测量生成的视频质量也是另一个挑战。目前最先进的指标,如 FETV、MiraBench和 VBench依靠人工反馈来评估视频质量,这既耗时又主观,而且难以扩展。未来的研究应侧重于开发完全自动化的指标,以更具可扩展性和客观性的方式评估生成的视频的质量。

长视频生成的另一个开放研究领域是音频的集成。目前,大多数商业视频生成模型(例如 SORA 和 Stability AI)都不生成音频。开发与视觉内容无缝衔接的音频生成方法对于创建沉浸式和全面的视频至关重要,因此这成为长视频生成领域的重要关注点。

长视频生成有望彻底改变多个领域,包括娱乐、教育、虚拟现实和游戏开发。然而,它也带来了重大挑战,例如可能出现伪造视频、偏见、暴力和道德问题。此外,幻觉等问题可能会限制生成视频的适用性,特别是在教育和科学等领域。总之,本综述为读者提供了长视频生成最新技术的深入概述,重点介绍了关键研究领域和未来探索的机会。

热门文章

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

版权所有@2023 ​深圳市人工智能产业协会、深圳市宝安区低空无人系统产业协会       技术支持:​深圳市网新新思软件有限公司       粤ICP备19099358号-2       粤公网安备44030502010453号

