AI 视频生成技术已经迅速发展:工具现在可以从脚本创建 talking-head 视频,从静止图像中创建动画,甚至可以从文本提示生成短的电影片段。但是,视频技术比图像生成技术复杂得多。本指南解释了 AI “创建”视频时实际发生了什么 —— 以及为什么有些结果仍然看起来很不自然。

从图像到运动:时间一致性挑战

视频是一系列图像(帧)快速连续显示的序列 —— 通常每秒 24 或 30 个。AI 视频的基本挑战不是生成单个帧(图像模型已经可以很好地做到这一点),而是使它们 时间一致:物体应该平滑移动,照明应该保持一致,人的脸不应该在帧之间微妙地改变形状。

早期的方法只是生成每个帧独立然后将它们拼接在一起。结果闪烁和形状不规则地变化。现代系统通过扩展扩散模型架构来解决这个问题,包括 时间注意力层 —— 神经网络组件,可以同时查看多个帧,确保每个帧与其邻居一致。

运动扩散:文本到视频的工作原理

文本到视频模型(如 Runway、Pika 和 Sora 中使用的模型)将图像扩散扩展到第三个维度:时间。与其从静态噪声中去噪单个图像,不如说模型同时去噪整个帧序列。噪声张量是三维的(宽度 x 高度 x 帧数),模型学习将其转换为一致的视频片段。

训练数据来自带有文本描述的大型视频数据集。模型不仅学习物体的外观,还学习它们的运动方式:水向下流,汽车沿着道路行驶,人们的嘴巴在说话时会移动。当前模型可以生成 3-10 秒的视频,质量尚可,尽管更长的视频仍然具有挑战性,因为一致性会随着时间的推移而降低。

头像合成和 talking-head 视频

AI 视频中最成熟的商业类别是 头像合成 —— 从脚本和参考照片或视频中生成一个人说话的视频。Synthesia 和 HeyGen 等工具使用这种方法来创建培训视频、营销内容和本地化内容。

流水线通常分为几个阶段:文本转语音模型生成音频,唇形同步模型 预测与音频匹配的嘴巴运动,渲染模型将动画脸部合成到头像身体上。高级系统还可以生成自然的头部运动、眼睛眨动和手势。

质量在很大程度上取决于参考数据。存储的头像(由演员预先录制)往往比从单张照片创建的自定义头像看起来更自然,因为模型有更多关于该特定人员如何移动和表达的训练数据。

语音克隆和唇形同步

为了使头像看起来令人信服,声音和唇形运动必须完全匹配。现代 唇形同步模型 分析音频波形并预测每个帧对应的嘴巴形状(viseme)。模型还处理连音 —— 自然语音中嘴巴形状融合在一起的方式。

语音克隆允许头像以克隆版本的某人的实际声音说话。这需要当前系统中仅 30-60 秒的参考音频。文本转语音模型生成与参考发音者语调、口音和语调相匹配的新语音。将其与唇形同步结合,创建了一个令人信服的视频,显示某人说出他们实际上从未说过的话 —— 这就是为什么深度伪造检测成为一个重要领域。

深度伪造检测和伦理考虑

启用有用应用(培训视频、本地化、无障碍)的相同技术也启用了滥用。 深度伪造检测 系统寻找明显的伪造特征:面部和身体之间的照明不一致、不自然的眨眼模式、音频-视觉同步错误和生成内容与真实内容之间不同的压缩伪影。

大多数商业 AI 视频工具在生成的内容中添加不可见的水印,并限制某些用途(您通常不能在未经同意的情况下创建模仿真人的视频)。在评估工具时,请检查其内容政策和水印实践。

关键术语

时间一致性: 在视频帧中保持视觉一致性的属性 —— 对象、照明和比例随时间保持稳定。

运动扩散: 将图像扩散模型扩展到生成视频,通过将三维噪声张量(宽度 x 高度 x 时间)去噪为一致的帧序列。

头像合成: 从文本脚本和该人的参考照片或视频中生成一个人说话的视频。

唇形同步: 生成与口语音频相匹配的嘴巴运动的过程,帧与帧之间将音素映射到视素。

视素: 语音声音的视觉等价物 —— 对应于特定语音声音的嘴巴形状。

深度伪造检测: 通过分析人类眼睛看不到的伪造特征来识别 AI 生成的视频内容的技术。

选择 AI 视频工具时需要考虑什么

合适的工具取决于您的用例。对于 talking-head 内容(培训、营销、销售),基于头像的工具提供了最好的质量与努力比率。对于创意和电影工作,文本到视频模型更灵活,但也更不可预测。关键因素:最大视频长度、存储头像数量、自定义头像质量、支持的语言、导出分辨率以及工具是否在免费计划中添加可见水印。本网站上的比较涵盖了每个工具的这些细节。