现代人工智能声音听起来非常像人类。几年前,合成语音一听就能认出来——GPS导航或电话菜单的机器人单调语调。现在,像ElevenLabs或Murf这样的工具可以产生大多数听众无法将其与真人区分开来的音频。要了解为什么,需要快速了解一下技术的演变。

神经TTS之前:基于规则和统计系统

第一个文本转语音系统是在20世纪80年代开发的,是基于规则的:工程师手动编写了每个单词的发音规则。这产生了可以理解但听起来很机器人的语音,因为真正的人类声音并不机械地遵循规则——它们在音调、语速和强调方面会根据上下文有很大的变化。

在21世纪初,统计参数合成技术出现了。这些系统不是使用手工编码的规则,而是从录音语音数据集中学习发音模式。质量有所提高,但像最初的Siri或早期谷歌TTS这样的声音的特征性“波动”或“嗡嗡”音质仍然明显是人工合成的。

现代神经TTS的工作原理

当前的系统使用神经网络在大量录制的人类语音库上进行端到端训练。该流程包括两个阶段:

  • 声学模型。 接受文本(或其音韵表示)作为输入并生成声谱图——声音频率随时间的视觉表示。现代声学模型(如Tacotron、FastSpeech或基于Transformer的变体)可以以自然的方式模拟语调、语调和语速,因为它们直接从人类语音数据中学习。
  • 语音器。 将声谱图转换回可以播放的音频波形。WaveNet(DeepMind,2016)在这方面是一个突破——它产生的音频比以前的语音器更自然。现代语音器如HiFi-GAN可以在标准硬件上实时运行。

关键的见解是,该模型学习的是人类语音听起来是什么样的,而不是遵循明确的规则。这就是为什么现代系统能够更好地处理标点符号、情感和对话节奏——它们从示例中学习。

语音克隆

语音克隆是指能够从一个人的语音样本中复制出特定人的声音。现代系统如ElevenLabs可以从少至30-60秒的音频中克隆语音。

这是通过speaker embedding实现的:模型将参考音频编码为紧凑的数字表示,表示该声音的特征(音色、口音、说话风格),然后使用此嵌入来条件语音合成。结果是模型的合成语音被改编以匹配目标说话者。

这项技术具有重大的伦理影响——它可以被滥用来进行语音欺诈或深度伪造。知名平台包括安全保障:ElevenLabs需要专业语音克隆的同意验证。

评估TTS工具的关键术语

  • 语调。 语音的节奏、重音和语调。良好的语调是区分令人信服的人工智能声音和机器人声音的关键。
  • 音素。 语言中最小的音单位。TTS系统通常将文本转换为音素作为中间步骤。
  • 采样率。 通常为22,050 Hz或44,100 Hz。更高的速率意味着更高的音频保真度;如果需要工作室质量的输出,这一点很重要。
  • 延迟。 系统在接收文本后开始产生音频所需的时间。对于对话式人工智能或实时翻译等实时应用,这一点至关重要。
  • 字符与单词。 大多数TTS工具按字符数(包括空格和标点符号)计费,而不是按单词数。

选择TTS工具时需要注意的事项

  • 您语言的语音质量。 质量在不同语言之间有很大差异。一个工具的英语声音可能很好,但同一个工具的西班牙语声音可能很一般。始终用目标语言的样本进行测试。
  • 语音多样性。 更多的语音为您提供了更多的选项来匹配语气和内容——公司培训视频需要与YouTube视频文章不同的语音。
  • 自定义语音克隆。 如果您需要品牌一致性,请寻找允许您克隆特定语音(您自己的或已许可的语音)的工具。
  • API访问。 如果您正在构建应用程序,您需要具有合理延迟的REST API。ElevenLabs和Play.ht都具有良好的API文档。
  • 字符限制。 免费计划通常每月提供10,000-12,500个字符。3分钟的旁白大约需要1,500-2,000个字符,因此免费计划仅适用于非常轻量级的使用。

总结

现代人工智能声音是基于大型人类语音库的神经网络。技术已经成熟到质量不再取决于工具是否使用人工智能(它们都使用),而是取决于其训练数据的大小和质量、支持的语言以及语音克隆和API访问的功能。使用本网站上的比较来找到适合您特定用例的工具。