name_ch: AudioLM:一种音频生成的语言建模方法

name_en: AudioLM:a Language Modeling Approach to Audio Generation

date_publish: 2022-09-07

paper_addr: http://arxiv.org/abs/2209.03143

1 读后感

主要解决生成语音的两个问题:一致性和高质量

2 摘要

这是一个利用长期一致性生成高质量音频的框架,它先将音频输入转成一系列离散的 token,然后将生成音频作为表示空间的语言建模。提出了一种混合的分词方案来平衡重建质量长依赖的结构。

使用Mask 方法捕获长距离的关系,最终使用离散编码生成高品质的合成效果。它可以通过简短的提示,来生成自然连贯延续语音。利用大量无监督数据训练,在没有任何文字标注或注释的情况下,AudioLM 会生成句法和语义上合理的语音延续,同时还保持说话人身份和不可见的说话人的韵律。另外,还可以生成钢琴音乐。

3 介绍

在数据都是无监督的情况下,基于 Transformer 架构。具体使用的技术包括:对抗性神经音频压缩,自监督表示学习,语言建模。学习不同尺度的相互作用,保证语音的一致性。

贡献

  • 提出 AudioLM 框架,分层方式结合语义和声学标记,以实现生成长期一致性和高质量的音频。
  • 通过与 w2v-BERT 以及 SoundStream 的对比,证明了模型的可辨别性和重建质量优势的互补性。
  • 模型可以不依赖文本标注,生成语音,句法和语义。只需要 3s 语音作为提示,即可生成训练期间未见过的语音,并保持说话人的声音,韵律,录音条件(混响、噪音)。
  • 除合成人声外,还可以合成音乐声,其旋律、和声、音调和节奏都与提示一致。
  • 为防御生成语音带来的潜在风险,还提出了一个分类器,用于识别合成音频和真实音频。

4 模型

声学 token 由 SoundStream 处理,语义 token 由 w2v-BERT 的中间层产生。

4.1 组件

  • 将输入音频 x 映射到离散的词表 y:y=end(x)。
  • 使用仅有 decoder 的 Transformer 模型,操作 y,用时间 t-1 的预测 t 对应的词(预测阶段使用自回归)。
  • 解码模型,将预测出的 y映射回音频格式。x=dec(y^)

4.2 权衡离散音频表示

使用尽量少的数据同时需要保证生成的音质,这涉及比特率的下限和序列长度。这里引入了语义 token 和声学 token。如图 -1 所示。它们的产生被解耦;语义 token 需要时序依赖,声学 token 需要保证高音质,且使用语义作为条件。

使用 SoundStream 计算声学 token,它使用了 RQV(残差向量量化)技术将嵌入降维和离散化,并映射到码表。

使用 w2v-BERT 计算语义标记。该模型可以自主学习音频表示,将输入的音频波形映射到一个富有语言特征的向量空间。通过使用两个自监督目标:掩码语言建模(MLM)损失和对比损失训练模型实现。选择 w2v-BERT 模型的 MLM 模块中的一个中间层并计算该层的嵌入,可以提取出语义标记。将这些标记进行聚类,并使用聚类中心索引作为语义标记

实验证明,将二项解耦效果更好。

4.3 语义和声学标记的分层建模

先使用模型产生语义,然后再语义条件下生成高质量音频,有两个好处:

  • 语义结果独立于音频结果
  • 减少了每个阶段的标记序列,训练和推理效率更高。

具体实现如图 -2 所示,包含三个场景:

  • 长期结构一致性的语义建模:利用上文,使用自回归方法预测语义 z。
  • 以语义标记为条件的粗略声学建模:利用上文和语义,预测粗糙声的声学标记 y。
  • 精细声学建模:用粗糙声学标记 y 以及上文生成精细声学信息,生成高质量标记。

SoundStream 嵌入的采样率是 w2v-BERT 嵌入的两倍。另外拆分两的场景的原因是可以限制序列长度。

4.4 预测

训练后,可以使用 AudioLM 生成音频,测试了以下三种情况:

4.4.1 无条件生成

无条件地对所有语义标记 ^z 进行采样,然后将其用作声学建模的条件。此实验证明了:模型可生成多种多样、句法和语义一致的语言内容,验证了语义与声学的无关性。

4.4.2 声学生成

使用从测试集 x 中提取的真实语义标记 z 作为条件来生成声学标记。生成的音频序列在说话人身份方面有所不同,但语义内容与 x 的真实内容匹配。这表明语义标记捕获了语义内容。

4.4.3 生成语音延续

从短提示 x 生成延续。首先将提示映射到相应的语义标记 z 和粗糙的声学标记 y。第一阶段生成语义标记的延续;第二阶段,将生成的语义与提示粗声学标记 y 连接起来,并将其作为条件提供给粗声学模型;在第三阶段,用精细的声学模型处理粗略的声学标记;最后,将提示和采样的声学标记都提供给 SoundStream 解码器以重建波形 x^。