人工合成声音原理

2024-08-05 05:52:07
二建小科普
二建小科普认证

二建小科普为您分享以下优质知识

1、单元挑选波形拼接技术

语音合成技术的本质是将文本信息转化成语音信息,在了解这项技术之前,我们先来看一个案例,现在有一句待合成文本:外交部评日本首相国会演说。

如果我们要将这句文本信息变成语音信息,首先需要在语音合成数据库里面挑选出这句文本信息所包含的元素,比如:外交部、日本等。

挑选完元素之后将这些元素按照一定的顺序组合排列,最后再输出我们想要合成的那句语音信息。

以上这些就是一个简单的单元挑选波形拼接技术实现过程。

单元挑选和波形拼接的关键技术点有2点:语料库设计和标注;目标代价和连接代价计算

2、基于HMM的参数语音合成

基于HMM的参数语音合成技术相比于单元挑选波形拼接技术,在操作层面上会更加流程化。

我们来看下基于HMM的训练流程图,主要包括训练流程和合成流程。

将录制好的音库,提取出相应的语音参数,然后将标注数据和声学提取数据一同构建HMM的训练模型,通过上下文属性和问题集的决策树模型,构建训练后的HMM模型,这就是训练流程。

合成流程中我们通过对输入文本的分析,来进行上下文相关HMM训练的序列决策,再将生成后的语音送入参数合成器中,最后输出合成之后的语音。

基于HMM的参数语音合成的关键技术有高质量语音声码器,以及基于上下文的决策树模型。

3、基于深度学习的语音合成

相对于传统的HMM模型,深度学习算法模型能力更强,数据利用率更高,效果优势更为明显。Deepmind提出波形点建模方法,在整个语音合成技术发展史上都是具有里程碑意义的。