人工合成声音原理-建筑工程-简单网

2024-08-05 05:52:07

二建小科普为您分享以下优质知识

1、单元挑选波形拼接技术

语音合成技术的本质是将文本信息转化成语音信息，在了解这项技术之前，我们先来看一个案例，现在有一句待合成文本：外交部评日本首相国会演说。

如果我们要将这句文本信息变成语音信息，首先需要在语音合成数据库里面挑选出这句文本信息所包含的元素，比如：外交部、日本等。

挑选完元素之后将这些元素按照一定的顺序组合排列，最后再输出我们想要合成的那句语音信息。

以上这些就是一个简单的单元挑选波形拼接技术实现过程。

单元挑选和波形拼接的关键技术点有2点：语料库设计和标注；目标代价和连接代价计算

2、基于HMM的参数语音合成

基于HMM的参数语音合成技术相比于单元挑选波形拼接技术，在操作层面上会更加流程化。

我们来看下基于HMM的训练流程图，主要包括训练流程和合成流程。

将录制好的音库，提取出相应的语音参数，然后将标注数据和声学提取数据一同构建HMM的训练模型，通过上下文属性和问题集的决策树模型，构建训练后的HMM模型，这就是训练流程。

合成流程中我们通过对输入文本的分析，来进行上下文相关HMM训练的序列决策，再将生成后的语音送入参数合成器中，最后输出合成之后的语音。

基于HMM的参数语音合成的关键技术有高质量语音声码器，以及基于上下文的决策树模型。

3、基于深度学习的语音合成

相对于传统的HMM模型，深度学习算法模型能力更强，数据利用率更高，效果优势更为明显。Deepmind提出波形点建模方法，在整个语音合成技术发展史上都是具有里程碑意义的。