基于可控文本的语音合成方法、装置和系统


专利名称

基于可控文本的语音合成方法、装置和系统

所属单位

智能科学与技术学院

通讯地址

北京市西城区展览路1号

联系人

科学技术发展研究院

电话

010-68322482

专利发明人

周若华

专利号

CN202410250738.7

专利类型

发明授权

专利状态

授权且有效

专利简介

本发明提供基于可控文本的语音合成方法、装置和系统,包括:获取待合成的语音内容,基于外部说话者嵌入模块形成第一音素序列;识别输入文本的语义信息,分别获取解耦的语音风格、情感类型和语言类型;基于转换器转换第一音素序列的语言类型,生成第二音素序列;提取所述第二音素序列的风格特征和时间分布特征;基于所述情感类型调整所述第二音素序列的时间分布特征;基于所述语音风格调整所述第二音素序列的风格特征;基于调整前的时间对应关系融合调整后的时间分布特征和调整后的语音风格特征,得到第三音素序列;基于解码器解码第三音素序列,获得合成语音。提高合成语音的质量,提高了风格可控性和方法适用性。
Baidu
map