首页  专利技术  其他产品的制造及其应用技术

语音合成方法、装置、电子设备及存储介质与流程

2025-10-19 11:20:07 57次浏览
语音合成方法、装置、电子设备及存储介质与流程

本申请涉及语音,特别是涉及一种语音合成方法、装置、电子设备及存储介质。


背景技术:

1、语音合成又称文语转换(text to speech,tts)技术,是语音处理领域的一个重要研究方向,旨在让机器生成自然动听的人类语音。

2、语音合成基于语音合成模型,而语音合成模型的训练依赖于训练语料。目前,不同语种的语音合成模型需要采用与语种对应的训练语料各自进行模型的训练,即在模型训练中,每个语种的的语音合成模型都需要对应语种的训练语料,但是,一些语种的训练语料较为稀少,购买或录制并标注语料的成本较高。


技术实现思路

1、本申请第一方面提供了一种语音合成方法,该方法包括:获取文本数据;利用第一发音词典将文本数据转换为对应的待转换音标序列,其中,第一发音词典中至少包括第一语种的字词到音标元素之间的映射;利用预设模型对待转换音标序列进行语音合成,得到文本数据对应的语音数据;其中,预设模型是基于第二语种的训练音频和训练音频的标注音标序列训练得到,待转换音标序列与标注音标序列所使用的注音规则一致。

2、本申请第二方面提供了一种语音合成装置,包括:获取模块,用于获取文本数据;转换模块,用于利用第一发音词典将文本数据转换为对应的待转换音标序列,其中,第一发音词典中至少包括第一语种的字词到音标元素之间的映射;合成模块,用于利用预设模型对待转换音标序列进行语音合成,得到文本数据对应的语音数据;其中,预设模型是基于第二语种的训练音频和训练音频的标注音标序列训练得到,待转换音标序列与标注音标序列所使用的注音规则一致。

3、本申请第三方面提供了一种电子设备,该电子设备包括相互耦接的存储器和处理器,存储器用于存储程序数据,处理器用于执行程序数据以实现前述的方法。

4、本申请第四方面提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序数据,程序数据在被处理器执行时,用以实现前述的方法。

5、本申请的有益效果是:区别于现有技术的情况,本申请通过获取文本数据;利用第一发音词典将文本数据转换为对应的待转换音标序列,其中,第一发音词典中至少包括第一语种的字词到音标元素之间的映射,然后利用预设模型对待转换音标序列进行语音合成,得到文本数据对应的语音数据;其中,预设模型是基于第二语种的训练音频和训练音频的标注音标序列训练得到,待转换音标序列与标注音标序列所使用的注音规则一致,由此通过利用第二语种的训练音频和训练音频的标注音标序列训练预设模型,然后在应用时利用第一发音词典将文本数据转换为第一语种对应的待转换音标序列,进一步地,由于待转换音标序列与标注音标序列所使用的注音规则一致,由此利用第二语种的标注音标序列训练得到预设模型也能够基于待转换音标序列合成语音数据,从而实现第一语种的语音合成,上述方案无需采用第一语种的训练语料训练模型,能够在已经训练好的模型上进行语音合成,摆脱同语种模型对同语种训练语料的依赖,降低成本。



技术特征:

1.一种语音合成方法,其特征在于,包括:

2.根据权利要求1中所述的方法,其特征在于,所述预设模型采用如下方法训练得到:

3.根据权利要求1中所述的方法,其特征在于,

4.根据权利要求1中所述的方法,其特征在于,

5.根据权利要求1中所述的方法,其特征在于,所述利用第一发音词典将所述文本数据转换为对应的待转换音标序列,包括:

6.根据权利要求5中所述的方法,其特征在于,

7.根据权利要求1中所述的方法,其特征在于,

8.一种语音合成装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括相互耦接的存储器和处理器,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序数据,所述程序数据在被处理器执行时,用以实现如权利要求1-7任一项所述的方法。


技术总结
本申请公开了一种语音合成方法、装置、电子设备及存储介质,其中,该方法包括:获取文本数据;利用第一发音词典将文本数据转换为对应的待转换音标序列,其中,第一发音词典中至少包括第一语种的字词到音标元素之间的映射;利用预设模型对待转换音标序列进行语音合成,得到文本数据对应的语音数据;其中,预设模型是基于第二语种的训练音频和训练音频的标注音标序列训练得到,待转换音标序列与标注音标序列所使用的注音规则一致。通过上述方式,本申请能够在语音合成领域,摆脱同语种模型对同语种训练语料的依赖,降低成本。

技术研发人员:周勇
受保护的技术使用者:OPPO广东移动通信有限公司
技术研发日:
技术公布日:2024/9/2
文档序号 : 【 39270564 】

技术研发人员:周勇
技术所有人:OPPO广东移动通信有限公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
周勇OPPO广东移动通信有限公司
一种基于PID控制的电声耦合消声装置及方法 一种语音对话场景下的地址识别系统的制作方法
相关内容