语音合成方法及装置与流程

2025-10-16 16:40:02 372次浏览

本申请涉及语音合成，特别是涉及一种语音合成方法及装置。

背景技术：

1、随着人工智能技术的迅猛发展，ai技术在多个领域得到了广泛的研究和应用，其中自然语言处理（nlp）和语音处理尤为重要。通过语音生成模型，能够将文本转换为合成语音，从而供用户播放。然而，当前的语音生成技术需要先将文本映射为语音特征，再通过这些特征生成语音。这个过程中需要对声码器进行训练，以确保准确的特征映射。然而，文本到语音的合成过程中，预测得到的语音特征往往与从真实语音中提取的特征存在差异，这种不匹配会降低合成语音的准确性。

2、针对语音合成不准确的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种语音合成方法及装置，至少解决语音合成不准确的问题。

2、根据本申请实施例的一个方面，提供了一种语音合成方法，包括：响应于语音合成请求，从所述语音合成请求中解析出文本数据及音频数据，并从所述文本数据中提取出文本特征，从所述音频数据中提取出目标对象的音频特征；利用多头注意力机制捕捉所述文本特征和所述音频特征之间的关联关系，得到关联关系矩阵；将所述关联关系矩阵分为第一关联矩阵和第二关联矩阵，对所述第一关联矩阵进行权重映射线性变换，对所述第二关联矩阵进行样条插值线性变换，并对所述权重映射线性变换的结果和所述样条插值线性变换的结果进行融合，得到融合特征；基于所述融合特征，生成模拟所述目标对象的合成语音，其中，所述合成语音的语音内容为所述文本数据中的文字内容。

3、根据本申请实施例的另一方面，还提供了一种语音合成装置，包括：提取模块，被配置为响应于语音合成请求，从所述语音合成请求中解析出文本数据及音频数据，并从所述文本数据中提取出文本特征，从所述音频数据中提取出目标对象的音频特征；注意力模块，被配置为利用多头注意力机制捕捉所述文本特征和所述音频特征之间的关联关系，得到关联关系矩阵；融合模块，被配置为将所述关联关系矩阵分为第一关联矩阵和第二关联矩阵，对所述第一关联矩阵进行权重映射线性变换，对所述第二关联矩阵进行样条插值线性变换，并对所述权重映射线性变换的结果和所述样条插值线性变换的结果进行融合，得到融合特征；合成模块，被配置为基于所述融合特征，生成模拟所述目标对象的合成语音，其中，所述合成语音的语音内容为所述文本数据中的文字内容。

4、根据本申请实施例的再一方面，还提供了一种电子设备，包括：处理器，以及存储程序的存储器，其特征在于，程序包括指令，指令在由处理器执行时使处理器执行以上任一实施例中的方法。

5、根据本申请实施例的再一方面，还提供了一种存储有计算机指令的非瞬时机器可读介质，计算机指令用于使计算机执行以上任一实施例中的方法。

6、在本申请实施例中，响应于语音合成请求，从所述语音合成请求中解析出文本数据及音频数据，并从所述文本数据中提取出文本特征，从所述音频数据中提取出目标对象的音频特征；利用多头注意力机制捕捉所述文本特征和所述音频特征之间的关联关系，得到关联关系矩阵；将所述关联关系矩阵分为第一关联矩阵和第二关联矩阵，对所述第一关联矩阵进行权重映射线性变换，对所述第二关联矩阵进行样条插值线性变换，并对所述权重映射线性变换的结果和所述样条插值线性变换的结果进行融合，得到融合特征；基于所述融合特征，生成模拟所述目标对象的合成语音，其中，所述合成语音的语音内容为所述文本数据中的文字内容。通过上述方案，解决了现有技术中语音合成不准确的问题。

7、本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

技术特征：

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述第一关联矩阵进行权重映射线性变换，对所述第二关联矩阵进行样条插值线性变换，包括：

3.根据权利要求2所述的方法，其特征在于，利用共享基函数和第一权重矩阵对所述第一关联矩阵进行所述权重映射线性变换，得到所述权重映射线性变换的结果，包括：

4.根据权利要求2所述的方法，其特征在于，利用样条插值函数和第二权重矩阵对所述第二关联矩阵进行所述样条插值线性变换，得到所述样条插值线性变换的结果，包括：

5.根据权利要求1所述的方法，其特征在于，利用多头注意力机制捕捉所述文本特征和所述音频特征之间的关联关系，包括：

6.根据权利要求1所述的方法，其特征在于，在利用多头注意力机制捕捉所述文本特征和所述音频特征之间的关联关系之前，所述方法还包括：分别对所述文本特征和所述音频特征进行特征编码处理，并对特征编码处理后的所述文本特征和所述音频特征进行特征融合。

7.一种语音合成装置，其特征在于，包括：

8.一种电子设备，包括：处理器，以及存储程序的存储器，其特征在于，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至6中任一项所述的方法。

9.一种存储有计算机指令的非瞬时机器可读介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至6中任一项所述的方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行

技术总结
本申请涉及一种语音合成方法及装置，其中，该方法包括：响应于语音合成请求，从语音合成请求中解析出文本数据及音频数据，并从文本数据中提取出文本特征，从音频数据中提取出目标对象的音频特征；利用多头注意力机制捕捉文本特征和音频特征之间的关系，得到关联关系矩阵；将关联关系矩阵分为第一关联矩阵和第二关联矩阵，对第一关联矩阵进行权重映射线性变换，对第二关联矩阵进行样条插值线性变换，并对权重映射线性变换的结果和样条插值线性变换的结果进行融合，得到融合特征；基于融合特征，生成模拟目标对象的合成语音，其中，合成语音的语音内容为文本数据中的文字内容。

技术研发人员：蒋正浩
受保护的技术使用者：世优（北京）科技股份有限公司
技术研发日：
技术公布日：2024/9/2

文档序号 : 【 39267226 】

技术研发人员：蒋正浩
技术所有人：世优（北京）科技股份有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

蒋正浩丨世优（北京）科技股份有限公司