首页  专利技术  其他产品的制造及其应用技术

一种声气信号分离与合成的方法及系统的制作方法

2025-07-29 15:21:23 279次浏览
声语音信号的基频;
C、在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置; D、从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图;
E、分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理;
F、将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号。
[0020]其中,谷值的位置可取两峰之间的平分点位置(中间位置)或其它两峰之间的位置。
[0021 ]步骤E执行的处理包括但不限于修改。
[0022]进一步作为优选的实施方式,所述步骤A,其具体为:
采用至少0.02322*a点的重叠加窗快速傅里叶变换对采样的人声语音信号进行处理,得到原始的频谱图,其中,a为设定的采样频率。
[0023]进一步作为优选的实施方式,所述步骤B,其具体为:
通过分片段重叠加窗测定时域信号周期序列的方法,准确测定出人声语音信号的信号流在不同时间点的基频,其中,片段的长度在快速傅里叶变换窗口长度的I到4倍的范围内,重叠加窗的间距小于等于快速傅里叶变换的窗间距。
[0024]进一步作为优选的实施方式,所述步骤D,其包括:
将峰值的位置信息从原始的频谱图中提取出来,进而得到声音信息频谱图;
将峰谷的位置的信息从原始的频谱图中提取出来,进而得到声音信息频谱图。
[0025]进一步作为优选的实施方式,所述将峰值的位置信息提取出来,得到声音信息频谱图这一步骤,其包括:
D11、计算快速傅里叶变换结果中的理论峰值位置P,所述理论峰值位置P的计算公式为:p=2nz/a*m,其中,2n为快速傅里叶变换的点数,η和m均为正整数,z为快速傅里叶变换窗口对应位置所测定的基频,0〈p〈2n—1;
D12、判断理论峰值位置P是否为整数,若是,则以理论峰值位置P对应的信息作为提取出的声音信息;反之,则采用四舍五入法或线性插值法进行处理,得到提取出的声音信息。
[0026]进一步作为优选的实施方式,所述步骤D12中采用四舍五入法或线性插值法进行处理,得到提取出的声音信息这一步骤,其具体为:
若采用四舍五入法,则对理论峰值位置P进行四舍五入,然后以P四舍五入后的结果对应的信息作为提取出的声音信息;
若采用线性插值法,则提取出的声音信息X的计算公式为:x=(l-(p-q))*fq+(p-q)*fp,其中,q为P向下取整的结果,fjPfP分别为快速傅里叶变换结果中位置q和位置P对应的分量。
[0027]进一步作为优选的实施方式,所述将峰谷的位置的信息从原始的频谱图中提取出来,进而得到声音信息频谱图这一步骤,其包括:
D21、计算快速傅里叶变换结果中的理论谷值位置S,所述理论谷值位置s的计算公式为:s=2nz/a* (m-0.5),其中,2n为快速傅里叶变换的点数,η和m均为正整数,z为快速傅里叶变换窗口对应位置所测定的基频,0<s<2n-1;
D22、判断理论谷值位置s是否为整数,若是,则以理论谷值位置s对应的信息作为提取出的气音信息;反之,则采用四舍五入法或线性插值法进行处理,得到提取出的气音信息。
[0028]进一步作为优选的实施方式,所述步骤D22中采用四舍五入法或线性插值法进行处理,得到提取出的气音信息这一步骤,其具体为:
若采用四舍五入法,则对理论谷值位置S进行四舍五入,然后以S四舍五入后的结果对应的信息作为提取出的气音信息;
若采用线性插值法’则提取出的气音信息沾勺计算公式为:!^=!^-^-!.))*;^+^-!.)*;^,其中,r为S向下取整的结果,fdPfr分别为快速傅里叶变换结果中位置S和位置r对应的分量。
[0029]进一步作为优选的实施方式,所述步骤D在将峰值的位置信息和谷值的位置信息提取出来得到两张频谱图后,还需对这两张频谱图分别执行插值处理才能得到完整的声音信息频谱图和气音信息频谱图。
[0030]其中,从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来后即可得到两张频谱图,但这两张频谱图可能会存在沟壑,所以还需要先通过插值处理填平这两张频谱图的沟壑才能得到完整的声音信息频谱图和气音信息频谱图。
[0031]参照图2,一种声气信号分离与合成的系统,包括:
转换模块,用于将采样的人声语音信号由时域转换到频域,得到原始的频谱图;
测定模块,用于根据原始的频谱图测定人声语音信号的基频;
标记模块,用于在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置;
提取模块,用于从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图;
单独处理模块,用于分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理;
合成模块,用于将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号;
所述转换模块的输出端依次通过测定模块、标记模块、提取模块和单独处理模块进而与合成模块的输入端连接。
[0032]下面结合说明书附图和具体实施例对本发明作进一步详细说明。
[0033]实施例一
本发明在现有技术基础上进一步将语音信号中声带与口腔共鸣发出的声音信号与唇齿发出的气音信号进行分离,从而能够对声音信号和气音信号单独做出修改等后续处理,并在修改等处理完成之后,可以再合成语音信号。参照图3,本发明可以将声带与口腔共鸣发出的声音信息与唇齿发出的气音信息进行提取分离,经处理后再进行合成声气信号,具体的实现步骤如下:
(一)将人声语音信号转换到频域,获取频谱图。
[0034]实际使用时,对获取的人声语音信号样本,常常通过快速傅里叶变换(即FFT变换)将时域信号转换到频域,以得到原始人声的频谱图。
[0035]设人声语音信号样本的采样率为a赫兹,为保持最基本的语音频域范围,a应不低于8000赫兹;对于采样率为a赫兹的人声语音信号,适宜使用0.02322*a点或0.02322*a点以上的重叠加窗FFT变换进行转换,FFT的点数应该向上取整为2的η次方,其中η为正整数;窗间距小于等于FFT长度的一半。
[0036](二)通过分片段重叠加窗测定时域信号周期序列的方法,准确测定出人声语音信号的信号流在不同时间点的基频,其中,片段的长度适宜在FFT窗口的I到4倍之间,重叠加窗的间距应小于等于FFT的窗间距。
[0037](三)在频谱图上将与基频整数倍关系的位置标记为峰值的位置,两峰之间则为波谷值位置。
[0038]根据先验知识,声带与口腔共鸣发出的声音信号对应频谱图上的峰值位置,唇齿发出的气音信号对应频谱图上的峰谷位置。峰值位置和峰谷位置确认后即可得到相应的声音信息频谱图和气音信息频谱图。
[0039](四)提取声音信息频谱图和气音信息频谱图。
[0040]提取声音信息频谱图和气音信息频谱图这一过程可进一步细分为:
(I)将峰值位置的信息提取出来,得到相应的声音信息频谱图。
[0041 ]具体来说,设FFT窗对应位置的基频被测定为z赫兹,FFT的点数为2n ^lJFFT结果中的多个位置p=2nz/a*m均为峰值所在的位置,其中,!11>0,1]1为整数,00〈211—1,记;^,€2,€3丨为FFT结果的各个分量。由上述公式计算出的位置P不一定为整数,而FFT结果中的分量位置为整数,故还应采取一定方法进行取数,以得到所需的声音信息,本发明所采用的方法有以下两种:
方法1:使用四舍五入法取整下标,则取得的数值(即提取出的声音信息)为x=f[P],其中[P ]表示对P进行四舍五入。
[0042]方法2:如图3所示,使用线性插值取数方式,记q为P向下取整的结果;则取得的数值(即提取出的声音信息)为x=(l-(p-q))*fq+(p-q)*fp。
[0043]以上两种方法中,方法I的效率较高,而方法2则能获得
文档序号 : 【 9912692 】

技术研发人员:滕少华,霍颖翔,张巍
技术所有人:广东工业大学

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
滕少华霍颖翔张巍广东工业大学
一种标签纸与聚酯瓶片的分离系统的制作方法 建筑垃圾轻物质分离系统的制作方法
相关内容