基于视听交互的虚拟声重放校正装置及方法

2025-10-21 12:00:02 333次浏览

基于视听交互的虚拟声重放校正装置及方法
【专利摘要】本发明公开了一种基于视听交互的虚拟声重放校正装置，包括：上位机控制模块，用于合成不同空间方位虚拟声信号、控制虚拟声信号按一定顺序和次数向声音信号播放模块及视觉信号播放模块的发送，以及分析比较倾听者的反馈信息以判断校正是否符合预期；听觉信号播放模块，用于根据上位机控制模块的控制信号播放合成的相应空间方位的虚拟声的音频信号；视觉信号播放模块，用于根据上位机控制模块的控制信号可视化显示虚拟声的方位信息；反馈模块。本发明还公开一种基于视听交互的虚拟声重放校正方法。本发明可校正虚拟声重放中非个性化信号处理所导致的定位精度下降、前后混乱率高等缺陷，实现方式简单、成本低廉，有利于广泛推广应用。
【专利说明】基于视听交互的虚拟声重放校正装置及方法

【技术领域】
[0001]本发明涉及虚拟声重放技术，具体涉及一种基于视听交互的虚拟声重放校正装置及方法。

【背景技术】
[0002]人类通过双耳感知外部的声环境。空间声源发出的声波，经过倾听者头部、肩部、耳廓等生理结构的散射、反射等物理过程后，传输到双耳。这个过程可以视为一个线性时不变的声滤波系统，通常采用头相关传输函数HRTF (Head-Related Transfer Funct1n)描述该系统的特性。在虚拟声重放技术中，将单通路声源信号(即没有任何空间信息的声源信号)和一对HRTF (左、右耳各一)进行时间域卷积(或频率域滤波)，就可以人为地合成双耳声信号；采用耳机重放合成声信号，就可以使倾听者产生声源位于特定空间方位的主观效果。HRTF是空间方位的函数；采用不同空间方位的HRTF数据，通过虚拟声技术，就可以使倾听者形成声源位于不同空间方位的主观效果。
[0003]由于HRTF描述了生理结构(例如头部、肩部、耳廓)对声波的作用，所以它和生理结构密切相关。由于不同个体具有不同的生理结构特征(例如头部尺寸、耳廓细微结构)，所以HRTF因人而异，具有个性化特征。研究表明，高质量的虚拟声重放系统需要采用倾听者自身的HRTF (即个性化HRTF)数据进行双耳声信号合成。然而，测量个性化HRTF需要特定的场所和专业的设备，且比较耗时。因此，在实际应用中，无法获取所有潜在倾听者的个性化HRTF数据，通常采用非个性化的通用HRTF数据。通用HRTF数据或取自假人(例如KEMAR，Knowles Electronics Manikin for Acoustic Research),或取自某个既定的真人数据。由于通用HRTF无法反映实际倾听者HRTF的个性化特征，因此虚拟声重放时往往产生声源空间定位准确性下降、前/后方声像混淆率增加等缺陷。

【发明内容】

[0004]本发明针对现有虚拟声重放技术中存在的缺陷，提供了一种基于视听交互的虚拟声重放的校正装置及方法，通过视听交互的训练和学习，校正畸变的听觉信息。
[0005]为实现上述目的，本发明采用如下技术方案:
基于视听交互的虚拟声重放校正装置，包括:
上位机控制模块，用于合成不同空间方位虚拟声信号、控制虚拟声信号按一定顺序和次数向声音信号播放模块及视觉信号播放模块的发送，以及分析比较倾听者的反馈信息以判断校正是否符合预期；
听觉信号播放模块，用于根据上位机控制模块的控制信号播放合成的相应空间方位的虚拟声的音频信号；
视觉信号播放模块，用于根据上位机控制模块的控制信号可视化显示虚拟声的方位信息；
反馈模块，用于将倾听者对虚拟声空间方位的判断结果反馈至上位机控制模块进行存贮。
[0006]进一步地，所述上位机控制模块包括:
虚拟声合成模块，用于通过头相关传输函数HRTF和单通路声源信号的时间域卷积合成不同空间方位的双耳虚拟声信号；
输出控制模块，用于控制虚拟声的音频信号和方位可视化信号的播放顺序、播放次数；
评估分析模块，用于将倾听者对虚拟声空间方位的判断进行统计分析，并与虚拟声空间方位理论值进行比较，评估校正效果，形成评估报告。
[0007]进一步地，所述听觉信号播放模块包括耳机和具有USB接口的外置声卡，所述外置声卡接收上位机控制模块发来的合成虚拟声信号和控制信号，进行D/A转换后，通过耳机按预定播放次数播放给倾听者。
[0008]进一步地，所述视觉信号播放模块包括具有串行通信接口 UART和通用接口 GP1单片机及若干表示虚拟声方位的LED灯，所述单片机通过串行通信接口 UART接收上位机控制模块发来的包含虚拟声方位信息的指令，解码后通过通用接口 GP1控制相应空间方位的LED灯。
[0009]进一步地，所述单片机型号为AT89S52C。
[0010]采用所述的装置进行虚拟声重放校正方法，包括步骤:
步骤1.选取训练空间方位的HRTF，将其和选定的单通路声源信号进行卷积，得到合成的13个空间方位的虚拟声信号，所述13个空间方位取水平面Θ = O。?180°之间均匀间隔15°的13个空间方位，单通路声源信号选取200毫秒长的白噪声；
步骤2.设定训练流程，由上位机控制模块设定耳机播放虚拟声信号和LED灯开闭的顺序以及虚拟声重复播放的次数；
步骤3.耳机按设定次数重复播放合成的某一空间方位的虚拟声信号，同时，表示该虚拟声信号相应空间方位的LED灯在单片机的控制下保持点亮，倾听者反复接受视、听信号的刺激，进行视听交互训练，实现对倾听者的训练，校准因采用通用HRTF数据而导致的空间定位误差；
步骤4.关闭LED灯，播放虚拟声信号，将倾听者对虚拟声信号空间方位的判断结果反馈至上位机控制模块，上位机控制模块分析比较倾听者感知的虚拟声方位角与理论的虚拟声方位角；若相差在误差范围内，则执行步骤5，否则返回步骤3 ;
步骤5.根据待测虚拟声应用场景选取定位所需空间方位的HRTF，将其和选定的单通路声源信号进行卷积，得到合成的37个空间方位的双耳虚拟声信号，所述37个空间方位选取水平面Θ = O。?180°之间均匀间隔5°的37个空间方位，包括上述13个训练方位；步骤6.关闭所有LED灯，耳机随机播放合成的各个空间方位的虚拟声信号，倾听者进行虚拟声空间方位的判断，即指出其感知的声像方位角β ’经反馈模块输送至上位机控制模块进行存贮。
[0011]步骤7.上位机控制模块分析比较倾听者感知的虚拟声方位值O ’与理论的虚拟声方位角β ;若误差在待测虚拟声应用场景的定位准确性要求范围内，则结束校正，否则返回步骤3。
[0012]进一步地，步骤2中所述由上位机控制模块设定耳机播放虚拟声信号和LED灯开闭的顺序以及虚拟声重复播放的次数具体包括步骤:
步骤21、随机地重复4次播放某空间方位的虚拟声信号，每次播放时相应空间方位的LED灯同步点亮；
步骤22、保持所述相应空间方位的LED灯常亮，再将该空间方位的虚拟声信号重复播放10次；
步骤23、重复步骤21至步骤22，直到将13个空间方位的虚拟声信号播放完毕。
[0013]进一步地，步骤6中所述耳机随机播放合成的各个空间方位的虚拟声信号时，每个空间方位的虚拟声信号重复播放4次。
[0014]进一步地，所述步骤I和步骤5中的HRTF均选取美国麻省理工学院MIT数据库中KEMAR假人的HRTF数据，其长度为512点、采样频率为44.1kHz0
[0015]本发明的有益效果是:通过视听交互的训练和学习，校正虚拟声重放中采用非个性化HRTF所导致的声像畸变(包括定位不准确、前/后方混乱);其软硬件复杂程度低，成本低廉，有利于推广，可作为虚拟声重放相关应用的辅助设备。

【专利附图】

【附图说明】
[0016]图1是本发明模块连接结构示意图。
[0017]图2是本发明的信号流程图。

【具体实施方式】
[0018]下面结合附图和具体实施例对本发明作进一步的描述。
[0019]如图1所示，基于视听交互的虚拟声重放校正装置，包括:
上位机控制模块，用于合成不同空间方位虚拟声信号、控制虚拟声信号按一定顺序和次数向声音信号播放模块及视觉信号播放模块的发送，以及分析比较倾听者的反馈信息以判断校正是否符合预期；
听觉信号播放模块，用于根据上位机控制模块的控制信号播放合成的相应空间方位的虚拟声的音频信号；
视觉信号播放模块，用于根据上位机控制模块的控制信号可视化显示虚拟声的方位信息；
反馈模块，用于将倾听者对虚拟声空间方位的判断结果反馈至上位机控制模块进行存贮。
[0020]作为进一步的实施方式，所述上位机控制模块包括:
虚拟声合成模块，用于通过头相关传输函数HRTF和单通路声源信号的时间域卷积合成不同空间方位的双耳虚拟声信号；
输出控制模块，用于控制虚拟声的音频信号和方位可视化信号的播放顺序、播放次数；
评估分析模块，用于将倾听者对虚拟声空间方位的判断进行统计分析，并与虚拟声空间方位的理论值进行比较，评估校正效果，形成评估报告。
[0021]本实施例所述上位机控制模块包含在一台个人电脑PC内，在PC上采用软件编程，如可以具体采用Matlab软件编写代码，实现不同空间方位虚拟声的信号合成；同时采用软件控制其与声音信号播放模块、视觉信号播放模块的通讯。
[0022]所述听觉信号播放模块包括耳机和具有USB接口的外置声卡，所述外置声卡通过USB接口接收上位机控制模块发来的合成虚拟声信号和控制信号，进行D/A转换后，通过耳机按预定播放次数播放给倾听者，具体可采用韩国ESI公司的MAYA22 USB外置声卡，该声卡采用AS1接口。采用AS1技术可以减少系统对音频流信号的延迟，增强声卡硬件的处理能力，以满足视听交互训练中视觉和声音信号严格同步的需求。外置声卡通过USB接口与PC连接，实现即插即用。外置声卡接收上位机控制模块发来的合成虚拟声信号，进行D/A转换后,通过耳机播放给倾听者。耳机具体可选用森海塞尔Sennheiser IE 80。
[0023]作为进一步的实施方式，所述视觉信号播放模块包括具有串行通信接口 UART和通用接口 GP1单片机及若干表示虚拟声方位的LED灯，所述单片机通过串行通信接口 UART接收上位机控制模块发来的包含虚拟声方位信息的指令，解码后通过通用接口 GP1控制相应空间方位的LED灯。本实施例所述单片机型号为AT89S52C。该单片机是一种低功耗、高性能CMOS 8位微控制器，具有8K在系统可编程Flash存储器。它使用Atmel公司高密度、非易失性存储器技术制造，与工业80C51产品指令和引脚完全兼容。片上Flash允许程序存储器在系统可编程，亦适于常规编程器。在单芯片上，拥有灵巧的8位CPU和在系统可编程Flash，使得AT89S52C单片机为众多嵌入式控制应用系统提供高灵活、超有效的解决方案，同时，AT89S52C单片机具有全双工串行通道，满足我们与PC的通信要求；并且，AT89S52C具有多达32个GP10，能够满足我们控制多个LED灯的要求，以实现多个空间方位的视觉信号覆盖。本发明采用AT89S52C单片机与上位机进行串口 UART通信，接收上位机发来的指令，并且解码，再控制相应空间方位的LED灯。
[0024]可以理解的是，本实施例的视觉信号可以采用非LED灯或其它视觉显示设备，如显示屏等；再如声音信号的播放也可以采用扬声器，只是需要增加串声消除算法。
[0025]采用所述的装置进行虚拟声重放校正方法，包括步骤:
步骤1.选取训练空间方位的HRTF，将其和选定的单通路声源信号进行卷积，得到合成的13个空间方位的虚拟声信号，所述13个空间方位取水平面Θ = O。?180°之间均匀间隔15°的13个空间方位，单通路声源信号选取200毫秒长的白噪声，水平面上方位角沒=O。、90°、180°分别表示正前、正右、正后方向；
步骤2.设定训练流程，由上位机控制模块设定耳机播放虚拟声信号和LED灯开闭的顺序以及虚拟声重复播放的次数；
步骤3.耳机按设定次数重复播放合成的某一空间方位的虚拟声信号，同时，表示该虚拟声信号相应空间方位的LED灯在单片机的控制下保持点亮，倾听者反复接受视、听信号的刺激，进行视听交互训练，实现对倾听者的训练，校准因采用通用HRTF数据而导致的空间定位误差。训练过程中，要求倾听者集中注意力感知LED灯指引的方向；
步骤4.关闭LED灯，播放虚拟声信号，将倾听者对虚拟声信号空间方位的判断结果反馈至上位机控制模块，上位机控制模块分析比较倾听者感知的虚拟声方位角与理论的虚拟声方位角；若相差在误差范围内，则执行步骤5，否则返回步骤3 ;
步骤5.根据待测虚拟声应用场景选取定位所需空间方位的HRTF，将其和选定的单通路声源信号进行卷积，得到合成的37个空间方位的双耳虚拟声信号，所述37个空间方位选取水平面Θ = O。?180°之间均匀间隔5°的37个空间方位，包括上述13个训练方位；步骤6.关闭所有LED灯，耳机随机播放合成的各个空间方位的虚拟声信号，倾听者进行虚拟声空间方位的判断，即指出其感知的声像方位角β ’经反馈模块输送至上位机控制模块进行存贮。
[0026]步骤7.上位机控制模块分析比较倾听者感知的虚拟声方位值O ’与理论的虚拟声方位角β ;若误差在待测虚拟声应用场景的定位准确性要求范围内，则结束校正，否则返回步骤3。
[0027]作为进一步的实施方式，步骤2中所述由上位机控制模块设定耳机播放虚拟声信号和LED灯开闭的顺序以及虚拟声重复播放的次数具体包括步骤:
步骤21、随机地重复4次播放某空间方位的虚拟声信号，每次播放时相应空间方位的LED灯同步点亮；
步骤22、保持所述相应空间方位的LED灯常亮，再将该空间方位的虚拟声信号重复播放10次；
步骤23、重复步骤21至步骤22，直到将13个空间方位的虚拟声信号播放完毕。
[0028]作为进一步的实施方式，步骤6中所述耳机随机播放合成的各个空间方位的虚拟声信号时，每个空间方位的虚拟声信号重复播放4次。
[0029]作为进一步的实施方式，所述步骤I和步骤5中的HRTF均选取美国麻省理工学院MIT数据库中KEMAR假人的HRTF数据，其长度为512点、采样频率为44.1kHz0
[0030]需要指出的是，考虑训练时间的因素，训练通常只在有限的空间方位上进行。由于人类的训练学习具有泛化的特性，即在训练方位上获得的定位能力的提高可以在一定程度上“迁移”到非训练方位。因此，非为了全面了解训练方位和非训练方位的校正效果，定位实验方位包括训练方位和非训练方位。以水平面虚拟声校正为例，定位实验方位选取水平面^ = 0°?180°之间均匀间隔5°的37个空间方位，包括上述13个训练方位。
[0031]本发明的工作原理是，该装置在某目标空间方位的虚拟声信号播放的同时，开启相应的位于目标空间方位的LED灯。声音和视觉信号多次同步呈现。利用这种视听交互的训练和学习模式，将畸变的听觉方位感知校正到LED灯所指示的目标方位上，从而实现虚拟声重放的听觉校正，图2是本实施例的信号流程示意图。
[0032]尽管参照特定的优选实施例示出并描述了本发明专利，但本领域技术人员应当理解，本说明书中列举的具体实施方案和实施例，只不过是为了理解本发明的技术内容，不是对本发明的限制，在不背离本发明的主旨和范围的情况下，本发明在形式上和细节上可以进行改变，凡本领域的普通技术人员根据上述描述所做的润饰、修改或等同替换，均属于本发明所保护的范围。
【权利要求】
1.基于视听交互的虚拟声重放校正装置，其特征是，包括: 上位机控制模块，用于合成不同空间方位虚拟声信号、控制虚拟声信号按一定顺序和次数向声音信号播放模块及视觉信号播放模块的发送，以及分析比较倾听者的反馈信息以判断校正是否符合预期；听觉信号播放模块，用于根据上位机控制模块的控制信号播放合成的相应空间方位的虚拟声的音频信号；视觉信号播放模块，用于根据上位机控制模块的控制信号可视化显示虚拟声的方位信息；反馈模块，用于将倾听者对虚拟声空间方位的判断结果反馈至上位机控制模块进行存贮。
2.根据权利要求1所述的基于视听交互的虚拟声重放校正装置，其特征是，所述上位机控制模块包括: 虚拟声合成模块，用于通过头相关传输函数HRTF和单通路声源信号的时间域卷积合成不同空间方位的双耳虚拟声信号；输出控制模块，用于控制虚拟声的音频信号和方位可视化信号的播放顺序、播放次数；评估分析模块，用于将倾听者对虚拟声空间方位的判断进行统计分析，并与虚拟声空间方位理论值进行比较，评估校正效果，形成评估报告。
3.根据权利要求1所述的基于视听交互的虚拟声重放校正装置，其特征是，所述听觉信号播放模块包括耳机和具有USB接口的外置声卡，所述外置声卡接收上位机控制模块发来的合成虚拟声信号和控制信号，进行D/A转换后，通过耳机按预定播放次数播放给倾听者。
4.根据权利要求1所述的基于视听交互的虚拟声重放校正装置，其特征是，所述视觉信号播放模块包括具有串行通信接口 UART和通用接口 GP1单片机及若干表示虚拟声方位的LED灯，所述单片机通过串行通信接口 UART接收上位机控制模块发来的包含虚拟声方位信息的指令，解码后通过通用接口 GP1控制相应空间方位的LED灯。
5.根据权利要求4所述的基于视听交互的虚拟声重放校正装置，其特征是，所述单片机型号为AT89S52C。
6.采用权利要求1至4所述的装置进行虚拟声重放校正方法，其特征在于，包括步骤: 步骤1.选取训练空间方位的HRTF，将其和选定的单通路声源信号进行卷积，得到合成的13个空间方位的虚拟声信号，所述13个空间方位取水平面Θ = 0。?180°之间均匀间隔15°的13个空间方位，单通路声源信号选取200毫秒长的白噪声；步骤2.设定训练流程，由上位机控制模块设定耳机播放虚拟声信号和LED灯开闭的顺序以及虚拟声重复播放的次数；步骤3.耳机按设定次数重复播放合成的某一空间方位的虚拟声信号，同时，表示该虚拟声信号相应空间方位的LED灯在单片机的控制下保持点亮，倾听者反复接受视、听信号的刺激，进行视听交互训练，实现对倾听者的训练，校准因采用通用HRTF数据而导致的空间定位误差；步骤4.关闭LED灯，播放虚拟声信号，将倾听者对虚拟声信号空间方位的判断结果反馈至上位机控制模块，上位机控制模块分析比较倾听者感知的虚拟声方位角与理论的虚拟声方位角；若相差在误差范围内，则执行步骤5，否则返回步骤3 ; 步骤5.根据待测虚拟声应用场景选取定位所需空间方位的HRTF，将其和选定的单通路声源信号进行卷积，得到合成的37个空间方位的双耳虚拟声信号，所述37个空间方位选取水平面Θ = 0。?180°之间均匀间隔5°的37个空间方位，包括上述13个训练方位；步骤6.关闭所有LED灯，耳机随机播放合成的各个空间方位的虚拟声信号，倾听者进行虚拟声空间方位的判断，即指出其感知的声像方位角β ’经反馈模块输送至上位机控制模块进行存贮；步骤7.上位机控制模块分析比较倾听者感知的虚拟声方位值〃 ’与理论的虚拟声方位角β ;若误差在待测虚拟声应用场景的定位准确性要求范围内，则结束校正，否则返回步骤3。
7.根据权利要求6所述的虚拟声重放校正方法，其特征在于，步骤2中由上位机控制模块设定耳机播放虚拟声信号和LED灯开闭的顺序以及虚拟声重复播放的次数具体包括步骤: 步骤21、随机地重复4次播放某空间方位的虚拟声信号，每次播放时相应空间方位的LED灯同步点亮；步骤22、保持所述相应空间方位的LED灯常亮，再将该空间方位的虚拟声信号重复播放10次；步骤23、重复步骤21至步骤22，直到将13个空间方位的虚拟声信号播放完毕。
8.根据权利要求6所述的虚拟声重放校正方法，其特征在于，步骤6中所述耳机随机播放合成的各个空间方位的虚拟声信号时，每个空间方位的虚拟声信号重复播放4次。
9.根据权利要求6所述的虚拟声重放校正方法，其特征在于，所述步骤1和步骤5中的HRTF均选取美国麻省理工学院MIT数据库中KEMAR假人的HRTF数据，其长度为512点、采样频率为44.lkHz0
【文档编号】H04S7/00GK104394499SQ201410676824
【公开日】2015年3月4日申请日期:2014年11月21日优先权日:2014年11月21日
【发明者】章杰, 钟小丽申请人:华南理工大学

文档序号 : 【 7820501 】

技术研发人员：章杰,钟小丽
技术所有人：华南理工大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

章杰丨钟小丽丨华南理工大学