北理工学子荣获声纹识别挑战赛说话人检索任务第一名


日前,在2022年声纹识别挑战赛(CNSRC 2022)说话人检索(Speaker Retrieval,SR)任务中,北京理工大学信息与电子学院教师谢湘带领的语音识别团队获得第一名。

CNSRC 2022是国际上最具影响力的声纹识别评测比赛之一,由Odyssey 2022会议组委会发起的说话人识别竞赛,吸引了132支海内外队伍参赛。本次竞赛的核心目的是验证当前说话人识别 (或称声纹识别) 技术在实际复杂场景下的真实可用性。

历经近四个月的角逐,我校BIT_SV队伍尝试了多种模型算法对领域内SOTA模型ECAPA进行改进调优,最终采用数据增广、多尺度卷积、多池化融合等方法,在不同阶段调整不同的超参,使模型可以在复杂且大量的数据池中检索出正确的相同说话人句子,有效地提高了模型的鲁棒性。

6月27日,苏欣美同学代表我校参赛队在CNSRC 2022线上研讨会中进行发言,介绍了队伍的技术方案。


附获奖团队简介:

信息与电子学院通信技术研究所的语音识别研究团队多年来致力于人机语音交互领域的研究,承担了多项国家自然科学基金等国家级项目,特别在多语言语音识别、说话人识别等方向积累了丰富经验和先进算法。该团队近年来在2021年全国人机语音通讯学术会议中对话场景下的说话人识别挑战赛中获得第1名,在2021年东方语言识别(Oriental Language Recognition, OLR)挑战赛中受限/不受限多语言语音识别两项任务中分获第2名和第3名。