2023年5月15日下午,北京大学刘宏教授莅临威客电竞VKGAME,作了主题为“基于视听融合的说话人定位与跟踪研究”的讲座。
本次讲座由威客电竞VKGAME杨国为教授主持。人的定位与跟踪是人机交互的关键技术之一,也是计算机视觉与听觉等多领域交又融合的重要研究课题在人机交互、服务机器人、监控系统、虚拟现实等多个领域具有广泛应用价值。
本讲座以视听融合为核心,围绕说话人定位与跟踪任务介绍多个创新性工作。在实际应用场景中,说话人定位与患踪面临着环境复杂性和传感器局限性的影响,例如视觉易受到光照变化、视野有限等因素的影响,听觉易受环境噪声、房间混响、问歇性语音等因素的干扰。视听融合技术通过克服模态间的异质性差异,挖掘多模态特征的相关性,并利用不同模态数据的互补信息,能够提高复杂动态场景的适应性,实现更高精度的定位与跟踪。针对多模态异质性教据融合、模态置信水平度量,多层次信息交互和多模态多目标数据关联等问题,讲座介绍了双层结构粒子滤波模型、自监督多模态感知注意力网络、语义空间特征融合机制和唤醒词线索增强的多说话人声源定位与跟踪方法。
听完本次讲座,大家都感到获益匪浅,踊跃举手提问,现场学术氛围浓厚,气氛热烈。