青年论坛-2022年第十七届全国人机语音通讯学术会议

青年论坛

青年论坛报告嘉宾

陈谐

报告人简介：陈谐，上海交通大学计算机科学与工程系长聘教轨副教授，博士生导师，获国家海外高层次人才（青年）项目资助。2009年本科毕业于厦门大学电子工程系，2012年硕士毕业于清华大学电子系，2016年博士毕业于剑桥大学信息工程系，博士毕业后先后在剑桥大学从事博士后研究，美国微软研究院任高级研究员，资深研究员，2021年9月加入上海交通大学。主要研究方向为深度学习和智能语音信号处理，在本领域的国际权威会议和期刊发表论文50余篇。

报告题目：基于信息解耦的端到端语音识别系统和高效语言模型自适应。

报告摘要：近年来，基于端到端模型的语音识别系统联合建模声学信息和语言信息，极大的提高了语音识别系统的性能和优化其训练复杂度，逐渐成为了语音识别系统的主流系统。但是，由于其声学和语言信息联合建模的特性，也带来了一些问题和挑战，譬如如何基于文本数据进行快速领域自适应。本报告将介绍我们近期提出的基于信息解藕的端到端模型，通过改进端到端模型结构设计，让其联合优化的同时，也具备独立的语言模型模块，可以灵活高效的应用语言模型自适应技术，基于文本数据进行领域自适应。实验结果表明该方法可以取得较其他模型更佳的显著性能提升。

刘树杰

报告人简介：刘树杰，微软亚洲研究院高级研究员和研究经理。2012年博士毕业于哈尔滨工业大学。研究兴趣包括自然语言处理，语音处理和深度学习相关技术。在自然语言处理以及语音处理各顶级期刊和会议（包括CL, JSTSP, ACL, ICASSP, AAAI, EMNLP, NAACL, INTERSPEECH 等）上发表论文100余篇，并合著《机器翻译》一书，参与编写《人工智能导论》一书。研究成果被广泛应用于Microsoft Translator、Skype Translator、Microsoft IME、微软语音服务（包括语音生成，语音分离和识别）等微软重要产品中。

报告题目：预训练模型在语音处理中的应用。

报告摘要：随着预训练模型在自然语言处理和图像处理中的进展，语音预训练模型也越来越受到重视。基于预训练模型的语音处理方法在多个任务上也取得了突破性的进展。在本报告中，我们将介绍目前主流的语音预训练模型，并进一步介绍如何构建预训练模型以适用于所有语音处理任务，如何基于编码器解码器的语音预训练模型，以及如何利用文本数据来增强语音预训练模型的性能。

杜忆

报告人简介：杜忆，中国科学院心理研究所研究员，博士生导师，国家自然科学基金“优青”基金获得者。2011年于北京大学获基础心理学博士学位，其博士论文获得2013年全国优秀博士学位论文。2012年至2015年先后在加拿大多伦多大学Rotman研究所和麦吉尔大学蒙特利尔神经病学研究所从事认知神经科学的博士后研究。2016年初入职中国科学院心理研究所。杜忆研究员主要利用心理物理学方法、多种脑成像技术（包括功能核磁共振成像、脑磁图、脑电）和非侵入性神经调控技术（经颅电/磁刺激）从事人类听觉言语与音乐认知的脑机制研究，研究领域包括：言语知觉和理解的脑机制，言语认知的毕生发展及可塑性机制，音乐认知的脑机制。研究成果发表在Nature Communications、PNAS、Neuroimage、Journal of Neuroscience、Cerebral Cortex和Neuroscience & Biobehavioral Reviews等国际一流期刊。其研究获得科技部2030-“脑科学与类脑研究”重大项目课题，国家自然科学基金，中科院先导计划等多项基金资助。

报告题目：多模态语音感知与理解的脑环路机制。

报告摘要：自然场景下的言语交流通常都伴随着说话人唇动、手势等视觉运动信息。人脑如何整合多模态信息以促进语音感知及理解，其神经环路机制还尚不明晰。本讲座将介绍一项经颅磁刺激研究，揭示人脑喉部运动皮层在语音范畴知觉决策中的因果性贡献；一项多模态磁共振成像研究，揭示视觉唇动信息促进噪音下语音感知的神经机制；以及一项精密计时经颅磁刺激研究，揭示语音-手势跨通道语义整合的动态脑环路机制。

张卫强

报告人简介：张卫强，副研究员，清华大学语音与音频技术实验室负责人。2009年在清华大学电子工程系获博士学位，之后留校任教，2016-2017年斯坦福大学访问学者。主要研究方向为语音与音频信号处理、低资源语音识别等。以负责人身份承担自然科学基金重点项目、国家重点研发专项课题等多个项目。发表学术论文200余篇；申请国家发明专利40余项。获教育部科技进步一等奖、科技奥运先进集体奖，获得NIST等多项国际语音比赛冠军。

报告题目：低资源小语种语音识别与分析。

报告摘要：全世界有7000多种语言，目前仅有较少的语种可以进行自动语音识别和分析。对于一些小语种而言，能获取的语音识别资源非常有限，按照常规技术根本无法构建出可用的语音识别和分析系统。本报告首先介绍国外在低资源语音识别和分析方面几个典型的研究计划，接着介绍我们实验室在该方面的一些工作进展，最后给出展望和总结。

许家铭

报告人简介：许家铭，中国科学院自动化研究所副研究员，硕士生导师。研究工作围绕智能语音交互展开，主要方向包括语音分离与识别，智能问答与对话。目前承担或参与国家及相关部委科研项目10余项，包括国家自然科学基金、科技部2030重大项目，中科院战略性先导科技专项以及北京市科技重大项目等。在AAAI, IJCAI, NeurIPS, ACL, ICASSP和IEEE Trans.等国际会议和期刊上发表论文50余篇，申请发明专利20余项，第一作者译著《听觉系统与鸡尾酒会问题》一书。长期开展产学研结合，相关成果应用于多家合作企业。

报告题目：多线索驱动的半监督目标说话人分离。

报告摘要：由于干扰噪音的存在，复杂场景下的语音交互系统仍存在通话质量差与识别准确率低的问题，尚未达到泛场景“很好用”的令人满意程度。在此背景下，催生出了围绕听觉鸡尾酒会问题的语音分离任务来提升目标说话人信噪比，以改善通话音质量和语音交互体验。当前大多数语音分离方法（包括盲源分离和目标说话人分离）是在仿真的多人混合语音数据上训练和评估的。然而由于声学场景的差异，仿真数据与真实数据可能存在数据分布不匹配问题，从而使得语音分离模型部署在真实环境时性能衰减严重。针对如上问题，本报告首先分享团队面向多种真实场景构建的100小时中、英文多模态语音分离与识别数据集RealMuSS，然后介绍一种多模态线索驱动的半监督目标说话人分离方法，有效整合空间、视觉和声纹等多模态线索优势并提升模型在真实场景的自适应能力。

李明

报告人简介：李明，昆山杜克大学电子与计算机工程长聘副教授，大数据研究中心研究员，武汉大学计算机学院兼职教授，博导，杜克大学电子与计算机工程系客座研究员。第十五批江苏省六大高峰B类高层级人才。2005年获南京大学通信工程专业学士学位，2008年获中科院声学所信号与信息处理专业硕士学位，2013年毕业于美国南加州大学电子工程系，获工学博士学位。2013-2017年任教于中山大学卡内基梅隆大学联合工程学院及电子与信息工程学院，副教授，博士生导师，其中2013-2014年在卡内基梅隆大学电子与计算机工程系访问。2018年加入昆山杜克大学，研究方向包括智能语音处理，多模态行为信号分析等方向。已发表学术论文140余篇，现担任IEEE语音及语言技术委员会委员，APSIPA 语音及语言处理专委会委员，中国计算机学会语音对话与听觉专委会专委，中国人工智能学会情感智能专委会专委，IEEE高级会员。

报告题目：面向复杂场景的鲁棒声纹识别及其关联任务研究。

报告摘要：首先介绍实验室在长时间跨度、远场、自监督、笑声等复杂场景下的声纹识别近期研究成果；其次，介绍基于TSVAD框架的说话人日志进展；最后，从带噪语音检测、可逆变声、伪造方法溯源、源说话人确认等角度介绍伪造音检测相关进展。

青年论坛

会议地址

会议电话

会议邮箱