特殊议题-2025年第二十届全国人机语音通讯学术会议

特殊议题

主题一音色属性检测竞赛（NCMMSC2025-vTAD）

内容简介：

NCMMSC2025-vTAD挑战赛以语音信号中携带的话者音色信息为对象，关注音色的可解释性，为此构建音色属性检测（Voice Timbre Attribute Detection，vTAD）任务。该任务旨在辨认两句语音中的话者在音色属性上是否存在特定的强弱差异，其中，音色属性指听者通过听觉感知系统，借助语言对话者音色感知进行的描述，如明亮、粗糙、圆润等。本挑战赛由中国科学技术大学和香港理工大学共同发起，以促进对语音中话者音色属性的研究，进而推动相关领域的发展。本挑战赛的详细信息请参看https://vtad2025-challenge.github.io/。

组织者：

陈丽萍/中国科学技术大学 Kong Aik Lee/香港理工大学凌震华/中国科学技术大学

主题二中文连续视觉语音识别挑战赛（CNVSRC 2025）

内容简介：

视觉语音识别，也称唇语识别，是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前，唇语识别的研究方兴未艾，虽然在独立词、短语等识别上取得了长足进展，但在大词表连续识别方面仍面临巨大挑战。为推动这一研究方向的发展，清华大学联合北京邮电大学、海天瑞声和语音之家举办第三届中文连续视觉语音识别挑战赛 (Chinese Continuous Visual Speech Recognition Challenge, CNVSRC 2025)。本次赛事以CN-CVS中文视觉语音识别数据库为基础数据，评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的LVCVSR系统的性能。这是该竞赛系列的第三次组织。相较于CNVSRC 2023和CNVSRC 2024，CNVSRC 2025提供了更强大的基线系统和更多开源数据（总计1500小时），并增设了唇语到语音转换 (Visual to Speech, VTS）赛道。本挑战赛详情请参考赛题官网https://cnceleb.org/competition

组织者：

王东/清华大学李蓝天/北京邮电大学李科/北京海天瑞声科技股份有限公司

主题三 2025 CCF先进音频技术竞赛

内容简介：

CCF先进音频技术竞赛由中国计算机学会（CCF）主办、CCF语音对话与听觉专委会承办、语音之家协办、华为终端有限公司独家合作。大赛旨在推动国内高等院校及科研院所在音频技术领域的专业人才培养，支持学生科技创新，选拔优秀人才。本届赛事分为两个挑战赛道，均提供了高质量赛事数据和基线系统。第一是语音修复赛题旨在鼓励参赛者探索和实现面向真实世界复杂链路的下一代语音修复算法，以显著提升语音信号的质量、可懂度和听感自然度；第二是通用音频分离赛题旨从混杂声音信号中分离出不同声源的独立信号。本届赛事共吸引142支队伍参与两个赛题的角逐，初赛后共有11支代表队晋级两个赛题的决赛。晋级决赛的各参赛队从模型架构、算法创新、数据处理、参数量优化等多个角度，详细阐述了其技术方案的设计思路与实现过程。最终结合答辩评分、各支队伍提交语音的听感评估得分与初赛得分，评选出了两个赛题的一、二、三等奖获奖团队。
本议题拟组织两个赛题的等奖团队分别以报告形式介绍赛事方案，促进关于语音修复和音频分离技术的研究和交流。更多信息请访问赛事官网：https://ccf-aatc.org.cn/

组织者：

卜辉，语音之家，总经理凌震华，中国科学技术大学，教授朱梦尧，华为终端BG音频部

主题四 AI语音赋能生命健康：无障碍沟通与人机协同创新

内容简介：

议题以“AI语音赋能生命健康”为主题，期望达到以下目的：（1）推动生命健康领域的AI技术转化：聚焦人工智能在医疗咨询、健康监测、紧急响应等场景中的无障碍沟通技术创新，开发可解释、可信赖的交互系统，助力慢性病管理、老龄化护理及突发公共卫生事件应对；（2）突破关键场景技术瓶颈：针对医疗场景中的多模态感知（如手语、眼动、脑机接口）、低资源环境下的小样本学习、隐私敏感数据安全交互等挑战，探索大模型轻量化、联邦学习与边缘计算的前沿解决方案；（3）构建跨学科协作生态：搭建医学、计算机科学、认知科学的多领域对话平台，促进临床需求与AI技术的高效对接，推动从实验室到病房的快速转化；（4）伦理与普惠性保障：制定AI健康交互的伦理准则，确保技术覆盖城乡差异群体，避免算法偏见导致的健康不平等。
该特殊议题的设立具有以下重要意义：（1）技术创新价值：发展基于联邦学习的分布式健康监测系统，实现隐私保护下的个性化健康预警（如癫痫发作预测、抑郁症情绪识别）；（2）社会健康价值：提升弱势群体（听障、语障、认知障碍患者）的医疗可及性，据WHO统计，全球超15亿人因沟通障碍无法获得充分医疗服务。通过AI辅助诊断与远程康复指导，降低基层医疗资源压力，推动“健康中国2030”战略落地；（3）伦理与产业价值：建立医疗AI交互的透明性标准（如可解释性可视化、用户可控数据共享），响应《生成式人工智能服务管理暂行办法》要求。孵化医疗机器人、智能辅具等新兴产业，预计至2030年全球市场规模将超3000亿美元（Grand View Research数据）。

组织者：

刘李(香港科技大学（广州)) 吴锡欣(香港中文大学)

燕楠（中科院先进技术研究院）王甦菁(中国科学院心理研究所)

报告介绍：

报告1：双重视角下的“AI+辅具”
报告人：王甦菁（中国科学院心理研究所）

摘要：随着人工智能技术的飞速发展，智能辅助器具已在肢体运动代偿、感官增强等物理功能智能辅具研发普遍存在"技术供给"与"真实需求"的错配现象，当前成果多聚焦肢体功能代偿，却普遍忽视功能残障群体的心理健康及精神残疾群体的社会融入需求。基于残障用户/研发者双重视角，报告人通过智能轮椅、构音障碍语音识别等研发实践揭示：辅具的技术突破固然重要，但如何精准对接残障群体的真实需求才是核心挑战。此外，本报告提出"AI+辅具"创新路径：利用大模型技术突破传统辅具边界，开发心理康复支持系统。其中，微表情分析技术可通过情绪识别优化心理干预策略，分析残障人士对于辅具应用的实际需求，为肢体/言语障碍者提供动态心理支持。

依托国家在残障保障领域的规划纲要，报告人从残障者技术认知转变与实际需求出发，将心理维度纳入辅具设计框架，融合情感计算与多模态交互技术，通过"身心一体化"助残范式，构建涵盖情绪调节、社交训练等功能的辅具智能化升级，不仅拓展科技助残的应用边界，也为包容性社会构建提供实践参照，实现技术创新与人文关怀的深度协同。

报告2：基于大语言模型的构音障碍语音重建
报告人：吴锡欣（香港中文大学）

摘要：构音障碍（Dysarthria）是一种由神经系统损伤或肌肉控制异常导致的言语障碍，主要表现为发音不清、语速异常、音量控制困难等，严重影响患者的沟通能力和生活质量。构音障碍语音重建旨在通过恢复不清楚的发音内容，纠正异常的韵律并保持原说话人的音色获得听感正常的语音。该技术可以有效改善构音障碍患者与他人的交流，促进患者康复训练，减轻患者家庭照顾与情绪负担。随着近期大语言模型的快速发展，构音障碍重建这一挑战性问题获得了新的解决思路，尤其在弥补构音障碍语音资源稀缺、引入多模态信息等方面取得了很好的进展。本报告将围绕构音障碍语音重建面临的难点和挑战，介绍在这一方向的系列前沿探索和最新研究结果，并探讨未来的研究方向。

报告3：基于语音分析的轻度认知障碍筛查系统的方法研究
报告人：燕楠（中科院先进技术研究院）

摘要：轻度认知障碍（MCI）是痴呆的早期阶段，识别MCI可有助于对认知损伤患者进行早期干预，延缓认知损害进程。然而，当前MCI诊断存在认识不足、筛查方法局限等问题，使之就诊率极低，迫切需要一种快速、无损、多环境适应的筛查方法。语言障碍是MCI的重要临床表征之一，且与其病程发展各阶段密切相关。因此，分析AD语音的变异信息将为AD早期筛查、诊断提供重要信息。然而，当前尚未找到高敏感性、高特异性地反映AD语言神经信息传导损伤的语音特征集。因此，本项目拟从行为和脑功能的角度出发，探索AD患者对言语加工过程的影响以及敏感性指标，提出基于多任务言语功能评估方法、MCI自发语音的韵律特征提取方法和基于多任务深度学习的建模方法等，构建了MCI认知障碍的语音评估模型，可以有效的、自动对MCI患者进行筛查，筛查准确率不低于90%，从而为开发可用于普通话的MCI认知障碍的早期自动筛查系统，使之能为认知障碍的早期筛查方法，提供快速、非侵入性的辅助诊断依据打下良好的研究基础。

主题五语音，情感与精神健康

内容简介：

随着语音信号处理和情感计算技术的不断突破，语音已不仅仅是交流的媒介，更成为感知人类情绪与心理状态的重要窗口。语音中所蕴含的情感线索为精神健康状态的识别与干预提供了新思路，尤其在抑郁、焦虑、自闭症谱系障碍等精神心理问题的辅助诊断和智能干预中展现出巨大潜力。该议题聚焦情感语音合成技术与情感建模在精神健康场景中的前沿进展，旨在推动多模态信号分析、情绪识别、人机交互与临床应用之间的交叉融合。
本议题将邀请国内外该领域的专家学者，共同探讨语音信号在精神健康评估中的新范式，重点关注可解释性建模、小样本学习、多模态融合、跨文化情感表达、以及面向实际应用的系统集成等关键问题。我们期望通过本专题促进语音与心理健康研究的深度结合，推动情感智能技术在医疗、教育与社会关怀等场景中的落地转化，为建设具有温度的人机交互系统奠定基础。

组织者：

罗兆杰（东南大学）宗源（东南大学）

报告介绍：

报告1：音频--数字健康的新启发
报告人：钱昆（北京理工大学）

摘要：作为一门融合声学、信号处理、机器学习等多学科理论与方法的交叉学科，计算机听觉（Computer Audition, CA）在数字医学、智慧医疗、生物信息等领域发挥着越来越重要的作用。音频信号因其天然的“非侵入、易采集、普适”等特点，结合人工智能和穿戴技术的发展，使得CA在面向生理和心理的疾病辅助诊断和早期干预方面已取得了一系列有前景的结果。本次报告将结合报告人在计算机听觉医学应用领域多年的工作汇报该领域的进展和展望未来的趋势。

报告2：基于多模态大模型的情感理解
报告人：连政（中国科学院自动化研究所）

摘要：情感计算是结合心理学与计算科学的前沿交叉学科。本次报告将围绕多模态大模型在情感计算领域的应用展开。首先，将介绍文本大模型的关键技术；然后，将介绍多模态大模型的最新进展，以及如何借助多模态大模型解决情感理解任务（包括我们团队最近提出的EMER和OV-MER任务以及AffectGPT和Emotion-LLaMA框架）；最终，将围绕情感计算的未来研究趋势进行展望。

报告3：情智兼备的对话语音生成研究
报告人：刘瑞（内蒙古大学计算机学院、软件学院、人工智能学院）

摘要：对话语音生成是人机语音对话中的关键任务之一，在人机交互、元宇宙等领域具有广泛的应用，近年来吸引了学术界和产业界的共同关注。共情是人工智能发展的终极目标，如何构建情智兼备的对话语音生成模型是当前急亟需解决的关键问题。本报告将介绍我们从异构图上下文建模、生成式对话生成框架等不同视角开展的对话语音生成框架。同时，随着大模型的发展，思维链对于提升模型生成结果的可解释性起到积极作用。最后，将介绍我们提出的链式情感理解和表达框架，在提升情感理解和表达能力的同时，增强人机语音对话场景下的情感理解和表达可解释性。

报告4：多模态协同增强的情感分析
报告人：李勇（东南大学）

摘要：当前多模态情感识别通过融合文本、语音、面部表情与生理信号等多源数据，大幅度提升了情感分析的准确性与鲁棒性。然而，受限于输入模态的复杂异构性以及情感表达的细微特性，当前方法在真实复杂场景下仍面临诸多挑战，识别精度远未达到与人脸识别等任务相当的水平。本报告将系统回顾多模态情感分析的关键问题与最新进展，并介绍研究团队在在多模态均衡特征表达、细微语义对齐、模态稳健补全等方面的研究进展，探讨大模型驱动下的情感计算新范式。

报告5：基于可穿戴生理信号的细粒度情感识别研究
报告人：张天翼（东南大学）

摘要：当前情感识别在复杂环境中仍面临标注稀缺、表达细微等挑战。相比传统依赖语音、文本与面部信息的方法，基于可穿戴设备采集的生理信号如皮肤电导与心率，具备难以伪装、易于采集和高度情感相关性的优势，成为更具潜力的情感感知途径。本研究聚焦于在低标注、弱监督条件下提升生理信号驱动的情感识别精度，通过设计交互友好的标签采集方式、引入心理理论建模情感状态，并结合小样本学习策略，实现对用户细粒度情感变化的精准捕捉。本报告将介绍团队在细粒度情感识别中的探索与成果，并探讨生理信号驱动下的情感计算新路径。

主题六言语障碍人群汉语普通话的语音感知与产出

内容简介：

据WHO统计，全球约7%人口存在言语障碍，其中涉及了听障、腭裂、自闭等常见的病理因素。另外，随着人口老年化的加剧，老年性听力损失也会导致言语交流障碍。本议题将组织语言学领域的专家和研究人员，从跨学科的角度，分享其对我国言语障碍人群汉语普通话语音感知和产出的研究。
从语言学的角度设计实验，探究言语障碍人群对音段和超音段的听辨能力，并分析其语音产出的声学特征，发掘不同类型病征的言语障碍人群语音感知和产出的模式，既能为语言康复训练提出意见和建议，又可以为计算机识别言语障碍人群的特殊语音提供基础数据，助力言语障碍人群融入智能社会。

组织者：

陈莹（南京理工大学）龚箭（江苏科技大学）

报告介绍：

报告1：语前聋成人普通话单字调生成的时域特征研究
报告人：陈彧（东南大学）

摘要：由于早期听力缺失以及对人工耳蜗或助听器等听觉辅助设备的依赖，语前聋成人在普通话声调产出上仍存在一定困难。尽管有研究证明其声调产出能力随着长期言语康复训练而有所改善，但目前较少有研究专门探索语前聋成人所产出声调的轮廓特征。本研究旨在探讨语前聋成人在产出普通话单字调时声调轮廓随时间维度的动态变化。
本研究采用广义加线混合模型（GAMM），对74名被试（18名人工耳蜗使用者、26名助听器使用者及30名正常听力者）所产出的声调的动态特征进行分析。我们将不同被试所产出声调的基频数据转换为T值进行标准化，进而对四个声调在多个时间节点上的具体动态轮廓变化进行考察。
广义加线混合模型分析显示，助听器组与人工耳蜗组的声调阈值均较正常听力组显著压缩。聋人组声调轮廓变化相较于正常听力组更加平缓，音高变化幅度较小，且三声和四声的声调特征更加模糊。此外，时长因素对语前聋人的声调产出具有显著影响。

结果表明，佩戴人工耳蜗或助听器的语前聋成人能够产出趋近正常听力者的普通话声调，但由于早期听力损伤与设备局限性的长期影响，语前聋人的普通话声调产出在自然度上仍然与正常听力人群存在一定差距。

报告2：韵律和表情线索促进汉语人工耳蜗儿童的反语理解
报告人：汤平（南京理工大学）

摘要：人工耳蜗技术帮助中重度听力障碍的儿童重塑听力，并获得一定的语言和社交能力。然而，对于这些儿童而言，准确地理解复杂的交际意图仍然困难重重，其中，对于反语（Irony）的理解就是一个典型代表。反语是一种常用的交际手段，其表达的含义与其字面意义相反。要理解反语，儿童需要通过语境信息来推测说话人想表达的意思，这需要一定的心智理论。然而，对于人工耳蜗儿童而言，早期的言语剥夺导致其心智理论发展滞后，最终致使其理解反讽的困难。
尽管如此，日常言语交际时，听话者既可以听见说话人的语音韵律特征，也可以看见说话人发音时的面部表情。研究发现，汉语的反语表达具有特定的韵律和表情信息。对于正常听力儿童而言，即使他们不能够借助语境信息来理解反语，他们也可以借助这些韵律和表情信息进行反语理解。因此，我们提出两个问题：（1）人工耳蜗儿童是否可以利用韵律和表情线索来更好地理解反语？（2）如果可以，利用这两种线索是否需要以拥有心智理论为前提？本研究招募了52名3-7岁的人工耳蜗儿童和52名3-7岁的听力正常儿童（控制组）。实验材料包括12个反语故事。实验任务为：（1）一阶和二阶的心智理论测试；（2）在“仅语境线索”、“语境+韵律线索”、“语境+韵律+表情”线索3种条件下进行反语理解（说话人的信念和态度）。
研究结果表明，对于两组儿童而言，“仅语境线索”条件下反语理解正确率最低，“语境+韵律线索”条件下正确率显著提高，而“语境+韵律+表情”线索条件下正确率显著高于前两者。这说明，与听力正常儿童相似，人工耳蜗儿童可以使用韵律和表情线索更好地理解反语。此外，研究结果还表明，无论儿童有没有通过心智理论测试，其均能利用额外的韵律和表情线索显著提高反语理解，说明使用这些线索并不需要以拥有心智理论为前提。

报告3：腭裂儿童汉语普通话口鼻塞音的感知和产出研究
报告人：陈莹（南京理工大学）

摘要：腭裂儿童产出的口鼻塞音在发音方式(manner of articulation，MOA)、嗓音起始时间(voice onset time，VOT)和发音位置(place of articulation，POA)上均存在偏误。腭裂语音损失还与外周听力损失和中枢听觉障碍密切相关。本研究通过三个实验探讨以下三个问题：1、中国腭裂儿童与典型发育儿童产出的汉语普通话口鼻塞音有无差异？2、中国腭裂儿童与典型发育儿童对汉语普通话口鼻塞音的感知有无差异？3、外周听力和中枢听觉功能是否影响腭裂儿童对汉语普通话塞音的感知？
本研究的被试总共包括17名腭裂小童（3岁2个月–9岁）、16名腭裂大童（9岁2个月–16岁11个月）、17名典型发育小童和16名典型发育大童。腭裂儿童和典型发育儿童在年龄、性别和语言背景上一一匹配。所有儿童均为汉语普通话母语者。实验一产出普通话中位于音节首的口鼻塞音和鼻音韵尾。实验二听辨在MOA、VOT和POA三个方面存在对立的普通话口鼻塞音。实验三探讨听觉障碍对腭裂儿童感知汉语普通话口鼻塞音的影响。
结果表明，腭裂儿童的塞音产出偏误不仅源于生理结构缺陷，还可能由感知偏误导致；而腭裂儿童的语音感知偏误不仅受外周听力损失影响，也可能是中枢听觉障碍造成的。因此，建议采用肌动-语音训练与语言-音系训练相结合的方法（Alighieri等，2020；Bessell等，2013；Kummer，2011；Nachmani等，2022），对腭裂儿童进行语音康复训练；同时，建议尽早对腭裂儿童进行常规听力评估，不仅要持续跟踪外周听力水平，更要关注中枢听觉功能。

报告4：语义对汉语孤独症儿童情绪韵律感知的调节机制研究
报告人：王婷（同济大学）

摘要：关于语义内容如何影响孤独症谱系障碍（ASD）儿童的情绪韵律感知，目前仍存在争议。本研究通过系统操纵汉语双音节词中的语义信息（假词、语义中性词、语义-韵律一致情绪词、语义-韵律冲突情绪词）来探讨语义复杂性对汉语ASD儿童情绪韵律感知的潜在调节作用。
研究招募了24名ASD儿童和22名典型发展（TD）儿童完成两项情绪韵律识别任务。结果发现，ASD组在韵律线索与词汇线索共同作用时,受到逐步增加的语义复杂性影响更为显著。具体而言，中性语义对ASD组的识别准确率影响较小，而当情绪词中出现语义与韵律不一致时，对其识别造成了显著的不利影响。此外,感知混淆矩阵结果显示，ASD组儿童已经开始发展出类似于TD组儿童的情绪韵律识别模式。ASD组表现较差的原因可能源于抑制语义干扰的发展迟缓,而非情绪特异性缺陷。

报告5：老年人汉语普通话的辅音感知
报告人：冯燕（南京理工大学）

摘要：人类可以将连续的语音信号感知为离散的音位范畴，即范畴感知，这是人类言语感知的一个重要特征，也是言语理解中不可或缺的一环。前人研究表明老龄化带来的听力和认知能力衰退会影响范畴感知，但较少研究对不同年龄段的老年人群体间的差异进行探讨。在汉语普通话中，过渡音征是一种重要的音段音位特征，其频率信息变化快速，可用于区分辅音发音位置。因此本研究旨在探讨不同年龄段的老年人对普通话过渡音征的范畴感知。
本研究借助经典的范畴感知范式，对比了来自北方官话区的20-30岁年轻人、60-65岁及75-80岁健康老人对过渡音征（bā-dā连续统）的辨认和区分表现。统计结果表明，60-65岁老年组与年轻成人组在辨认和区分能力上没有显著区别，但75-80岁老年组的范畴感知边界宽度、范畴间区分正确率都与年轻成人组、60-65岁老年组有显著区别，且75-80岁老年组的范畴间区分正确率与其听力水平存在显著的负相关。由此可见，60-65岁老人仍然保持了较为完好的过渡音征感知能力，但75-80岁老人的过渡音征辨认和区分能力都出现了明显衰退，且其区分能力的衰退可能是由听力衰退导致的。

报告6：隆巴德效应对老年人噪声中言语接收阈值的影响
报告人：龚箭（江苏科技大学）

摘要：日常生活中的言语交流通常并非在绝对安静环境中进行。人们在噪声下将不自觉地调整自己产出语音的音高、响度、速率以及音节长度等声学参数，这就是隆巴德效应（Lombard Effect），因而噪声下产出的语音也被称之为隆巴德语（Lombard Speech）。研究表明，隆巴德语较安静条件下产出的语音有更高的可懂度（Intelligibility），尤其是在不利的听觉环境中（如噪声下）。然而先前相关研究中的目标语言多为西方语言，对汉语普通话的关注度不够；且被试多为年轻人，对老年群体的考察较少。
本研究以汉语为母语的老年人作为研究对象，考察他们在噪声下对汉语隆巴德语的感知情况，探讨隆巴德效应导致的语音声学变化对老年人噪声中言语接收阈值的影响。研究首先将录制一个由封闭式短句构成的汉语隆巴德语语音数据库。所谓封闭式短句指的是短句的结构固定为：人名+动词+数量词+形容词+名词。此数据库包含在80dB的言语形态噪声（Speech Shaped Noise）条件下产出的语音以及在安静条件下产出的语音。然后，将对比安静条件下产出的正常语音与隆巴德语在包括音高、响度、速率、音节长度、元音共振峰等声学参数上的不同。以老年人为对象的感知实验将采用二上一下的自适应方式动态调整信噪比，测量老年人对隆巴德语和正常语的言语接收阈值（Speech Reception Threshold），考察隆巴德效应导致的声学变化对老年人言语接收阈值的影响，检验隆巴德语是否能够带来可懂度的提高。

主题七第二届半监督智能语音与语言技术研讨会

内容简介：

半监督智能语音与语言技术，将半监督学习和智能语音语言技术进行有机结合，近年来备受关注并在快速发展中，在语音识别、语音生成、语音翻译、自然语言处理、人机对话系统等智能语音与语言技术领域发挥关键作用，具有广泛的应用前景。随着生成式人工智能（AIGC）的发展，半监督学习还在更复杂的任务中发挥重要作用，如音视频生成、虚拟主播、智能推荐等。
本次研讨会的目的是邀请来自学术界和工业界的研究人员，共同探讨半监督智能语音与语言技术的最新研究成果、未来发展方向和应用场景，促进学术界和产业界的合作，推动半监督智能语音与语言技术的研究和应用，为推动人工智能技术的发展做出贡献。

组织者：

张鹏远（中国科学院声学研究所）欧智坚（清华大学）

报告介绍：

报告1：基于检索增强的语音识别技术以及挑战性语音任务建设
报告人：秦勇（南开大学）

摘要：随着口语大语言模型(SLLMs)技术的飞速发展，语音识别技术日益成熟，一度被认为是一个“solved problem”。然而，在真实环境中，口音、混合语言、方言、说话方式等引起的数据分布差异对于语音识别系统依然是一个无法回避的挑战。针对特定领域进行数据采集并实施有监督微调虽然可以解决部分领域适配问题，但是代价大、周期长。无监督领域自适应适用于在线、低资源场景，借助语音大模型的上下文学习能力，约束搜索空间，可以以较低的成本为语音识别技术的性能带来显著提高。
为了进一步推动智能语音技术的发展，学术界和工业界也针对老年人语音、儿童语音、多模态交互和情感计算开展了大量的工作，南开大学携手智源研究院等多家研究机构，定义、采集、标注并开源了多个挑战性的任务数据集，共同推动智能语音技术研究的下一个十年的蓬勃发展。

报告2：Recent Advances in Machine Voiceprint for Robust Machine Anomalous Sound Detection
报告人：钱彦旻（上海交通大学）

摘要：Recently machine voiceprint and machine anomalous sound detection have received more and more interests from both academia and industry, and people want to design high-performance system in real applications. However, the progress of machine voiceprint lags far behind that of human voiceprint technology, and it is still very hard to develop robust machine voiceprint and machine anomalous detection systems under the real complex scenarios. In the past two years, SJTU-AudioCC Lab actively involved in this area and participated in DCASE challenges. They developed several useful technologies and won the 1st place in DCASE2024 and 2nd place in DCASE2023 for the machine anomalous sound detection task. This talk will mainly describe the recent progresses on Machine Voiceprint and Machine Anomalous Sound Detection, which are developed in SJTU-AudioCC Lab during the last two years. Detailed comparison and promising results will be given on some benchmark tasks.

报告3：基于自监督学习方法的声纹识别
报告人：李明（昆山杜克大学）

摘要：首先，介绍基于伪标签和多轮迭代方法的自监督声纹识别；然后，引入音视频联合自监督训练训练方法；其次，介绍利用ASR预训练的Conformer模型通过迁移学习和知识蒸馏进行说话人验证；最后，介绍基于自蒸馏和在线聚类的说话人表征预训练方法。

报告4：Towards Zero-shot MoE Speaker Adaptation of Speech Foundation Models for Dysarthric and Elderly Speech Recognition
报告人：刘循英（香港中文大学）

摘要：In recent years, speech foundation models have achieved state-of-the-art performance for many downstream speech processing tasks. Their application to medical speech domains, e.g., dysarthric and elderly speech, is confronted by data scarcity, large mismatch against typical speech and speaker level diversity. This talk presents our recent efforts on developing zero-shot mixture of experts (MoE) based speaker adaptation techniques for foundation models based dysarthric and elderly speech recognition systems. In the first approach, speech impairment severity and gender conditioned adapter experts are combined using on-the-fly predicted speaker-dependent routing parameters. In the second approach, top-K most distinctive speaker level prompt-expert clusters are dynamically combined using a router network. Experimental results on the English UASpeech dysarthric corpus, DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech datasets suggest that on-the-fly MoE-based adaptation produces statistically significant WER/CER reductions of 6.36%, 4.2% and 5.4% relative over the baseline fine-tuned HuBERT, WavLM and Whisper models. The lowest published WER of 16.35% (46.77% on very low intelligibility) is obtained on the UASpeech task. Real-time factor speed-up ratios of up to 16.12 times are obtained over offline batch-mode MoE adaptation.

报告5：Phonemes as Speech-Language Interface for Data-Efficient Multilingual and Crosslingual Speech Recognition
报告人：欧智坚（清华大学）

摘要：What is the interface between speech-language interface has been a fundamental and intriguing topic for a long time for AI research. Motivated by efficient factorization of human ear and brain, we speculate that modeling phonemes as an interface in the speech recognition pipeline, serving as an important prior constraint and inductive bias, can significantly reduce the problem complexity and improve the learning efficiency. This talk primarily presents our two recent works towards this direction.
1) A series of foundation acoustic models, called Whistle, for data-efficient multilingual and crosslingual speech recognition via weakly phonetic supervision.
2) Pronunciation-lexicon free training for phoneme-based crosslingual ASR via joint stochastic approximation (JSA). With only 10 minutes of phoneme supervision, the new method achieves 5% error rate reductions compared to the best crosslingual fine-tuning approach using subword or full phoneme supervision.

主题八复杂场景下的通用声音增强与分离

内容简介：

复杂声音场景下往往存在多个声源重叠、噪声种类繁多、声源位置不定等情况。这些特性要求声音增强和分离技术不仅要具备处理不同类型、动态变化的背景噪声的能力，还需要在复杂的声音源重叠与非语音噪声中提取出有用的目标声音信号。现有声音增强与分离技术往往假设只有一个主要声源、或者假设背景噪声是已知且静态的，无法适应复杂声音场景下的应用需求。此外，声音增强与分离技术，特别是基于深度学习的方法，往往依赖大量标注的训练数据。然而，复杂声音场景的多样性和不可预测性使得训练一个能够适应不同场景和噪声的高质量模型非常困难。对于不同的环境和噪声类型，现有模型的泛化能力可能不足，导致在实际应用中效果不佳。
本议题拟以约稿的形式，邀请该领域专家学者，分享复杂场景下的通用声音增强与分离技术的新进展。征稿内容主要包括：（1）基于多模态的声音定位与增强；（2）生成式语音增强；（3）多通道语音增强；（4）通用语音分离；（5）面向通用声音增强与分离任务的仿真与实采数据集构建。
期望通过本专题促进通用声音增强与分离技术的研究，以提升系统的鲁棒性和适应性，并能够推动各类应用领域的发展，为更智能的语音交互、环境感知系统提供支撑。

本项特殊议题征文截稿时间为2025年7月30日

组织者：

涂卫平（武汉大学）任延珍（武汉大学）杨玉红（武汉大学）

主题九开源论坛OASIS·开源音频语音处理分论坛

论坛内容：

OASIS·开源音频语音处理分论坛（Open-source Audio & Speech Intelligence Summit）将从以下方面展开：
    1. 技术前沿：邀请学界、业界聚焦语音理解与生成、音频生成与理解、音乐理解与生成等前沿领域进行主旨报告。
    2. 产业赋能：邀请产业界专家介绍开源社区平台在具体应用场景中的落地案例，分享工业级大规模数据构建与模型训练经验。
    3. 开源社区建设：邀请国内知名开源社区K2, WeNet以及Qwen语音技术社区运营团队分享社区概况与维护经验。
    论坛将以主旨报告+圆桌论坛的形式进行，共同探讨大模型时代学界、业界开源社区建设的机遇、挑战与发展方向。
    随着人工智能技术的蓬勃发展，语音与音频技术作为人机交互的核心入口，正深刻改变着人类社会的沟通方式与生活形态。本论坛将搭建语音、音频技术领域开源生态的交流平台，以技术交流为纽带，以开源创新为引擎，连接学术界、产业界，助力实现"技术创新驱动产业升级，开源协同赋能社会发展"的战略目标。

拟邀请嘉宾姓名，单位，职务：

张超，清华大学，助理教授

雪巍，⾹港科技大学，助理教授

Dan povey，小米，首席语⾳科学家

徐进：Qwen-omni 团队，负责人

谭旭，月之暗面语音团队负责人

刘树杰，MSRA，首席研究员

张彬彬，地平线公司，Wenet 社区发起人

组织者：

王帅，南京大学，副教授谢磊，西北工业大学，教授陈谐，上海交通大学，副教授

报告介绍：

报告1：共建开源新生态：新一代Kaldi社区运营与维护分享
报告人：匡方军

个人简介：匡方军，新一代 Kaldi 团队核心成员，长期深耕语音识别技术研发，在本地化应用落地与端侧部署优化方面拥有丰富实战经验。

报告摘要：本报告将分享新一代 Kaldi 团队在开源语音识别领域的建设经验，包括社区运营、用户支持与生态共建的实践。通过产学研协作、线上社群交流与活动组织，持续推动语音技术的普及与落地，探索开源社区的长期活力与协作模式。

报告2：拥抱开源：站在开源的肩膀上找科研问题
报告人：陈谐

个人简介：陈谐，上海交通大学计算机学院副教授、博士生导师，国家海外高层次人才（青年）。博士毕业于剑桥大学信息工程系，曾任剑桥大学博士后研究员、微软美国研究院高级研究员与资深研究员。主要研究方向为智能语音处理，涵盖语音理解、语音生成与语音交互。在国际权威会议与期刊发表论文100余篇。近三年主持的系列音频开源模型累计下载量超过1400万次，GitHub Stars超过1.5万，在学术界与工业界产生广泛影响。

报告摘要：本报告将分享团队近年在音频理解、生成与交互方向构建的一系列开源模型与研究成果。并结合个人科研思考，探讨在大模型时代如何依托开源模型与开放数据，以创新方式定义新的科研问题与应用场景，进一步拓展开源模型的能力边界，推动音频智能技术的开放与可持续发展。

报告3：WeNet开源社区最新进展
报告人：张彬彬

个人简介：张彬彬，硕士，毕业于西北工业大学。WeNet 社区发起人，曾在微软、出门问问、地平线等公司从事语音产品与算法研发。

报告摘要：本报告将介绍 WeNet 开源社区的最新进展，重点发布两个新数据集：WenetSpeech Yue 与 WenetSpeech Chuan，并推出新一代基于大语言模型（LLM）的全栈语音框架——west（We Speech Toolkit）。

报告4：OSUM 系列模型与对话技术新进展：开源成果与竞赛实践
报告人：谢磊

个人简介：谢磊，西北工业大学教授，博导。获得教育部"新世纪优秀人才支持计划"，陕西省青年科技新星、西安市青年科技奖等荣誉。研究兴趣为智能音频与语音处理技术，包括语音增强与分离、语音识别、语音合成、声纹识别、多模态处理等。在包括TASLP, ACL, Interspeech, ICASSP、ACM Multimedia 在内的重要期刊和会议上发表论文280余篇，带领团队多次获得学术会议最佳论文奖和多项国际评测前三名。谢磊教授当前担任IEEE语音和语言技术委员会（IEEE SLTC）委员、中国计算机学会语音听觉与对话专委会常务委员、NCMMSC常设机构副主席、IEEE高级会员、IEEE/ACM Transactions on Audio, Speech and Language Processing高级领域编委（SAE）等。

报告摘要：本报告将系统分享谢磊教授团队近期在音频理解与对话技术方向的最新研究进展及开源成果，核心内容包括：团队自主研发的 OSUM、OSUM-Echat 两款开源模型；全双工可插拔技术组件 easy turn；团队于 ICASSP 2026牵头组织的 “人机对话竞赛（humDial challenge）” 相关规划与背景介绍，为领域内同行提供技术参考与合作交流方向。

主题十人机语音交互中的多模态智能建模与个性化感知

内容简介：

  本议题旨在围绕近年来在多模态语音交互、个性化感知以及复杂场景下语音信号处理等方向的研究进展，集中展示本单位的最新研究成果。具体内容涵盖：
    1. 面向嘈杂环境的多声源音视频导航：针对现有视听导航多聚焦单声源场景的局限，构建了大规模多声源数据集 BeDAViN，并提出含声音事件描述器和多尺度场景记忆 Transformer的ENMuS3导航框架；（发表于AAAI2025）
    2. 神经辐射场在音频信号表征中的应用：基于Coordinate-MLP 的隐式神经表示在音频信号中应用不足的问题，构建了首个音频信号表示的Coordinate-MLPs 基准，提出 Fourier-ASR 框架，利用周期性和强非线性表示音频信号，并引入频率自适应学习策略优化高低频信号拟合；（发表于AAAI2025）
    3. 基于用户听觉偏好的个性化音频渲染方法：该研究针对个性化头相关传递函数（HRTF）建模中传统方法测量繁琐、现有数据驱动方法受限于数据集不一致性的问题，提出跨数据集个性化 HRTF 估计框架，通过方向感知自动编码器将稀疏测量的 HRTF 编码为统一潜在表示以支持跨数据集训练，并利用对比解耦策略分离数据集特定特征；
    4. 基于多模态语义线索的对话情绪原因抽取：针对现有方法未明确建模多模态对话中情绪和原因上下文语境的局限，提出了通过多模态异构图融合多尺度语义线索的情绪原因抽取方法，同时构建了首个多模态、多场景的对话情绪原因分析数据集MECAD。（发表于ACL Findings2025）
    5. 房间冲激响应的深度学习逆卷积与盲估计：旨在通过带混响语音提取房间冲激响应，以提供一种全新的低成本房间冲激响应测量方案。
    该议题设置的核心目的，是推动语音通讯领域在“多模态理解”“个性化建模”及“实际场景应用”三大方向的深度融合，为人机语音交互系统的智能化与普适性发展提供新的思路与技术支撑，也为学术界与产业界搭建更具前瞻性的交流平台。

组织者：

沈莹，同济大学，教授

报告介绍：

报告1：面向嘈杂环境的多声源音视频导航
报告人：师展博（同济大学）

摘要：近年来，音视频导航（Audio-Visual Navigation）受到了广泛的关注。然而，现有研究大多集中于单声源场景，对多声源场景的探索受阻于如下限制：其一，现有的声音事件数据集样本量有限，难以模拟多样化的多声源场景；其二，现有的导航框架主要针对单声源场景设计，其在多声源场景中的性能下降显著。为了克服上述问题，我们首先构建了针对音视频导航的声音事件数据集BeDAViN，其包含横跨24个声音事件类别、总时长10.8小时、总计2258条音频样本；其次，我们提出了面向多声源场景的具身导航框架ENMuS3，具体来说，该框架包含用于从多声源中提取目标声源空间与语义特征的目标描述子模块和用于在嘈杂环境中实现对目标声源高效追踪的多尺度场景记忆Transformer模块。在BeDAViN以及其他音视频导航数据集上的实验表明，ENMuS3在单声源和多声源场景下的导航性能均显著超过现有方法。

报告2：基于Fourier-KAN 的连续音频信号表征
报告人：李林飞（同济大学）

摘要：尽管基于坐标MLP的隐式神经表示在辐射场、3D形状和图像表征方面表现出色，但其在音频信号领域的应用仍待探索。为填补这一空白，我们对现有隐式神经表示进行了系统性研究，从中提取出3种位置编码方式和16种常用激活函数。通过组合设计，我们首次建立了坐标MLP在音频信号表征领域的基准测试体系。实验表明，坐标MLP需要复杂的超参数调优和频率依赖的初始化策略，这限制了其鲁棒性。为此，我们提出基于傅里叶级数定理和Kolmogorov-Arnold表示定理的新型框架Fourier-ASR。该框架通过傅里叶Kolmogorov-Arnold网络（Fourier-KAN）利用周期性和强非线性来表征音频信号，无需额外位置编码。我们还提出频率自适应学习策略（FaLS），通过捕捉高频分量并防止低频信号过拟合来提升Fourier-KAN的收敛性。在自然语音和音乐数据集上的大量实验表明：（1）精心设计的位置编码和激活函数能有效提升坐标MLP的音频表征质量；（2）Fourier-ASR无需复杂超参数调优即可鲁棒地表征复杂音频信号。展望未来，隐式音频表征的连续性和无限分辨率特性，使得本研究在音频压缩、合成与生成等任务中具有广阔前景。

报告3：基于多模态语义线索的对话情绪原因抽取
报告人：梁乔（同济大学）

摘要：多模态对话中的情绪因果三元组提取 (MECTEC) 近年来在社交媒体分析领域备受关注，旨在同时提取情绪话语、原因话语和情绪类别。然而，现有方法未能明确地建模情绪和原因上下文，并且忽略了不同层次语义信息的融合。对此我们提出了一个针对该领域的新方法，能够明确地捕捉情绪和原因上下文，通过多模态异构图有效融合话语间和话语内层面的上下文信息。同时，我们构建了首个多模态、多场景的 MECTEC 数据集 MECAD，涵盖了更加广泛的对话情境，进一步推动了多模态情感计算领域的发展。

报告4：基于深度学习逆卷积的房间冲激响应盲估计
报告人：陆嘉骐（同济大学）

摘要：房间冲激响应（RIR）在音频处理领域具有重要的地位，在语音识别、场景模拟、增强现实等众多问题下都有应用。为降低RIR的获取成本，许多基于深度学习的RIR估计方式已被提出。然而，它们仍然面临着输入信息复杂、无法针对真实场景等困难。其中，从带混响声音提取完整RIR的方案，能够有效避免上述问题。但是，目前少有致力于这类RIR盲估计任务的研究。为了填补这一领域的空缺，我们提出了Ricbe模型。该模型采用 “先去混响再逆卷积”的结构，将复杂的RIR盲估计任务分解为两个子任务。这一结构能够有效简化问题复杂程度，并充分利用语音增强领域的研究成果。同时，我们基于深度学习设计了逆卷积模型。在误差存在的情况下，它比传统的频域除法表现更好。基于RIR的物理意义，我们还设计了RIR能量衰减损失函数以提升预测结果在混响时间等声学参数上的准确性。实验表明，Ricbe模型在多分辨率短时傅里叶变换损失、1范数损失及混响时间准确性等关键指标上优于现有基线模型，展现出良好的应用潜力。

NCMMSC 2025 特殊议题征集（已截止）

第二十届全国人机语音通讯学术会议（NCMMSC 2025）将于2025年10月16-19日在江苏镇江举行。为促进专业领域沟通交流，现面向全国研究机构和企业征集特殊议题。
1. 组织形式
本届会议支持多种形式的特殊议题申请，包括：
（1）就某一前沿方向的约稿和报告（有论文，正常投稿）
（2）就某一具体问题的专家分享和讨论（无论文）
（3）高校、企业组织的本单位研究成果集中分享（可无论文）
（4）竞赛活动
（5）组织者与特殊议题主席沟通确定的其它形式
2. 申请方式
请填写申请信息（特殊议题申请表），通过邮件发送给特殊议题主席。申请书中包含以下内容：
（1）特殊议题组织者信息（含简介）；
（2）特殊议题的名称；
（3）特殊议题设置的目的和意义；
（4）报告信息（演讲者、标题和摘要），可暂定，报告人数不做硬性限制。
3. 申请及接受通知时间

特殊议题征集: 2025年2月20日
特殊议题征集截止日期：2025年5月20日2025年5月30日
特殊议题接受通知日期：2025年6月20日

4. 特殊议题主席联系方式
王东（清华大学） wangdong99@mails.tsinghua.edu.cn
张晓雷 (西北工业大学) xiaolei.zhang@nwpu.edu.cn

范存航 (安徽大学) cunhang.fan@ahu.edu.cn

特殊议题

主题一音色属性检测竞赛（NCMMSC2025-vTAD）

主题二中文连续视觉语音识别挑战赛（CNVSRC 2025）

主题三 2025 CCF先进音频技术竞赛

主题四 AI语音赋能生命健康：无障碍沟通与人机协同创新

主题五语音，情感与精神健康

主题六言语障碍人群汉语普通话的语音感知与产出

主题七第二届半监督智能语音与语言技术研讨会

主题八复杂场景下的通用声音增强与分离

主题九开源论坛OASIS·开源音频语音处理分论坛

主题十人机语音交互中的多模态智能建模与个性化感知

NCMMSC 2025 特殊议题征集（已截止）

会议地址

会议电话

会议邮箱

特殊议题

主题一 音色属性检测竞赛（NCMMSC2025-vTAD）

主题二 中文连续视觉语音识别挑战赛（CNVSRC 2025）

主题三 2025 CCF先进音频技术竞赛

主题四 AI语音赋能生命健康：无障碍沟通与人机协同创新

主题五 语音，情感与精神健康

主题六 言语障碍人群汉语普通话的语音感知与产出

主题七 第二届半监督智能语音与语言技术研讨会

主题八 复杂场景下的通用声音增强与分离

主题九 开源论坛OASIS·开源音频语音处理分论坛

主题十 人机语音交互中的多模态智能建模与个性化感知

NCMMSC 2025 特殊议题征集（已截止）

会议地址

会议电话

会议邮箱

主题一音色属性检测竞赛（NCMMSC2025-vTAD）

主题二中文连续视觉语音识别挑战赛（CNVSRC 2025）

主题五语音，情感与精神健康

主题六言语障碍人群汉语普通话的语音感知与产出

主题七第二届半监督智能语音与语言技术研讨会

主题八复杂场景下的通用声音增强与分离

主题九开源论坛OASIS·开源音频语音处理分论坛

主题十人机语音交互中的多模态智能建模与个性化感知