内容简介:
NCMMSC2025-VtaD挑战赛以语音信号中携带的话者音色信息为对象,关注音色的可解释性,为此构建音色属性检测(Voice Timbre Attribute Detection,VtaD)任务。该任务旨在辨认两句语音中的话者在音色属性上是否存在特定的强弱差异,其中,音色属性指听者通过听觉感知系统,借助语言对话者音色感知进行的描述,如明亮、粗糙、圆润等。本挑战赛由中国科学技术大学和香港理工大学共同发起,以促进对语音中话者音色属性的研究,进而推动相关领域的发展。本挑战赛的详细信息请参看https://vtad2025-challenge.github.io/。
组织者:
陈丽萍/中国科学技术大学 Kong Aik Lee/香港理工大学 凌震华/中国科学技术大学
内容简介:
视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。为推动这一研究方向的发展,清华大学联合北京邮电大学、海天瑞声和语音之家举办第三届中文连续视觉语音识别挑战赛 (Chinese Continuous Visual Speech Recognition Challenge, CNVSRC 2025)。本次赛事以CN-CVS中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的LVCVSR系统的性能。这是该竞赛系列的第三次组织。相较于CNVSRC 2023和CNVSRC 2024,CNVSRC 2025提供了更强大的基线系统和更多开源数据(总计1500小时),并增设了唇语到语音转换 (Visual to Speech, VTS)赛道。
组织者:
王东/清华大学 李蓝天/北京邮电大学 李科/北京海天瑞声科技股份有限公司
内容简介:
议题以“AI语音赋能生命健康”为主题,期望达到以下目的:(1)推动生命健康领域的AI技术转化:聚焦人工智能在医疗咨询、健康监测、紧急响应等场景中的无障碍沟通技术创新,开发可解释、可信赖的交互系统,助力慢性病管理、老龄化护理及突发公共卫生事件应对;(2)突破关键场景技术瓶颈:针对医疗场景中的多模态感知(如手语、眼动、脑机接口)、低资源环境下的小样本学习、隐私敏感数据安全交互等挑战,探索大模型轻量化、联邦学习与边缘计算的前沿解决方案;(3)构建跨学科协作生态:搭建医学、计算机科学、认知科学的多领域对话平台,促进临床需求与AI技术的高效对接,推动从实验室到病房的快速转化;(4)伦理与普惠性保障:制定AI健康交互的伦理准则,确保技术覆盖城乡差异群体,避免算法偏见导致的健康不平等。
该特殊议题的设立具有以下重要意义:(1)技术创新价值:发展基于联邦学习的分布式健康监测系统,实现隐私保护下的个性化健康预警(如癫痫发作预测、抑郁症情绪识别);(2)社会健康价值:提升弱势群体(听障、语障、认知障碍患者)的医疗可及性,据WHO统计,全球超15亿人因沟通障碍无法获得充分医疗服务。通过AI辅助诊断与远程康复指导,降低基层医疗资源压力,推动“健康中国2030”战略落地;(3)伦理与产业价值:建立医疗AI交互的透明性标准(如可解释性可视化、用户可控数据共享),响应《生成式人工智能服务管理暂行办法》要求。孵化医疗机器人、智能辅具等新兴产业,预计至2030年全球市场规模将超3000亿美元(Grand View Research数据)。
组织者:
刘李(香港科技大学(广州)) 吴锡欣(香港中文大学)
燕楠(中科院先进技术研究院) 王甦菁(中国科学院心理研究所)
报告介绍:
摘要:轻度认知障碍(MCI)是痴呆的早期阶段,识别MCI可有助于对认知损伤患者进行早期干预,延缓认知损害进程。然而,当前MCI诊断存在认识不足、筛查方法局限等问题,使之就诊率极低,迫切需要一种快速、无损、多环境适应的筛查方法。语言障碍是MCI的重要临床表征之一,且与其病程发展各阶段密切相关。因此,分析AD语音的变异信息将为AD早期筛查、诊断提供重要信息。然而,当前尚未找到高敏感性、高特异性地反映AD语言神经信息传导损伤的语音特征集。因此,本项目拟从行为和脑功能的角度出发,探索AD患者对言语加工过程的影响以及敏感性指标,提出基于多任务言语功能评估方法、MCI自发语音的韵律特征提取方法和基于多任务深度学习的建模方法等,构建了MCI认知障碍的语音评估模型,可以有效的、自动对MCI患者进行筛查,筛查准确率不低于90%,从而为开发可用于普通话的MCI认知障碍的早期自动筛查系统,使之能为认知障碍的早期筛查方法,提供快速、非侵入性的辅助诊断依据打下良好的研究基础。
内容简介:
随着语音信号处理和情感计算技术的不断突破,语音已不仅仅是交流的媒介,更成为感知人类情绪与心理状态的重要窗口。语音中所蕴含的情感线索为精神健康状态的识别与干预提供了新思路,尤其在抑郁、焦虑、自闭症谱系障碍等精神心理问题的辅助诊断和智能干预中展现出巨大潜力。该议题聚焦情感语音合成技术与情感建模在精神健康场景中的前沿进展,旨在推动多模态信号分析、情绪识别、人机交互与临床应用之间的交叉融合。
本议题将邀请国内外该领域的专家学者,共同探讨语音信号在精神健康评估中的新范式,重点关注可解释性建模、小样本学习、多模态融合、跨文化情感表达、以及面向实际应用的系统集成等关键问题。我们期望通过本专题促进语音与心理健康研究的深度结合,推动情感智能技术在医疗、教育与社会关怀等场景中的落地转化,为建设具有温度的人机交互系统奠定基础。
罗兆杰(东南大学) 宗源(东南大学)
报告介绍:
摘要:当前情感识别在复杂环境中仍面临标注稀缺、表达细微等挑战。相比传统依赖语音、文本与面部信息的方法,基于可穿戴设备采集的生理信号如皮肤电导与心率,具备难以伪装、易于采集和高度情感相关性的优势,成为更具潜力的情感感知途径。本研究聚焦于在低标注、弱监督条件下提升生理信号驱动的情感识别精度,通过设计交互友好的标签采集方式、引入心理理论建模情感状态,并结合小样本学习策略,实现对用户细粒度情感变化的精准捕捉。本报告将介绍团队在细粒度情感识别中的探索与成果,并探讨生理信号驱动下的情感计算新路径。
内容简介:
据WHO统计,全球约7%人口存在言语障碍,其中涉及了听障、腭裂、自闭等常见的病理因素。另外,随着人口老年化的加剧,老年性听力损失也会导致言语交流障碍。本议题将组织语言学领域的专家和研究人员,从跨学科的角度,分享其对我国言语障碍人群汉语普通话语音感知和产出的研究。
从语言学的角度设计实验,探究言语障碍人群对音段和超音段的听辨能力,并分析其语音产出的声学特征,发掘不同类型病征的言语障碍人群语音感知和产出的模式,既能为语言康复训练提出意见和建议,又可以为计算机识别言语障碍人群的特殊语音提供基础数据,助力言语障碍人群融入智能社会。
陈莹(南京理工大学) 龚箭(江苏科技大学)
报告介绍:
摘要:人工耳蜗技术帮助中重度听力障碍的儿童重塑听力,并获得一定的语言和社交能力。然而,对于这些儿童而言,准确地理解复杂的交际意图仍然困难重重,其中,对于反语(Irony)的理解就是一个典型代表。反语是一种常用的交际手段,其表达的含义与其字面意义相反。要理解反语,儿童需要通过语境信息来推测说话人想表达的意思,这需要一定的心智理论。然而,对于人工耳蜗儿童而言,早期的言语剥夺导致其心智理论发展滞后,最终致使其理解反讽的困难。
尽管如此,日常言语交际时,听话者既可以听见说话人的语音韵律特征,也可以看见说话人发音时的面部表情。研究发现,汉语的反语表达具有特定的韵律和表情信息。对于正常听力儿童而言,即使他们不能够借助语境信息来理解反语,他们也可以借助这些韵律和表情信息进行反语理解。因此,我们提出两个问题:(1)人工耳蜗儿童是否可以利用韵律和表情线索来更好地理解反语?(2)如果可以,利用这两种线索是否需要以拥有心智理论为前提?本研究招募了52名3-7岁的人工耳蜗儿童和52名3-7岁的听力正常儿童(控制组)。实验材料包括12个反语故事。实验任务为:(1)一阶和二阶的心智理论测试;(2)在“仅语境线索”、“语境+韵律线索”、“语境+韵律+表情”线索3种条件下进行反语理解(说话人的信念和态度)。
研究结果表明,对于两组儿童而言,“仅语境线索”条件下反语理解正确率最低,“语境+韵律线索”条件下正确率显著提高,而“语境+韵律+表情”线索条件下正确率显著高于前两者。这说明,与听力正常儿童相似,人工耳蜗儿童可以使用韵律和表情线索更好地理解反语。此外,研究结果还表明,无论儿童有没有通过心智理论测试,其均能利用额外的韵律和表情线索显著提高反语理解,说明使用这些线索并不需要以拥有心智理论为前提。
摘要:腭裂儿童产出的口鼻塞音在发音方式(manner of articulation,MOA)、嗓音起始时间(voice onset time,VOT)和发音位置(place of articulation,POA)上均存在偏误。腭裂语音损失还与外周听力损失和中枢听觉障碍密切相关。本研究通过三个实验探讨以下三个问题:1、中国腭裂儿童与典型发育儿童产出的汉语普通话口鼻塞音有无差异?2、中国腭裂儿童与典型发育儿童对汉语普通话口鼻塞音的感知有无差异?3、外周听力和中枢听觉功能是否影响腭裂儿童对汉语普通话塞音的感知?
本研究的被试总共包括17名腭裂小童(3岁2个月–9岁)、16名腭裂大童(9岁2个月–16岁11个月)、17名典型发育小童和16名典型发育大童。腭裂儿童和典型发育儿童在年龄、性别和语言背景上一一匹配。所有儿童均为汉语普通话母语者。实验一产出普通话中位于音节首的口鼻塞音和鼻音韵尾。实验二听辨在MOA、VOT和POA三个方面存在对立的普通话口鼻塞音。实验三探讨听觉障碍对腭裂儿童感知汉语普通话口鼻塞音的影响。
结果表明,腭裂儿童的塞音产出偏误不仅源于生理结构缺陷,还可能由感知偏误导致;而腭裂儿童的语音感知偏误不仅受外周听力损失影响,也可能是中枢听觉障碍造成的。因此,建议采用肌动-语音训练与语言-音系训练相结合的方法(Alighieri等,2020;Bessell等,2013;Kummer,2011;Nachmani等,2022),对腭裂儿童进行语音康复训练;同时,建议尽早对腭裂儿童进行常规听力评估,不仅要持续跟踪外周听力水平,更要关注中枢听觉功能。
摘要:关于语义内容如何影响孤独症谱系障碍(ASD)儿童的情绪韵律感知,目前仍存在争议。本研究通过系统操纵汉语双音节词中的语义信息(假词、语义中性词、语义-韵律一致情绪词、语义-韵律冲突情绪词)来探讨语义复杂性对汉语ASD儿童情绪韵律感知的潜在调节作用。
研究招募了24名ASD儿童和22名典型发展(TD)儿童完成两项情绪韵律识别任务。结果发现,ASD组在韵律线索与词汇线索共同作用时,受到逐步增加的语义复杂性影响更为显著。具体而言,中性语义对ASD组的识别准确率影响较小,而当情绪词中出现语义与韵律不一致时,对其识别造成了显著的不利影响。此外,感知混淆矩阵结果显示,ASD组儿童已经开始发展出类似于TD组儿童的情绪韵律识别模式。ASD组表现较差的原因可能源于抑制语义干扰的发展迟缓,而非情绪特异性缺陷。
摘要:人类可以将连续的语音信号感知为离散的音位范畴,即范畴感知,这是人类言语感知的一个重要特征,也是言语理解中不可或缺的一环。前人研究表明老龄化带来的听力和认知能力衰退会影响范畴感知,但较少研究对不同年龄段的老年人群体间的差异进行探讨。在汉语普通话中,过渡音征是一种重要的音段音位特征,其频率信息变化快速,可用于区分辅音发音位置。因此本研究旨在探讨不同年龄段的老年人对普通话过渡音征的范畴感知。
本研究借助经典的范畴感知范式,对比了来自北方官话区的20-30岁年轻人、60-65岁及75-80岁健康老人对过渡音征(bā-dā连续统)的辨认和区分表现。统计结果表明,60-65岁老年组与年轻成人组在辨认和区分能力上没有显著区别,但75-80岁老年组的范畴感知边界宽度、范畴间区分正确率都与年轻成人组、60-65岁老年组有显著区别,且75-80岁老年组的范畴间区分正确率与其听力水平存在显著的负相关。由此可见,60-65岁老人仍然保持了较为完好的过渡音征感知能力,但75-80岁老人的过渡音征辨认和区分能力都出现了明显衰退,且其区分能力的衰退可能是由听力衰退导致的。
摘要:日常生活中的言语交流通常并非在绝对安静环境中进行。人们在噪声下将不自觉地调整自己产出语音的音高、响度、速率以及音节长度等声学参数,这就是隆巴德效应(Lombard Effect),因而噪声下产出的语音也被称之为隆巴德语(Lombard Speech)。研究表明,隆巴德语较安静条件下产出的语音有更高的可懂度(Intelligibility),尤其是在不利的听觉环境中(如噪声下)。然而先前相关研究中的目标语言多为西方语言,对汉语普通话的关注度不够;且被试多为年轻人,对老年群体的考察较少。
本研究以汉语为母语的老年人作为研究对象,考察他们在噪声下对汉语隆巴德语的感知情况,探讨隆巴德效应导致的语音声学变化对老年人噪声中言语接收阈值的影响。研究首先将录制一个由封闭式短句构成的汉语隆巴德语语音数据库。所谓封闭式短句指的是短句的结构固定为:人名+动词+数量词+形容词+名词。此数据库包含在80dB的言语形态噪声(Speech Shaped Noise)条件下产出的语音以及在安静条件下产出的语音。然后,将对比安静条件下产出的正常语音与隆巴德语在包括音高、响度、速率、音节长度、元音共振峰等声学参数上的不同。以老年人为对象的感知实验将采用二上一下的自适应方式动态调整信噪比,测量老年人对隆巴德语和正常语的言语接收阈值(Speech Reception Threshold),考察隆巴德效应导致的声学变化对老年人言语接收阈值的影响,检验隆巴德语是否能够带来可懂度的提高。
内容简介:
半监督智能语音与语言技术,将半监督学习和智能语音语言技术进行有机结合,近年来备受关注并在快速发展中,在语音识别、语音生成、语音翻译、自然语言处理、人机对话系统等智能语音与语言技术领域发挥关键作用,具有广泛的应用前景。随着生成式人工智能(AIGC)的发展,半监督学习还在更复杂的任务中发挥重要作用,如音视频生成、虚拟主播、智能推荐等。
本次研讨会的目的是邀请来自学术界和工业界的研究人员,共同探讨半监督智能语音与语言技术的最新研究成果、未来发展方向和应用场景,促进学术界和产业界的合作,推动半监督智能语音与语言技术的研究和应用,为推动人工智能技术的发展做出贡献。
张鹏远(中国科学院声学研究所) 欧智坚(清华大学)
报告介绍:
摘要:随着口语大语言模型(SLLMs)技术的飞速发展,语音识别技术日益成熟,一度被认为是一个“solved problem”。然而,在真实环境中,口音、混合语言、方言、说话方式等引起的数据分布差异对于语音识别系统依然是一个无法回避的挑战。针对特定领域进行数据采集并实施有监督微调虽然可以解决部分领域适配问题,但是代价大、周期长。无监督领域自适应适用于在线、低资源场景,借助语音大模型的上下文学习能力,约束搜索空间,可以以较低的成本为语音识别技术的性能带来显著提高。
为了进一步推动智能语音技术的发展,学术界和工业界也针对老年人语音、儿童语音、多模态交互和情感计算开展了大量的工作,南开大学携手智源研究院等多家研究机构,定义、采集、标注并开源了多个挑战性的任务数据集,共同推动智能语音技术研究的下一个十年的蓬勃发展。
摘要:Recently machine voiceprint and machine anomalous sound detection have received more and more interests from both academia and industry, and people want to design high-performance system in real applications. However, the progress of machine voiceprint lags far behind that of human voiceprint technology, and it is still very hard to develop robust machine voiceprint and machine anomalous detection systems under the real complex scenarios. In the past two years, SJTU-AudioCC Lab actively involved in this area and participated in DCASE challenges. They developed several useful technologies and won the 1st place in DCASE2024 and 2nd place in DCASE2023 for the machine anomalous sound detection task. This talk will mainly describe the recent progresses on Machine Voiceprint and Machine Anomalous Sound Detection, which are developed in SJTU-AudioCC Lab during the last two years. Detailed comparison and promising results will be given on some benchmark tasks.
摘要:首先,介绍基于伪标签和多轮迭代方法的自监督声纹识别;然后,引入音视频联合自监督训练训练方法;其次,介绍利用ASR预训练的Conformer模型通过迁移学习和知识蒸馏进行说话人验证;最后,介绍基于自蒸馏和在线聚类的说话人表征预训练方法。
摘要:In recent years, speech foundation models have achieved state-of-the-art performance for many downstream speech processing tasks. Their application to medical speech domains, e.g., dysarthric and elderly speech, is confronted by data scarcity, large mismatch against typical speech and speaker level diversity. This talk presents our recent efforts on developing zero-shot mixture of experts (MoE) based speaker adaptation techniques for foundation models based dysarthric and elderly speech recognition systems. In the first approach, speech impairment severity and gender conditioned adapter experts are combined using on-the-fly predicted speaker-dependent routing parameters. In the second approach, top-K most distinctive speaker level prompt-expert clusters are dynamically combined using a router network. Experimental results on the English UASpeech dysarthric corpus, DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech datasets suggest that on-the-fly MoE-based adaptation produces statistically significant WER/CER reductions of 6.36%, 4.2% and 5.4% relative over the baseline fine-tuned HuBERT, WavLM and Whisper models. The lowest published WER of 16.35% (46.77% on very low intelligibility) is obtained on the UASpeech task. Real-time factor speed-up ratios of up to 16.12 times are obtained over offline batch-mode MoE adaptation.
摘要:What is the interface between speech-language interface has been a fundamental and intriguing topic for a long time for AI research. Motivated by efficient factorization of human ear and brain, we speculate that modeling phonemes as an interface in the speech recognition pipeline, serving as an important prior constraint and inductive bias, can significantly reduce the problem complexity and improve the learning efficiency. This talk primarily presents our two recent works towards this direction.
1) A series of foundation acoustic models, called Whistle, for data-efficient multilingual and crosslingual speech recognition via weakly phonetic supervision.
2) Pronunciation-lexicon free training for phoneme-based crosslingual ASR via joint stochastic approximation (JSA). With only 10 minutes of phoneme supervision, the new method achieves 5% error rate reductions compared to the best crosslingual fine-tuning approach using subword or full phoneme supervision.
内容简介:
复杂声音场景下往往存在多个声源重叠、噪声种类繁多、声源位置不定等情况。这些特性要求声音增强和分离技术不仅要具备处理不同类型、动态变化的背景噪声的能力,还需要在复杂的声音源重叠与非语音噪声中提取出有用的目标声音信号。现有声音增强与分离技术往往假设只有一个主要声源、或者假设背景噪声是已知且静态的,无法适应复杂声音场景下的应用需求。此外,声音增强与分离技术,特别是基于深度学习的方法,往往依赖大量标注的训练数据。然而,复杂声音场景的多样性和不可预测性使得训练一个能够适应不同场景和噪声的高质量模型非常困难。对于不同的环境和噪声类型,现有模型的泛化能力可能不足,导致在实际应用中效果不佳。
本议题拟以约稿的形式,邀请该领域专家学者,分享复杂场景下的通用声音增强与分离技术的新进展。征稿内容主要包括:(1)基于多模态的声音定位与增强;(2)生成式语音增强;(3)多通道语音增强;(4)通用语音分离;(5)面向通用声音增强与分离任务的仿真与实采数据集构建。
期望通过本专题促进通用声音增强与分离技术的研究,以提升系统的鲁棒性和适应性,并能够推动各类应用领域的发展,为更智能的语音交互、环境感知系统提供支撑。
本项特殊议题征文截稿时间为2025年7月30日
组织者:
涂卫平(武汉大学) 任延珍(武汉大学) 杨玉红(武汉大学)
论坛内容:
OASIS·开源音频语音处理分论坛(Open-source Audio & Speech Intelligence Summit)将从以下方面展开:
1. 技术前沿:邀请学界、业界聚焦语音理解与生成、音频生成与理解、音乐理解与生成等前沿领域进行主旨报告。
2. 产业赋能:邀请产业界专家介绍开源社区平台在具体应用场景中的落地案例,分享工业级大规模数据构建与模型训练经验。
3. 开源社区建设:邀请国内知名开源社区K2, WeNet以及Qwen语音技术社区运营团队分享社区概况与维护经验。
论坛将以主旨报告+圆桌论坛的形式进行,共同探讨大模型时代学界、业界开源社区建设的机遇、挑战与发展方向。
随着人工智能技术的蓬勃发展,语音与音频技术作为人机交互的核心入口,正深刻改变着人类社会的沟通方式与生活形态。本论坛将搭建语音、音频技术领域开源生态的交流平台,以技术交流为纽带,以开源创新为引擎,连接学术界、产业界,助力实现"技术创新驱动产业升级,开源协同赋能社会发展"的战略目标。
拟邀请嘉宾姓名,单位,职务:
张超,清华大学,助理教授
雪巍,⾹港科技大学,助理教授
Dan povey, 小米,首席语⾳科学家
徐进:Qwen-omni 团队 ,负责人
谭旭,月之暗面 语音团队负责人
刘树杰,MSRA,首席研究员
张彬彬,地平线公司,Wenet 社区发起人
组织者:
王帅,南京大学,副教授 谢磊,西北工业大学,教授 陈谐,上海交通大学,副教授