特殊议题-2023年第十八届全国人机语音通讯学术会议

特殊议题

特殊议题一：半监督智能语音语言技术

Seminar on Semi-Supervised Speech and Language AI Technologies

议题简介

半监督智能语音语言技术，将半监督学习和智能语音语言技术进行有机结合，近年来备受关注并在快速发展中，在语音识别、语音生成、语音翻译、自然语言处理、人机对话系统等智能语音语言技术领域具有广泛的应用前景。随着生成式人工智能（AIGC）的发展，半监督学习还在更复杂的任务中发挥重要作用，如音视频生成、虚拟主播、智能推荐等。

本次研讨会的目的是邀请来自学术界和工业界的研究人员，共同探讨半监督智能语音语言技术的最新研究成果、未来发展方向和应用场景，促进学术界和产业界的合作，推动半监督智能语音语言技术的研究和应用，为推动人工智能技术的发展做出贡献。

组织者简介

欧智坚，清华大学电子工程系副教授、博士生导师、它思科技联合创始人。研究方向是人工智能语音语言技术、机器智能（特别是概率图模型理论及应用）。担任IEEE音频语音语言期刊（TASLP）副主编，Computer Speech & Language编委，IEEE语音语言技术委员会（SLTC）委员，IEEE言语技术（SLT）2021大会主席，EMNLP2022半监督和强化对话系统研讨会主席，中国计算机学会（CCF）杰出会员及语音对话与听觉专委会委员，中国声学学会（ASC）语言声学与听觉分会委员等。发表论文近百篇，获得省部级奖3项及多次国内外优秀论文奖。近期工作主要在能量模型及其应用，高可靠大模型对话系统及其半监督学习等。

协同组织者基本信息

张鹏远，中国科学院声学研究所研究员、博士生导师，中国科学院大学岗位教授。现任中国科学院声学研究所语音与智能信息处理实验室主任，研究领域主要包括大词汇量连续语音识别与理解、深度语音合成与鉴伪、丰富音频检测等。担任国际语音通讯学会（INTERSPEECH2019/2020）领域主席，ACM Multimedia ADD 2022程序委员会委员，中国计算机协会（CCF）语音对话与听觉专委会委员，中国人工智能学会人工智能与安全专业委员会委员等。在国内外权威期刊以及顶级学术会议上已发表100余篇学术论文，指导获得全国人机语音通讯学术会议第十六届“最佳论文奖”以及第十七届”最佳学生论文奖“等。近3年获得10次国际国内音频领域比赛冠亚军；曾获得公安部科技进步二等奖（2022），中国专利优秀奖（2021），北京市科技进步二等奖（2019），中国科学院杰出科技成就奖（2014）等。

报告1：语音识别中的半监督学习范式思考

报告人：颜永红，中国科学院声学研究所首席科学家

摘要：语音识别模型的性能依赖于训练数据规模的大小，由于获取有标注数据的时间成本和经济成本较高，如何利用无标注数据进行语音识别模型的半监督优化成为极具应用价值的研究问题。已有的半监督语音识别技术研究主要包含伪标签训练和自监督预训练两条路线，本报告将简要介绍语音识别半监督训练的基本范式，回顾发展历史与现状，分享伪标签训练中处理伪标签错误的技巧、利用非平行语音文本数据进行自监督预训练的方法、以及在跨领域场景下进行语音识别半监督训练的方案。

报告2：Large-Scale Foundation Model for Speech Generation

报告人：Wei-Ning Hsu (徐煒甯)，Meta Fundamental AI Research (FAIR) Research Scientist / Audio Generation Team Lead

摘要：

Large-scale generative models such as GPT and DALL-E have revolutionized natural language processing and computer vision research. These models not only generate high fidelity text or image outputs, but are also generalists which can solve tasks not explicitly taught. In contrast, speech generative models are still primitive in terms of scale and task generalization.

In this talk, I will give an overview on the recent progress on building large scale foundation models for speech generation and contrast them against conventional speech generation models that struggle to model in the wild data. In particular, I will provide a deep dive into our recent work, Voicebox. It is the most versatile text-guided generative model for speech at scale. Voicebox is a non-autoregressive flow-matching model trained to infill speech, given audio context and text, trained on over 50K hours of speech that are neither filtered nor enhanced. Similar to GPT, Voicebox can perform many different tasks through in-context learning, but is more flexible as it can also condition on future context. Voicebox can be used for mono or cross-lingual zero-shot text-to-speech synthesis, noise removal, content editing, style conversion, and diverse sample generation.

报告3：大规模语言模型的领域探索——以法律场景为例

报告人：冯岩松，北京大学王选计算机研究所副教授

摘要：大规模语言模型（LLMs）已在通用领域展现了惊人的语言理解和生成能力，但在特定专业领域中发挥LLMs语言运用能力的探索却相对较少，可供借鉴的经验不多。本报告将以法律场景为例着重介绍如何基于法律文本资源强化通用大语言模型在法律咨询场景中的表现，主要包括法律知识注入、领域技能的习得以及场景化法律知识运用等几个方面的内容。

报告4：零样本跨语言语音合成与翻译

报告人：刘树杰，微软亚洲研究院首席研究员

摘要：随着大语言模型在自然语言处理中的应用，语音大语言模型也逐渐受到更多关注。在本报告中，我们将介绍基于大语言模型的零样本语音合成技术，即VALL-E。VALL-E利用了大语言模型在上下文学习方面的能力，仅需使用未知说话人的三秒录音作为音频提示，即可生成高质量的个性化语音。此外，我们还进一步将VALL-E扩展为VALL-E X，实现了高质量的跨语言语音合成，显著减轻了外语口音的问题。通过利用大语言模型技术，我们成功将语音识别、机器翻译和语音生成整合到一个模型中，实现了高质量的零样本语音到语音的翻译。

特殊议题二：语音交流中的神经生理信号解码及其应用

议题简介

随着人口老龄化的趋势加重，患有言语交流障碍的人数显着增加，这些障碍对个体的身心健康产生不利影响。在过去的几十年里，通过先进的生理系统建模和生物医学信号（尤其是以语音信号为代表）分析等技术，人们更好地理解了言语交流障碍的潜在科学和临床机制。同时，先进神经生理信号处理技术（如脑电等）的快速发展为言语交流障碍的诊断、治疗和康复提供了有效的方法。

然而，该方向的研究工作迫切需要开发适当的分析方法来应对言语交流障碍过程中信号处理、建模、应用等方面的挑战，例如从多模态信号中提取特征、客观生物标志物检测等。

本特殊议题论坛的目的是分享近期的创新算法及其在神经生理信号处理中的应用，以理解和解决言语交流障碍的挑战，相关报告的主题包括：语音交流过程中的生物医学信号的特征提取和模式识别，用于评估言语交流障碍的自动分析技术，例如从生物医学信号中检测客观生物标志物，基于生物医学信号实时反馈的人机界面系统等。

组织者简介

陈霏，南方科技大学电子与电气工程系教授，于南京大学电子系毕业获本科、硕士学位，香港中文大学电子工程系毕业获博士学位，其后在美国德州大学达拉斯分校进行博士后研究工作，在香港大学言语与听觉科学部担任研究助理教授，2014年底加入南方科技大学。陈霏博士的研究方向包括言语识别和助听技术、脑机接口技术、生物医学信号处理等，目前是IEEE Senior Member，美国声学学会Full Member，担任深圳人工智能学会理事、中国计算机学会语音对话与听觉专委会委员，在<美国声学学报>等国际期刊发表了逾100余篇期刊文章，目前担任国际学术期刊副主编，亚太信号与信息处理学会的杰出讲师（Distinguished Lecturer），担任Interspeech2023、Interspeech2022、Interspeech2020、EUSIPCO2022 、APSIPA2021、APSIPA2019等国际会议的tutorial speaker。

协同组织者简介

张结，中国科学技术大学电子工程与信息科学系副研究员，IEEE/CCF/声学学会会员、CCF语音对话与听觉专委会委员，2020年获得荷兰代尔夫特理工大学(TU Delft)博士学位。主要从事语音识别、语音增强、助听器、分布式麦克风阵列等研究，近五年主持国家自然科学基金、中科院战略先导C类专项子课题、合肥市自然科学基金、国家重点实验室开放基金等项目6项。在语音领域国内外学术期刊和会议上发表论文60余篇（包括一作/通讯作者IEEE汇刊22篇、语音领域顶会ICASSP/Interspeech 17篇等），带领团队获得IWSLT23语音翻译比赛离线和方言赛道2项冠军、IJCAI23-DeepFake伪造语音检测比赛冠军、ASRU23-M2Met2.0多方会议场景多说话人语音识别比赛受限赛道第三名、L3DAS23-ICASSP23声音事件定位赛道亚军、DiCOVA-ICASSP22新冠声音诊断语音和融合赛道2项冠军及呼吸赛道亚军、NIST-OpenASR21多语种语音识别比赛15个语种22项冠军，申请/授权国家发明专利10项，2018年获得IEEE信号处理协会旗舰会议SAM最佳论文奖。

报告1：EEG-based Multi-class Auditory Attention Decoding of Attended Speaker Direction

报告人：卢晶，南京大学教授

摘要：Decoding the directional focus of an attended speaker from listeners’ electroencephalogram (EEG) signals is an important part of a practical brain-computer interface device aimed at improving the quality of life for individuals with hearing impairments. Existing researches focus on binary directional focus decoding, i.e., determining whether the attended speaker is on the left or right side of the listener. However, the information brought by the binary decoding to the subsequent speech processing algorithm is limited in practical applications, and more precise decoding of the exact direction of the attended speaker is desired. In this talk, we present a new dataset with 15 alternative speaker directions and demonstrate the feasibility of multi-class directional focus decoding of attended speakers by applying our recently proposed learnable spatial mapping (LSM) module.

报告2：EEG-based auditory attention decoding with audiovisual speech for hearing-impaired listeners

报告人：陈婧，北京大学研究员

摘要：Auditory attention decoding (AAD) was used to determine the attended speaker during an auditory selective attention task. However, the auditory factors modulating AAD remained unclear for hearing-impaired (HI) listeners. In this study, scalp EEG was recorded with an auditory selective attention paradigm, in which HI listeners were instructed to attend one of the two simultaneous speech streams with or without congruent visual input (articulation movements), and at a high or low target-masker-ratio (TMR). Meanwhile, behavioral hearing tests (i.e., audiogram, speech reception threshold, temporal modulation transfer function) were used to assess listeners’ individual auditory abilities. The results showed that both visual input and increasing TMR could significantly enhance the cortical tracking of the attended speech and AAD accuracy. The further analysis revealed that the audiovisual (AV) gain in attended speech cortical tracking was significantly correlated with listeners’ auditory amplitude modulation (AM) sensitivity, and the TMR gain in attended speech cortical tracking was significantly correlated with listeners’ hearing thresholds. Temporal response function analysis revealed that subjects with higher AM sensitivity demonstrated more AV gain over the right occipitotemporal and bilateral frontocentral scalp electrodes.

报告3：Sparse EEG Channel Selection for Brain-Assisted Speech Enhancement

报告人：张结，中国科学技术大学副研究员

摘要：Brain-assisted speech enhancement (SE) has gained an increasing attention recently, as electroencephalogram (EEG) measurements somehow reflect auditory attention clues. The design of an EEG cap with sparse channel distributions can save the hardware cost, setup time as well as algorithmic complexity, which can be done by EEG channel selection, as it was shown that the multichannel EEG signals are highly correlated and redundant. In this talk, we will present an end-to-end EEG channel selection method based on a weighted residual structure, called Residual Gumbel Selection (ResGS), for the neuro-steered SE task. The use of residual connections can lead to a more efficient and stable training procedure. The proposed ResGS consists of the weighted residual training and fine-tuning steps. Experimental results on a public dataset validate the efficacy of the proposed method in channel selection and show that a small subset of channels is enough to achieve a near-optimal performance.

报告4：解码汉语发音想象及其脑机接口应用

报告人：陈霏，南方科技大学教授

摘要：发音想象脑机接口（brain computer interfaces，BCI）使运动障碍患者能够以自然、用户友好的方式将他们的想法和意图传达给外界，在医学康复和神经工程领域具有广阔的应用前景。本报告介绍了基于功能性近红外成像（fNIRS）的异步BCI系统检测简化的发音器官运动想象，和基于fNIRS的元音和汉语声调想象解码模型，该模型利用简化的发音器官运动想象信息解码4个想象的元音和汉语声调；最后，为了提高基于fNIRS的言语想象BCI的分类性能，介绍新的发音想象实验范式，可以使不同想象任务之间的神经活动更加具有区分性，从而显著提高基于fNIRS的发音想象脑机接口的解码性能。

报告5：Graph Self-Distillation for EEG-Based Auditory Spatial Attention Detection

报告人：范存航，安徽大学副教授

摘要：Auditory attention detection (AAD) aims to detect the attended speaker from electroencephalography (EEG) signals in a multi-talker acoustic environment. Although AAD methods have acquired quite good performance in recent years, existing methods do not make full use of the spatial information of EEG. To address this issue, this paper proposes an AAD method called Graph Self-Distillation (GSD), which does not require auditory stimuli as input. Specifically, Graph Convolutional Network (GCN) are capable of effectively capturing and utilizing the spatial dependencies between EEG electrodes, enabling the extraction of spatial feature information. Nevertheless, as GCN layers progressively shift their focus from local to global spatial features, using only the deepest GCN layer for classification may result in the loss of some local information. To tackle this, self-distillation is employed to balance the spatial features between the deepest layer and the other shallower layers, thereby enhancing the spatial resolution of the model. Our experiments are conducted on two publicly available datasets, KUL and DTU. In a 1s time window, the results on KUL and DTU are 90.3% and 79.6% respectively. The experimental results indicate that the method proposed in this paper not only outperforms the current state-of-the-art method but also has approximately 100 times fewer trainable parameters.

报告6：听声辨位——基于脑电的空间听觉注意检测

报告人：白艳茹，天津大学副教授

摘要：复杂声学环境中言语识别对于我们有效沟通交流至关重要。人耳可以从复杂的声学环境中提取特定声源并定位其位置，这一现象通常被称为“鸡尾酒会效应”，但这种感官表现的神经基础在很大程度上无法解释。近些年，脑机接口技术的发展为探索空间选择性注意的神经基础提供了新的技术手段。本报告将介绍基于脑电技术探索空间听觉注意检测的神经机制，通过设计不同复杂声学环境下空间听觉注意检测实验范式，从多维度探索空间听觉注意检测的神经电生理效应。结果表明，复杂声学环境下空间听觉注意对应特异性时-频-空脑电特征指标，且脑网络分析显示听觉内外皮层的抑制过程在空间选择性注意和背景噪声的抑制中起决定性作用，这些发现为增强或评估空间听觉注意检测能力提供了重要参考，为开发复杂环境下高效语音交流工具提供了新的思路。

特殊议题三：多模态识别竞赛

议题简介

竞赛背景：

视觉语音识别，也称唇语识别，是通过口唇动作来推断发音内容的技术，在公共安全、助老助残、视频验证等方面都有重要应用。目前唇语识别的研究方兴未艾，在短语识别上取得了长足进展，但对于大词表连续视觉信号来说，依然面临极大挑战。特别是对于中文，因缺少相关数据资源，研究进展受到很大制约。2023年，清华大学发布了CNCVS数据集，成为首个大规模中文音视频多模态数据库，为进一步推动大词表连续视觉识别（LVCVSR)提供了可能。

为拓展这一重要的研究方向，清华大学联合北京邮电大学、海天瑞声、语音之家在 NCMMSC 2023举办中文连续视语音识别挑战赛（CNVSR）。主办方将以CNCVS音视频多模态数据集为基础数据，测试在录音室（Studio）和演讲（Speech)两个场景下的LVCVSR系统的性能。

任务设置：

任务目标是唇语识别，根据谈话面部无声视频，识别其所说的文本内容，不包含任何音频信号作为输入
任务一：多说话人唇语识别
任务二：单说话人唇语识别

训练数据：
视频中仅包含说话者的单张人脸
音频中仅包含说话人的语音信号
文本的语种为汉语，内容为日常对话、演讲、新闻播报

测试数据：

仅包含视频数据，包含说话者的单张人脸

组织者简介

李科，海天瑞声董事，副总经理，首席运营官。作为AI数据开拓者之一，深耕AI数据行业十余年，海天瑞声为全球800多家AI企业提供AI数据解决方案。李科毕业于清华大学，电子系获得硕士学位，加入海天瑞声之前，任职于IBM中国技术开发中心。

2023年NCMMSC特殊议题论坛申请指南（已截止）

2023年第十八届全国人机语音通讯学术会议（NCMMSC 2023）将于2023年12月8-11日在江苏苏州举行。会议期间将设置特殊议题论坛，旨在增强各个专业领域话题交流，主要范围包括：语音、音频、对话等领域的前沿技术交流，特别是基础性、交叉性研究方向，以及热点话题的综合性研讨。本届特殊议题论坛以研讨会形式组织，将采用灵活的投稿形式，采用引导式报告、圆桌论坛、听众互动等形式，围绕特殊议题进行深入的讨论，碰撞出思维上的火花。

现诚邀全国各位高校和企业界同仁踊跃申请特殊议题，为了提升特殊议题论坛的质量，特殊议题申请需要包含以下内容：

1. 特殊议题组织者的信息（单位和邮箱）和简介，每个特殊议题组织者可以不限于一位；

2. 特殊议题的名称；

3. 特殊议题的简介（包括议题设置的目的和意义等）；

4. 至少4篇特邀论文的作者、标题和摘要（可暂定）；

特殊议题申请者需下载申请表并填写以上内容，并于2023年8月31日前，提交给大会特殊议题主席讨论确定。

NCMMSC2021特殊议题主席

- 王东（清华大学）

邮箱：wangdong99@mails.tsinghua.edu.cn

- 朱璇（三星电子中国研究院）

邮箱：xuan.zhu@samsung.com

申请表下载

特殊议题

会议地址

会议电话

会议邮箱