主题一:中文连续视觉语音识别挑战赛CNVSRC 2024
内容简介:
视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了 CN-CVS 数据集,成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。
为推动这一研究方向的发展,清华大学联合北京邮电大学、海天瑞声和语音之家举办第二届中文连续视觉语音识别挑战赛 (CNVSRC 2024, Chinese Continuous Visual Speech Recognition Challenge)。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。相较于第一届 CNVSRC 2023,本届 CNVSRC 2024 提供了更强大的固定赛道基线系统以及可用于开放赛道的额外数据集 CN-CVS2-P1。本特殊议题将公布比赛成绩,并邀请优秀队伍分享技术创新与实践经验。
组织者:
王东/清华大学 李蓝天/北京邮电大学
主题二:共享语音平等:构音障碍语音识别的创新解决方案
内容简介:
构音障碍者的语音特征是由于运动缺陷导致的言语受损,主要由诸如脑瘫、帕金森病、肌萎缩性侧索硬化和中风等病症引起。根据病因原因,构音障碍患者可能会表现出不同程度的言语问题,如语速减慢、发音不准确、不合理的停顿和清晰度下降。构音障碍患者的语言表达对他们的社交和人机交互(HCI)提出了挑战。特别是,传统的自动语音识别系统往往难以识别构音障碍者的语音。尽管自动语音识别技术取得了长足的进步,但即使是性能最好的自动语音识别系统也无法满足语音受损者的需求。作为社会交流和智能人机交互的基础,构音障碍语音的识别至关重要。
构音障碍者的语音由于不同程度的严重性或不同的病因而存在显著的变异性,需要自适应建模方法。而专为构音障碍人士设计的构音障碍语音识别系统可以极大地改善他们的生活,成为日常生活的必备工具。对构音障碍者如何更好地与他人交流,如何回归社会进行研究是一个有社会价值、有人文关怀的工作。我们将在本次会议上以专家分享和讨论的形式探讨构音障碍语音的研究进展和未来方向。同时,我们将举办一个构音障碍语音识别挑战赛,并在本次会议上进行讨论总结,给相关领域的研究者提供灵感与研究思路。
组织者:
王甦菁/中国科学院心理研究所 杜俊/中国科学技术大学
主题三:民族地区儿童国家通用语言的语音研究
内容简介:
语言文字是文化传承的载体,是国家繁荣发展的根基。语言文字也是人工智能、大模型等尖端科技得以应用和发展的基石。民族地区、农村和边远地区仍是我国国家通用语言推广普及的“短板”,也是人工智能技术包括语音技术应用的薄弱地区。大力加强民族地区学龄前儿童国家通用语言教育是未来工作的重点之一,而开展民族地区儿童国家通用语言的语音的基础和应用研究,是新时代发挥科学和科技助推语言文字事业发展的重要工作。
本议题关注的议题包括:
(1)民族地区儿童国家通用语言的语音资源建设;
(2)民族地区儿童国家通用语言的语音和认知发展研究;
(3)民族地区儿童国家通用语言的语音产出与感知研究;
(4)民族地区儿童国家通用语言的语音识别技术与语音合成技术;
(5)民族地区儿童国家通用语言的发音评测技术。
组织者:
李爱军/中国社会科学院语言所
主题四:基于大模型提示工程的线索语视频生成与识别研究
内容简介:
自动线索语识别与生成主要用于智能无障碍人机交互。其中线索语编码系统利用唇型和手势对发音的编码来辅助听障人群无障碍交流。基于我们首次提出的中文线索语系统,对于线索语识别,我们最近提出了一种基于参数高效低秩Transformer的跨模态互学习框架以促进多模态交互。与传统方法相比,我们的模型通过模态无关字典表示来编码不同模态的模态特定信息,从而得到多模态共同表征的语言信息。对于线索语生成,我们提出了一种思维链提示学习的线索语视频扩散生成框架,利用大语言模型和提示工程来捕捉文本描述与手势特征的复杂解析关系,提高生成的姿态视频的准确性和鲁棒性。此外,我们构建了首个大规模多人中文线索语视频数据集。我们的方法在不同语种的线索语数据集(中文、法语和英语)上取得了最佳的识别和生成性能。
组织者:
刘李/香港科技大学(广州)
主题五:基于脑与类脑听觉的语音信息处理及其应用
内容简介:
人脑的听觉系统具有强大的听觉感知能力,可以在复杂声学场景中只关注自己感兴趣的语音,同时忽略其他声音的干扰,这一现象被称为“鸡尾酒会问题”。现阶段智能语音交互技术很难达到类人水平,语音交互技术在复杂开放环境中表现不佳,制约着语音交互产品的推广应用。因此,让机器拥有类人的听觉处理功能,提升智能语音交互技术的鲁棒性具有重要的理论意义和应用价值。
本特殊议题论坛将重点关注近期基于脑与类脑听觉的语音信息处理新方法和新应用,以探索人脑的听觉注意机制、理解和提升复杂场景中听觉感知技术鲁棒性为目标,受邀分享的报告主题包括但不限于:听觉注意力解码、基于神经生理信号的语音信息解码和重构、类脑听觉智能语音处理方法等。
组织者:
范存航/安徽大学 张结/中国科学技术大学
主题六:第二届多语言智能语音语言技术研讨会
内容简介:
多语言智能信息处理是语音处理和自然语言处理领域共同面对的问题。新疆处于‘一带一路’核心区,沿线国家和地区多语言使用场景使得新疆本地在该领域的研究具有得天独厚的特色和优势。“多语言智能语音语言技术研讨会”于2023年9月在南宁首次举办。本次作为第二届研讨会将作为特殊议题与NCMMSC2024共同举行。本次研讨会将汇聚来自疆内外计算机技术、人工智能等相关专业的专家,围绕多语言智能语音语言技术,包括多语言大模型自然语言处理、机器翻译、语音识别等领域的多语言问题进行学术研讨,推动多语言智能语音语言技术的发展,为国内学者们提供交流平台,提升学术共同体水平。
组织者:
黄浩/新疆大学 欧智坚/清华大学
NCMMSC 2024 特殊议题征集(已截止)
第十九届全国人机语音通讯学术会议(NCMMSC 2024)将于2024年8月15-18日在新疆乌鲁木齐举行。为促进专业领域沟通交流,现面向全国研究机构和企业征集特殊议题。
1. 组织形式
本届会议支持多种形式的特殊议题申请,包括:
(1)就某一前沿方向的约稿和报告(有论文,正常投稿)
(2)就某一具体问题的专家分享和讨论(无论文)
(3)高校、企业组织的本单位研究成果集中分享(可无论文)
(4)组织者与特殊议题主席沟通确定的其它形式
2. 申请方式
请填写申请信息(特殊议题申请表),通过邮件发送给特殊议题主席。申请书中包含以下内容:
(1)特殊议题组织者信息(含简介);
(2)特殊议题的名称;
(3)特殊议题设置的目的和意义;
(4)报告信息(演讲者、标题和摘要),可暂定,报告人数不做硬性限制。
3. 申请时间
请申请人于2024年6月1日前将申请信息提交给特殊议题主席讨论确认。
4. 特殊议题主席联系方式
王 东(清华大学) wangdong99@mails.tsinghua.edu.cn
李爱军(社科院语言所) liaj@cass.org.cn
袁家宏 (中国科技大学) jiahongyuan@ustc.edu.cn
张华平 (北京理工大学) Kevinzhang@bit.edu.cn
黄 浩 (新疆大学) huanghao@xju.edu.cn