教程报告

教程报告1:Speaker Representation Learning: Theories, Applications and Practice

报告人:王帅 韩

 

报告人简介:

王帅,上海交通大学博士,现任深圳市大数据研究院语音语义实验室研究科学家。在此之前,他曾任腾讯光子工作室高级研究员,主要从事服务于腾讯游戏的语音合成、语音转换、音频检索等方面的研究与落地工作。在语音领域发表语音领域顶级会议及期刊论文四十余篇,并荣获了IEEE Ganesh N. Ramaswamy Memorial奖以及VoxSRC2019, DIHARD2019说话人相关竞赛的冠军。他是开源说话人表征学习工具 wespeaker 的发起人和主要贡献者。

韩冰,目前在上海交通大学计算机系攻读博士学位,师从钱彦旻教授。其主要研究领域为说话人识别,已在ICASSP、Interspeech等国际语音领域会议上发表多篇学术论文,并在CNSRC2023和VoxSRC2023的说话人相关赛道上分别取得了第一和第三名的成绩。此外,他也是开源说话人表征学习工具wespeaker的主要贡献者之一。

报告摘要:本报告旨在深入阐述说话人表征学习的基础理论及主流方法,其中涵盖了常规的有监督方案、自监督方案以及基于预训练模型的策略。同时,我们也将针对说话人表征学习的鲁棒性和高效性等关键研究话题进行探讨。进一步的,我们将介绍说话人表征在多个相关任务中的应用以及定制策略,包括说话人识别、说话人日志、语音生成以及目标说话人提取等。最后,我们将以wespeaker工具包为例,并从更贴近工业界实际需求、更偏实践的角度进行介绍。

教程报告2:语音预训练

报告人:刘树杰

 

报告人简介:刘树杰,微软亚洲研究院首席研究员和研究经理,2012年博士毕业于哈尔滨工业大学。2012年加入微软亚洲研究院,从事自然语言处理、语音处理以及机器学习相关工作。在自然语言处理和语音处理各顶级期刊和会议上发表论文100余篇,并合著《机器翻译》一书,参与编写《人工智能导论》一书。获得国际自然语言和语音处理评测比赛多项第一。担任多个国际会议审稿人及领域主席。其研究成果被广泛应用于Microsoft Translator、Skype Translator、Microsoft IME和微软语音服务等微软重要产品中。

报告摘要:随着预训练模型在自然语言处理和图像处理中的进展,语音预训练模型也越来越受到重视。基于预训练模型的语音处理方法在多个任务上也取得了突破性的进展。在本报告中,我们将分别介绍三种不同的预训练模型,基于编码器的预训练模型,基于编码器-解码器框架的预训练模型和完全基于解码器的预训练模型。前两种预训练模型主要应用于语音识别和语音理解相关的任务,而完全基于解码器的语言模型则主要应用于高质量的语音生成任务。在此基础上进一步探讨预训练方法在语音处理领域未来的研究方向。

教程报告3:语音可懂度客观评估技术

报告人:陈霏

报告人简介:陈霏,南方科技大学电子与电气工程系教授,于南京大学电子系毕业获本科、硕士学位,香港中文大学电子工程系毕业获博士学位,2014年底加入南方科技大学。陈霏博士的研究方向包括言语识别和助听技术、脑机接口技术、生物医学信号处理等,目前是IEEE Senior Member,美国声学学会Full Member,担任深圳人工智能学会理事、中国计算机学会语音对话与听觉专委会委员,在<美国声学学报>等国际期刊发表了逾100余篇期刊文章,目前担任国际学术期刊副主编,亚太信号与信息处理学会的杰出讲师(Distinguished Lecturer),担任Interspeech2023、Interspeech2022、Interspeech2020、EUSIPCO2022、APSIPA2021APSIPA2019等国际会议的tutorial speaker。

报告摘要语音可懂度(speech intelligibility)是语音交流研究中的一项重要内容,也是语音增强、心理声学等研究的必要指标,对于设计语音编码方案、可懂度客观评估等研究有重要的指导意义,本报告将介绍语音可懂度相关的心理声学基础,语音可懂度客观评估的模型(包括非侵入式评估模型、基于机器学习的评估方法等),以及相关近期研究成果。

教程报告4:Building the Singing Voice Foundation Model

报告人:雪巍

报告人简介:雪巍目前是香港科技大学新兴跨学科领域学部的助理教授。本科(2010)及博士(2015)先后毕业于华中科技大学及中科院自动化所。2015年至2018年于帝国理工学院任玛丽居里资深研究员及助理研究员。2018年11月至2021年12月于京东AI研究院任高级研究员。2022年1月至2023年4月于香港浸会大学计算机科学系任助理教授。曾在法国土伦大学及比利时鲁汶大学访问研究。雪巍的研究兴趣为语音和音乐智能,包括AI音乐生成,语音增强和分离,空间声学,以及语音和音频事件识别。曾入选北京海外人才计划,获港府及科技部多项基金资助。香港最大艺术科技项目“香港人机共生艺术创造平台技术建设”及Inno HK“香港生成式人工智能中心建设”中音频及音乐相关子课题负责人。

报告摘要:我们构建了歌唱基础大模型,实现跨性别、语种、音域、零资源、快速生成的歌声合成。和传统需要数小时训练数据及曲目固定的AI歌手不同,本模型可以支持歌词及曲调修改,仅使用几十秒数据即可达到唱任意新歌曲的效果,实现歌声合成而非简单转换。本报告将介绍一系列支撑技术,包括表征学习、基于NAS-FM的音色合成器、CoMoSpeech声学建模、ZSinger等。