青年论坛报告嘉宾
张世磊
报告人简介:张世磊博士,中国移动研究院人工智能与智慧运营中心语音技术负责人,多媒体信息处理全国重点实验室听觉内容分析技术负责人,中关村试听产业技术创新联盟第三届理事会理事。2007年博士毕业于中国科学院自动化研究所,主要研究方向为语音识别、音频信息处理及通用人工智能技术。2009 年获得国家自然科学研究系列电子信息专业副研究员高级职称。曾任IBM中国研究院9级首席科学家、IBM美国沃森研究中心访问研究员。研究领域主要包括语音识别、语音合成、声纹识别、音频分析、多模态识别等,在ICASSP、INTERSPEECH、IJCAI、Neural Networks、IEEE SPL等重要学术会议和期刊上发表论文70余篇。
报告题目:体系化AI下的语音技术研究
报告摘要:针对日趋泛在的智能化需求和智能化技术赋能成本高之间的矛盾,中国移动提出一个新的人工智能技术框架——体系化人工智能(HolisticAI, HAI),其依托泛在的网络和人工智能算力资源,在开放环境中实现对人工智能模型及能力进行灵活且高效的配置、调度、训练和部署。本报告将介绍,在体系化AI框架下,我们进行的语音领域技术更新及相关领域的体系化训练,包括设计了一种离散化表征方法,及基于此的语音多任务大模型-PolySpeech;为了提升模型在不同任务中的重复利用率,我们提出基于生成模型的模型蒸馏技术,实现基于大模型到小模型的派生;基于能量函数的模型评估方法;业界首个基于百万说话人声纹库的声纹基础表征模型;以及基于神经网络结构搜索的多任务一体化训练方案。
张雯
报告人简介:张雯,西北工业大学航海学院教授/博士生导师,国家级青年人才,澳大利亚研究理事会优秀青年基金获得者,曾任职澳大利亚联邦科学与工业研究组织、澳大利亚国立大学工程与计算机学院,现就职于西北工业大学“智能声学与临境通信研究中心”。主要研究方向为语音与声信号处理、双耳听觉与空间声。主持参与国内外国家级项目包括国家自然基金面上、重点项目,科技部科技创新类项目、澳大利亚研究理事会ARC Discovery/Linkage项目等10余项。在领域顶级期刊及会议上(TASLP、JASA 、ICASSP等)发表论文80余篇,担任国际音频工程学会杂志(JAES)副主编。
报告题目:基于数据的空间音频处理
报告摘要:随着虚拟现实和增强现实技术的迅猛发展,空间音频处理已成为多媒体技术研究的一个重要方向。空间音频处理的主要目的是创造一种沉浸式的听觉体验,使得用户能够感知声源在三维空间中的位置及所处声学环境。数据驱动方法在这一领域中展现出了巨大的潜力,特别是在声源定位、声场重建和个性化听觉体验的开发上。本报告首先介绍空间音频的基本概念以及其重要性,随后深入探讨目前基于数据的处理技术,以及这些技术在实际应用中面临的挑战,并展望未来的发展方向。
温正棋
报告人简介:温正棋,启元实验室副研究员。主要研究方向智能信息处理,先后负责和参与了国家级项目(863计划、国家自然科学基金、科技部重点研发计划)和企业级项目20余项,在包括IEEE TASLP、Speech Communication、ICASSP、Interspeech等国内外学术重要期刊和会议上发表论文90余篇,申请国内发明专利20余项。研究成果获得中国人工智能学会吴文俊特等奖、天津市科技进一等奖、中国电子学会科技进步一等奖、北京市科技进度二等奖和北京市专利发明一等奖。研究成果应用在军队、公安、网信、工信等安全部门以及腾讯、百度、华为等四十余家公司。
报告题目:从数据驱动到意图导向的语音生成方法研究
报告摘要:近年来随着深度学习技术、数据量以及计算资源的不断发展,基于数据驱动的语音生成方法在合成质量上已经达到了以假乱真的地步,在个性化模拟上也突破了目标说话人语料质和量的限制。然而在面对具有明显目标意图的音频生成技术还缺乏有效的引导手段。本报告首先介绍团队在个性化语音合成上面的研究成果,包括在声学模型和声码器上的研究工作;其次,研究语音生成任务中对目标任务的理解以及如何生成引导策略;最后,通过融合大小模型的推理方法完成目标意图导向音频的生成。
张俊博
报告人简介:张俊博,小米声学语音技术专家。博士毕业于中国科学院声学研究所,多年从事声学语音算法和应用研发。在语音识别、发音评测、语音合成、音频标记、声音分离和降噪等领域都做过深入的工作,在期刊和顶级会议发表论文30余篇,著有图书《Kaldi 语音识别实战》。曾主持开发并上线了小米最初的语音识别、“小爱同学”唤醒和声纹识别系统,目前在小米负责若干项声音领域新技术的研发。
报告题目:面向通用任务的基于大规模数据自监督预训练的声音基础模型
报告摘要:近来,大语言模型正在从文本模态迅速扩展到声音、视频等多个模态,即向多模态大模型方向演化。和传统的单一任务模型不同,多模态大模型具备任务处理的通用性,这要求多模态大模型的音频处理单元也应具备处理多种音频任务的通用能力。为了探索对声音各任务模型的统一,本报告介绍 Dasheng (Deep Audio-Signal Holistic Embeddings),一个面向通用下游任务的声音基础模型,它既适合作为多模态大模型的音频处理单元,又能够通过低训练量的适配而被应用于特定的下游音频任务。本报告也将介绍一种称为一致性集成蒸馏(Consistent Ensemble Distillation)的模型蒸馏技巧,可用于在较低资源的场景下部署模型,或未来用于实现类似以 GPT-4o 为代表的多模态单一模型(Single Model)架构。
吴锡欣
报告人简介:Xixin Wu is currently an Assistant Professor at the Department of Systems Engineering and Engineering Management, The Chinese University of Hong Kong. Before this, he worked as a Research Associate at the Department of Engineering, University of Cambridge. Xixin has participated as a research team leader/key member in various international challenges, and his teams have been awarded First Prize in the INTERSPEECH 2020 Shared Task on Automatic Speech Recognition for Non-Native Children’s Speech, First Prize in the ACII 2022 Affective Vocal Bursts Recognition Competition (as Team Leader), First Prize in the ACL 2022 DialDoc Shared Task, and Second Prize in the IEEE ICASSP 2022 Multi-channel Multi-party Meeting Transcription Challenge (M2MeT). He is first author of a paper that received the Shenzhen Excellent Science & Technology Academic Paper Award 2022 and co-author of a paper that received the Best Paper Award from the IEEE International Conference on Robotics and Biomimetics 2022. Xixin has published some 90 academic papers in top journals and conferences, e.g., IEEE/ACM Transactions on Audio, Speech, and Language Processing, Transactions on Affective Computing, ICML, ACM MM, AAAI, ICASSP and INTERSPEECH, etc. His research has been supported by several research funds, including National Natural Science Foundation of China Young Scientists Fund, Hong Kong General Research Fund, and Tencent AI Lab Rhino Bird Fund, etc.
报告题目:AI for Assistive Communication: Disordered Speech Reconstruction Using Speech Language Models
报告摘要:Dysarthria is a common form of speech disorders associated with neurological disturbances during the muscular control of the machinery for speech production. Dysarthria can be caused by a few neurological conditions, e.g., Parkinson’s disease, stroke, and cerebral palsy, etc. Dysarthria generally results in low-intelligibility speech that affects the communication of the subjects with dysarthria and significantly degrades their life quality. Dysarthric speech reconstruction (DSR) that aims to convert dysarthric speech into normal-sounding speech is among the most effective assistive communication technologies. In this talk, we will share our recent exploration on DSR powered by speech language models, specifically addressing the challenge of scarce dysarthric speech data. Additionally, we have found that leveraging multimodal information shows great promise in further enhancing DSR performance. We will also present some existing research problems for future investigation.
刘瑞
报告人简介:刘瑞,内蒙古大学计算机学院 研究员,蒙古文智能信息处理国家地方联合工程研究中心成员。2020年于内蒙古大学计算机学院获得博士学位(导师:高光来教授),2019-2020年于新加坡国立大学攻读国家留学基金委联合培养博士研究生(导师:李海洲教授),2020年-2022年在新加坡国立大学从事博士后研究(导师:李海洲教授)。近年来担任2023年语音领域顶级会议ICASSP分会主席(Session Chair);2022年、2023年全国人机语音通讯学术会议(NCMMSC)工业联络主席;2024年亚洲自然语言处理国际会议(IALP2024)程序委员会主席。担任中国计算机学会语音对话与听觉专委会执行委员、中国人工智能学会青年工作委员会委员、中国中文信息学会 民族语言文字信息专业委员会委员、中国人工智能学会元宇宙技术委员会委员等。主要研究方向包括语音合成、多模态人机对话等,研究成果发表于IEEE/ACM TASLP、IEEE-TAC、Neural Networks和AAAI、ICASSP、InterSpeech等相关领域顶级期刊和会议。
报告题目:面向自然人机对话的语音合成技术
报告摘要:语音合成技术旨在将任意文本转换为与真人发音接近的合成语音。近几年,基于深度学习技术的语音合成方法取得显著进步,在自然度、表现力和拟人化方面取得显著进展。然而,随着大语言模型技术尤其是GPT-4o等模型的迅猛发展,面向自然人机对话的语音合成技术逐渐受到越来越多学者的关注。本报告将围绕对话场景语音合成技术面临的难点与挑战,介绍基于深度学习技术尤其是大语言模型技术在对话语音合成场景中的前沿进展,以及最新研究成果。
连政
报告人简介:连政,中国科学院自动化研究所多模态人工智能系统全国重点实验室助理研究员。2016年本科毕业于北京邮电大学通信工程专业。同年9月保送到中国科学院自动化研究所攻读博士学位,师从陶建华教授。研究领域包括人机交互、情感识别等方向。相关成果获得第十六届全国人机语音通讯学术会议最佳论文奖;中国电子学会技术发明一等奖;获授权国际专利和国内专利十余项;多次获得国际多模态情感识别挑战赛冠军。
报告题目:多模态情感识别+大模型
报告摘要:随着GPT-4o的出现,情感化人机交互技术受到越来越多研究者的关注,而多模态情感识别是实现情感化人机交互的前提。本次报告将围绕我们团队最近在多模态情感识别方向的工作展开,包括我们最近联合清华大学、帝国理工、奥鲁大学、南洋理工等机构,发布了汉语多模态情感识别数据库,并围绕该数据库在ACM MM 和 IJCAI 上连续两年组织了多模态情感识别挑战赛MER和研讨会MRAC;建立了多模态情感识别的评估基准MERBench;较早评估了多模态大模型在多模态情感理解上的能力和局限GPT4V with Emotion;提出了可靠、可信、可解释的情感识别问题,旨在消除情感标签的模糊性EMER。
青年论坛征集提案(已截止)
热烈欢迎各位青年专家和学者提交涵盖会议议题领域的青年论坛提案,特别是与会议主题紧密相关以及涉及新兴和前沿话题的提案。
青年论坛报告将持续2小时,中间包括10-20分钟休息时间,并将在会议技术议程之前进行。每项被接受的青年论坛报告,讲授者都必须在会场亲自进行讲授。
提案指南
青年论坛报告提案应包含以下关键信息:
1、论坛报告题目;
2、论坛报告摘要;
3、讲授者姓名、联系方式、个人简介(包括照片)。
论坛报告提案将根据上述信息进行评审,选定的报告信息将在会议网页上公布。
论坛报告提案提交请通过电子邮件发送至青年论坛主席邮箱:
欧智坚: |
|
努尔麦麦提·尤鲁瓦斯: |
重要时间
提交截止:2024年5月31日
录用通知:2024年6月3日