教程报告

大会报告嘉宾


Shuai Wang                                Yanmin Qian

          


报告人简介:

    Shuai Wang (Member, IEEE) received his PhD from Shanghai Jiao Tong University (2020). He is a tenure-track associate professor at Nanjing University and holds adjunct positions at the Shenzhen Research Institute of Big Data (SRIBD) and the Chinese University of Hong Kong, Shenzhen (CUHK-SZ). He has published over 60 papers on speaker modeling and was recipient of the IEEE Ramaswamy Grant at ICASSP 2018 and winner of VoxSRC 2019 and DIHARD 2019. He is the initiator of the open-source projects “WeSpeaker” and “WeSep”. 

    Yanmin Qian (Senior Member, IEEE) received the B.S. degree from the Department of Electronic and Information Engineering, Huazhong University of Science and Technology and the Ph.D. degree from the Department of Electronic Engineering, Tsinghua University. Since 2013, he has been with the Department of Computer Science and Engineering, Shanghai Jiao Tong University, where he is currently a Full Professor. He has authored or coauthored more than 300 papers in peer-reviewed journals and conferences on speech and language processing. He was the recipient of several awards from international research committee, including the Best Paper Award in Speech Communication and Best Paper Award from IEEE ASRU in 2019.

报告题目:

    Deep Speaker Modeling: Theories, Applications and Practice

报告摘要:   

    Speaker modeling technologies have demonstrated tremendous value across diverse application scenarios, extending far beyond traditional speaker recognition, including speech synthesis, voice conversion, target speaker speech processing. These applications pose novel requirements for the accuracy, robustness, and explainability of speaker representations. This tutorial aims to systematically introduce the latest advancements in speaker modeling and their applications across diverse scenarios, providing researchers and engineers with a comprehensive technical perspective.


张洁


报告人简介:

    张结,中国科学技术大学信息科学技术学院副教授,依托语音及语言信息处理国家工程研究中心主要研究分布式麦克风阵列语音信号处理、类脑听觉言语增强与理解及其在车载、家居、助听器等场景中的应用。在国内外知名学术期刊和会议上已发表高水平学术论文80余篇(包括第一/通讯作者IEEE Transactions论文20篇、人工智能与语音技术领域顶会论文40余篇),论文发表获信号处理领域旗舰会议2018年IEEE-SAM最佳论文奖,带领团队获得语音技术领域重要国际学术竞赛冠军6项,获2023年中国产学研合作创新成果优秀奖,主持国家自然科学基金、中科院先导C类专项课题、安徽省重大科技攻关专项课题等重要项目。现为电气电子工程师学会高级会员、中国计算机学会(CCF)和声学学会会员、CCF语音对话与听觉专委会执行委员,担任语音技术领域顶刊IEEE Transactions on Audio, Speech and Language Processing (TASLPRO)和信号处理顶刊Elsevier Signal Processing的副编辑(Associate Editor),担任全国人机语音通讯学术会议(NCMMSC2022)组委会主席、NCMMSC特殊议题联合主席(2023&2024)、语音对话与听觉处理前沿进展研讨会(RASDAP2024)学术秘书等。

报告题目:

    分布式麦克风阵列拾音理论与方法

报告摘要:   

    经过数十年的发展,麦克风阵列技术日益成熟,并广泛应用于视频会议、智能电视、移动通话、助听器等人机交互系统。然而,现实噪声或远距离交互场景中,限定阵型结构的传统麦克风阵列的拾音质量难以保证。随着无线智能终端设备的广泛使用,分布式麦克风阵列(或称无线声传感器网络)为提升复杂开放域语音交互系统的拾音质量提供了更多可能性,并在阵列组织、应用体验和声场覆盖度上更有优势。近年来,分布式麦克风阵列在很多语音交互任务上展现出良好的应用潜力,基本实现了对传统麦克风阵列语音任务的全覆盖。本报告将重点总结现阶段分布式麦克风阵列的拾音理论和应用方法,包括分布式麦克风阵列应用背景、阵列组织原理、麦克风节点效用评估,以及结合下游语音任务阐述其应用方法。最后,报告将简要论述分布式麦克风阵列走向实用的关键挑战与发展趋势。


程皓楠


报告人简介:

    程皓楠,中国传媒大学媒体融合与传播国家重点实验室副研究员,从天津大学分别于2016、2021年获工学学士、博士学位。主要研究方向为有声文化计算、视听多模态生成与鉴伪。主持国家自然科学基金青年项目、国家重点研发计划子课题、北京市自然科学基金面上项目等10余项,获北京市科协青年人才托举工程支持。在ACM/IEEE汇刊、CCF A类等期刊或会议发表论文50余篇,获国内外最佳论文奖2项。担任CAAI智能传媒专委会副秘书长、《信息传播研究》青年编委、CSIG多媒体专委会委员。为我国首位被亚广联ABU授予“青年工程师奖”的技术专家,入选北京市国家治理青年人才培养计划。

报告题目:

    音频深度伪造检测

报告摘要:   

    随着生成式人工智能技术的飞速发展,音频深度伪造技术呈现出前所未有的逼真度与易用性。这项技术在娱乐、教育等领域带来创新的同时,也带来了严峻的安全挑战,如电信诈骗、舆论操纵、身份冒用与版权侵害等。因此,发展高效、鲁棒的音频深度伪造检测技术已成为保障数字社会安全与信任的迫切需求。本报告旨在系统性地探讨音频深度伪造检测领域的最新进展、核心挑战与未来方向。报告内容不仅涵盖语音,同时包括歌声等多样化音频类型,以提供一份更为全面的技术视角。



NCMMSC 2025 教程报告征集提案(已截止)

    热烈欢迎各位专家和学者提交涵盖会议议题领域的教程报告提案,特别是与会议主题紧密相关以及涉及新兴和前沿话题的提案。


    教程报告将持续2-3小时,中间包括10-20分钟休息时间,并将在会议技术议程之前进行。每项被接受的教程报告,讲授者都必须在会场亲自进行讲授。


  • 提案指南


      教程报告提案应包含以下关键信息:

      1、教程报告标题;

      2、教程报告内容简介;

      3、讲授者姓名、联系方式、个人简介(包括照片)

教程报告提案将根据上述信息进行评审,选定的教程信息将在会议网页上公布。

教程报告提案提交请通过电子邮件发送至教程主席邮箱: 

韩纪庆:jqhan@hit.edu.cn

李美竹:Meizhu.Li@ujs.edu.cn


  • 重要时间


       提交截止:2025年8月15日

       录用通知:2025年9月1日