大会报告

大会报告嘉宾


Daniel Povey


报告人简介:

    Daniel Povey 博士毕业于英国剑桥大学,先后就职于 IBM 和微软。2012年加入美国约翰霍普金斯大学,任语言和语音处理中心副教授。2019年10月加入小米,担任集团语音首席科学家。 2022年12月, Daniel Povey 凭借在语音识别和声学建模方面的杰出贡献入选 IEEE Fellow。
    Daniel Povey 博士是著名开源语音识别工具 Kaldi 的提出者和主要维护者,被业界称为“Kaldi 之父”。Kaldi 项目在学术界和工业界都极具影响力,广泛应用于各研究机构和国内外知名公司,有力地推动了智能语音处理的产业化。Daniel Povey 在智能语音处理的技术上做出了非常多的贡献。他首次将序列区分性训练方法应用于语音识别,他提出的 LF-MMI 建模方法至今仍为商用语音识别系统普遍使用的标准技术。他也是将深度学习用于语音识别领域的重要引领者,在语音识别中推广了时延神经网络,配合 LF-MMI 训练,是 2015-2020 年学术界和工业界普遍使用的最佳组合。他还是深度学习在声纹识别领域的重要引领者,提出的 X-vectors 方法是第一个取得成功并被普遍应用的深度学习说话人识别方法,广泛应用于工业界。他在国际顶级会议和期刊发表论文200多篇,谷歌学术引用近 52000 次,h-index 70,担任 Signal Processing Letters 的终身副主编。

报告题目:

    The Zapformer: New work in Model architectures

报告摘要:   

    Our previously released Zipformer architecture has state of the art performance for speech recognition applications but its uptake has been limited by the complexity of the model and of its training procedure. The new "Zapformer" architecture is the result of an attempt to simplify the Zipformer and to tune its architecture and training method with larger datasets than we previously used for architecture tuning. Performance of Zapformer for ASR applications is significantly better than Zipformer which is itself better than Conformer or Transformer. One change is the removal of randomized elements such as dropout and layer dropout, with their stabilizing and pro-generalization effects replaced by the use of auxiliary loss functions.


刘知远

报告人简介:

    刘知远,清华大学计算机系长聘副教授,主要研究方向为大语言模型、知识工程与社会计算。已在Nature Machine Intelligence等人工智能著名国际期刊和会议发表论文200余篇,Google Scholar统计引用超过6.9万次。曾获教育部自然科学一等奖(第2完成人)、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖(第2完成人)、中国中文信息学会汉王青年创新奖,连续五年入选2020-2024年Elsevier中国高被引学者,入选《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。

报告题目:

    VoxCPM:面向高拟真语音生成的高效大模型架构探索与应用

报告摘要:   

    本报告介绍清华大学联合面壁智能推出的VoxCPM——一款基于扩散自回归建模的端到端语音生成模型。作为高效大语言模型MiniCPM-4在语音生成领域的重要探索,VoxCPM融合了层次化语言建模、有限标量约束与局部扩散Transformer等多项创新技术,在克服传统离散单元方法信息损失的同时,有效增强了连续表征自回归生成的稳定性。本报告将介绍VoxCPM相关技术与实验结果,并展望多模态大模型的发展趋势。


更多精彩报告陆续公布中。。。