工业论坛-2023年第十八届全国人机语音通讯学术会议

工业论坛

思必驰樊帅

个人简介：樊帅，清华大学博士，高级工程师，中国计算机学会语音对话及听觉专委会执行委员，中国计算机学会人机交互专委会执行委员。现任思必驰科技股份有限公司研发总监，从事对话交互关键技术的研发工作，包括对话管理，自然语言理解，大型语言模型，多模态对话交互，全双工对话交互，数字人AI生成和驱动等，研发成果广泛应用于车载、智能家居、智慧城市、智能客服等场景的语音交互解决方案之中。曾主持国家重点研发计划子课题等多项重点项目，发表论文13篇，申请国内外专利50余项，已授权17项。参与编写《信息技术全双工语音交互用户界面》国家标准，牵头起草多项团体标准。曾被评为苏州工业园区创新领军人才，苏州工业园区金鸡湖科教人才，被聘为江苏省产业教授。
报告题目：对话式人工智能技术及其产业应用

报告简介：随着人工智能技术的发展，智能口语对话技术逐渐成为物联网时代的人工智能入口，自从2022年11月ChatGPT发布以来，以大型语言模型（LLM）为代表的对话式人工智能技术受到了学术界和工业界的广泛关注，影响到了社会生活的多个方面。本报告将对对话式人工智能技术进行介绍，同时结合思必驰自研的语言大模型DFM-2，针对产业化落地中的问题提出一些解决方案和案例。

科大讯飞熊世富

个人简介：熊世富，科大讯飞AI研究院副院长，毕业于中国科学技术大学语音及语言国家工程中心。研究领域主包括语音识别、声学前端、自然语言处理，在科大讯飞主要负责语音转写&语音交互类语音技术的研究和技术落地工作，先后成功研发基于LSTM的语音识别系统以及端到端语音识别系统，在业务中大规模落地使用。
报告题目：大规模语音应用中的落地思考
报告摘要：AI技术的非标准化和定制化需求一直是AI落地过程中不可逃避的问题，伴随着智能语音在各行各业中的大规模渗透，各种问题层出不穷。本报告将站在讯飞语音业务的视角，首先分享我们对于如何做好大规模语音落地的思考，然后是大模型对语音的影响，以及应对方法。

阿里云张仕良

个人简介：张仕良，阿里巴巴集团通义实验室算法科学家,毕业于中国科学技术大学语音及语言信息处理国家工程实验室。研究领域主要包括语音识别，机器学习算法等，提出了FSMN、HOPE、FOFE等模型。博士毕业以后加入阿里巴巴智能语音交互团队，目前主要负责语音识别，特别是声学建模相关算法的研究。
报告题目：魔搭语音和音频多模态大模型研究和开源进展
报告摘要：摘要：魔搭（ModelScope）社区是阿里巴巴推出的中文模型开源社区。本报告首先会总体介绍魔搭社区语音模态的开源的总体概况。其次会FunASR开源项目推出的工业级语音识别服务一键部署软件包。最后会介绍通义实验室在音频多模态大模型上的最新研究和开源进展。

OPPO 田垚

个人简介：田垚，OPPO小布助手高级算法工程师，负责小布语音唤醒、语音识别相关技术的研发。2017年博士毕业于清华大学，加入OPPO前曾在微软、字节跳动从事语音交互技术的研发。工作成果应用于OPPO小布助手、微软Cortana、微软认知服务、大力台灯、飞书等产品当中。
报告题目：OPPO小布助手的语音技术应用实践
报告摘要：小布是面向OPPO集团多品牌智能手机和IoT设备打造的新一代AI助手，截止到2023年10月，已累计覆盖3.5亿台设备，月活跃用户数1.5亿，月交互次数32亿次。本次报告主要围绕小布助手交互场景业务特点，分享小布自研语音关键技术（包括语音唤醒、语音识别、语音合成等）在对应场景下的算法方案和工程实践。

标贝科技周彤

个人简介：周彤，标贝科技COO助理。先后在上市集团公司、外企、私企等IT企业从事产品研发，实施交付，售前支持，销售管理等营销和技术岗位，形成业务闭环。对大数据，人工智能，数据标注等行业有着深刻理解。
报告题目：基于数据大模型的数据标注平台
报告摘要：以ChatGPT为代表的大模型风起云涌的今天，人工智能影响着越来越多的行业应用，标注行业也在由劳动密集型向技术驱动型逐步转型。本报告介绍深耕人工智能行业的标贝科技，基于大模型系统在3D点云，OCR识别，ASR长语音标注等场景下的AI数据标注平台能力以及人机配合。

智言科技王龙标

个人简介：2008年获得日本国立丰桥技术科学大学博士学位。2008年到2016年分别担任日本国立静冈大学助理教授、日本国立长冈技术科学大学副教授。2016年至今任天津大学智能与计算学部教授，认知计算与应用天津市重点实验室主任，天津大学人工智能学院副院长，日本国立北陆先端科学技术大学院大学客座教授。2016年入选国家级高层次青年人才及天津市高层次人才。王龙标教授长期从事声学信号处理、语音识别与合成、自然语言理解与对话、言语交互大模型等方向的基础研究与成果转化工作。在本领域高水平期刊和会议上发表论文200余篇，相关成果被广泛应用于数十余家人工智能龙头企业，2022年获得天津市科技进步一等奖。曾担任ISSP 2017技术委员会主席，SLIMTS 2020国际研讨会主席，2023年声纹识别研究与应用学术研讨会主席。王龙标教授积极推动语音交互技术的产业化落地，2018年至今担任慧言科技（天津）有限公司董事长兼首席执行官，2022年至今担任苏州智言信息科技有限公司董事长。
报告题目：智能语音技术赋能语言学习

报告简介：本报告首先简要介绍智能语言学习的研究背景及行业应用；然后聚焦语音评测，介绍面向语音评测的智能语音关键技术；最后展望基于“海河·谛听”大模型的新一代语音评测前瞻技术。

海天瑞声郝玉峰

个人简介：海天瑞声副总经理、首席科学家，毕业于东南大学（博士）曾任北京捷通华声语音技术有限公司技术研究部经理；杭州红杉树信息技术有限公司高级研发工程师

报告题目：大模型时代的语音技术发展
报告简介：本报告聚焦于大模型时代背景下的语音技术发展趋势，深入探讨数据需求在这一过程中的转变。报告强调了高质量数据在推动语音技术发展中的关键作用，并介绍商海天瑞声作为全球领先AI数据解决方案提供商在高质量数据构建方面的最新进展。通过深入研究和分析，我们发现大模型时代，对数据的质量和数量提出了前所未有的要求，而海天瑞声凭借其卓越的技术实力和高质量的数据资源，正在为这一领域的发展提供强大的支持。

2023年第十八届全国人机语音通讯学术会议工业论坛日程时间：2023年12月8日
序号	时间	报告题目	报告人	分会主席
1	16:30 - 17:00	对话式人工智能技术及其产业应用	樊帅思必驰	张超
2	17:00 - 17:25	OPPO小布助手的语音技术应用实践	田垚 OPPO
3	17:25 - 17:40	魔搭语音和音频多模态大模型研究和开源进展	张仕良阿里云
4	17:40 - 17:55	智能语音技术赋能语言学习	王龙标智言科技
时间：2023年12月9日
5	18:30 - 19:00	大规模语音应用中的落地思考	熊世富科大讯飞	刘瑞
6	19:00 - 19:15	大模型时代的语音技术发展	郝玉峰海天瑞声
13	19:15 - 19:30	基于数据大模型的数据标注平台	周彤标贝科技

注：每个报告后5分钟为提问时间

工业论坛

会议地址

会议电话

会议邮箱