工业论坛

捷通华声 邢启洲


个人简介:邢启洲,捷通华声高级研究员,拥有10余篇发明专利及二十余篇在申专利,曾就职于法国道达尔研发总部,任算法研发工程师。目前主要研究方向包括大模型,自然语言理解等,有丰富的算法研发经验,多次参与国家级和北京市级科技创新项目,并多次参与包括知识图谱技术框架国家标准、信通院大模型标准发布标准等的起草工作。多年来致力于前沿算法的研究及算法的产业化落地,帮助了上百家企业解决了人工智能算法应用的实际问题,主导自研的算法广泛应用于金融、政务、工业等行业。

报告题目:基于多模态Agent智能体的增强人机交互产业化

报告简介:通过融合语音、图像、文本等多模态技术,研发具有高度理解和响应能力的多模态Agent智能体,以适应不同场景下的交互需求,实现更直观和智能的用户体验。该技术在政务、金融、医疗健康、数字办公等领域有广泛应用前景,助力提升相关行业的服务质量和用户满意度,促进产业升级与创新。

科大讯飞 熊世富


个人简介:熊世富,科大讯飞AI研究院副院长,毕业于中国科学技术大学语音及语言国家工程中心。研究领域主包括语音识别、声学前端、自然语言处理,在科大讯飞主要负责语音转写&语音交互类语音技术的研究和技术落地工作,先后成功研发基于LSTM的语音识别系统以及端到端语音识别系统,在业务中大规模落地使用。

报告题目:讯飞语音技术最新进展

报告简介:2023年为分界点,人工智能的发展分为大小模型两种技术路线,语音领域也是一样。作为已被广泛应用的智能语音技术,它的通用性更高,大小模型技术对于现在和未来的落地应用都非常重要,本报告将介绍讯飞最新语音技术进展,也包含我们在小模型的持续探索。

OPPO 单煜翔


个人简介:单煜翔,OPPO小布助手高级算法架构师,主要负责小布语音唤醒、语音识别、语音合成相关技术的算法工程化工作。博士毕业于清华大学电子工程系,在加入OPPO前曾任职三星电子、阿里巴巴达摩院从事手写文字识别、语音交互等技术的研发,成果应用于OPPO小布助手、三星输入法、S Note等产品中。
报告题目:小布助手语音交互中的个性化技术
报告简介:小布助手是搭载于OPPO、一加和realme智能手机及IoT设备上的全局智能助理。作为用户的专属智能助手,小布需要在联系人、用机等多种场景提供个性化的人机交互,本报告将分享这些场景背后的算法方案和工程实践。

思必驰 樊帅

个人简介:樊帅,清华大学博士,高级工程师,中国计算机学会语音对话及听觉专委会执行委员,中国计算机学会人机交互专委会执行委员。现任思必驰科技股份有限公司研发总监,从事对话交互关键技术的研发工作,包括对话管理,自然语言理解,大型语言模型,多模态对话交互,数字人AI生成和驱动等,研发成果广泛应用于车载、智能家居、智慧城市等场景的语音交互解决方案之中。曾被评为苏州工业园区创新领军人才,苏州工业园区金鸡湖科教人才,被聘为江苏省产业教授。
报告题目:对话式人工智能技术及其产业应用

报告简介:随着人工智能技术的发展,智能口语对话技术逐渐成为物联网时代的人工智能入口,尤其是自ChatGPT发布以来,以大型语言模型(LLM)为代表的对话式人工智能技术受到了学术界和工业界的广泛关注,影响到了社会生活的多个方面。本报告将对对话式人工智能技术进行介绍,同时结合思必驰的全链路对话交互技术,介绍产业落地的一些方案和案例。

标贝科技 吴本谷

个人简介:吴本谷,标贝科技销售支持部负责人。曾先后任职于百度语言技术部,北京猎户星空语音识别负责人;在北京猎户星空期间,带领团队把小雅音箱识别率提升到行业第一。对大数据,人工智能,数据标注等领域有着深刻理解。
报告题目:大模型场景下的数据标注

报告简介:在大模型场景下,高质量的数据标注是模型成功的关键。需要不断探索和创新,结合智能标注工具和先进的机器学习技术,提高标注效率,保证数据质量,为大模型的训练提供坚实的基础。标贝科技作为业内知名的AI数据方案提供商,通过近些年来的实战经验和总结,分享对数据标注的深入思考和探索。

慧听数据 刘晓君


个人简介:刘晓君,数据项目经理专业从事数据制作领域的工作。曾负责完成多个语音识别库、语音合成库项目,涉及多方言、多语种,均达到高质量水准。

报告题目:慧听数据库产品介绍
报告简介:慧听科技热销数据库介绍

海天瑞声 郝玉峰

个人简介:海天瑞声副总经理、首席科学家,毕业于东南大学(博士)曾任北京捷通华声语音技术有限公司技术研究部经理;杭州红杉树信息技术有限公司高级研发工程师

报告题目:海天瑞声在语音大模型数据上的探索与实践

报告简介:随着人工智能技术的快速发展,构建高质量语音数据集对于训练和优化语音大模型变得至关重要。高质量数据不仅是模型训练的基础,更是推动模型进步的关键因素。本报告将深入讨论海天瑞声对高质量语音数据集构建方面的先进实践与创新方法、并探讨在语音数据构建过程如何利用前沿技术提升数据生产效率,助力语音大模型研发与落地。

语音之家 卜辉


个人简介:AISHELL & SpeechHome 创始人兼CEO,带领团队发布了AISHELL-1 & 2 & 3 & 4、HI-MIA、DMASH等开源项目,成为语音技术领域的数据开源标杆,目前已形成了数据+智能语音技术的矩阵式开源方案,覆盖语音识别、声纹识别、语音合成、场景智能语音技术应用。中国计算机学会语音对话与听觉专委会执委,第十五届全国人机语音通信学术会议(NCMMSC)授予中国语音产学研基础贡献奖、第十一届亚太信号与信息处理协会(APSIPA)授予智能语音个人贡献奖。参与组织并筹办了2015-2023八届国内Kaldi技术交流会、三届SpeechHome语音技术研讨会、INTERSPEECH、ICASSP、SLT等语音技术国际顶会上的赛事活动。
报告题目:以数据+人才的社区生态建设

报告简介:在针对语音识别(ASR)模型的性能评测方面,构建了高质量语音评测数据集,评测项目开放了ASR模型的SOTA内容,包括Benchmark和Leaderboard,对智能语音产业及用户应用体验的提升都起到了促进作用。随着ChatGPT等大模型的出现,人工智能(AI)多模态大模型可以同时处理多种模态数据,如同时处理图像、文本、语音等。大模型通常基于深度学习技术,利用大量的数据来训练,以实现多模态数据的跨模态理解和生成。当前的多模态大模型性能在多个评测数据集上的成绩已经超越人类对知识的掌控,在未来如何对大模型进行知识迭代、大模型的场景化落地等问题。SpeechHome在今年启动了以数据为中心的开发者平台,共同构建高质量数据计划。报告内容对数据开源、社区建设规划和目前的成果做介绍。

并行科技  唐华

个人简介:唐华,大客户销售总监。拥有超过十年的IT行业销售经验,专注于为客户提供高效、定制化的算力解决方案。对人工智能、大数据和云计算有着深刻的理解和丰富的实践经验。常年服务于清华,北大,北理工等全国高校科研及孵化企业,对用户算力赋能,降本增效!

报告题目:算力赋能,语音智联!

报告简介:面对上百亿、万亿规模的训练参数,对算力、数据、算法均提出更高的要求,使得人工智能成为算力相关产业发展的内在动力。而人工智能算力网络的出现,可显著降低算力使用门槛、以及人工智能应用门槛,通过不断引入新的AI方法及算力基础设施,推动算力及AI应用从“可用”走向“好用”。