首页 › 新闻 › 2025亚洲AI音频年夜会演讲回首 | 科年夜讯飞吴如松《AIUI开放平台语音交互技能演进及运用》
2025年9月19日,由我爱音频网主理的【2025亚洲AI音频年夜会】于深圳湾科技生态园发布中央乐成举办,该年夜会以「“耳”闻新世界」为主题,吸引了很多行业内专业人士、企业代表及技能喜好者。
2025亚洲AI音频年夜会始创在2017年,前身为中国蓝牙耳机年夜会,今朝已经经持续举办8年14届,累计介入职员冲破50000人,成了行业征象级年夜会。该年夜会以论坛钻研情势为主,聚焦行业热门产物、技能、运用,举行精准的要害信息同享,促成行业伙伴们举行快速、直接的互助与交流。
本次年夜会共约请到了9位全世界知名企业代表举行出色分享,演讲内容涵盖了可听装备、动铁、AI音频芯片、AI音频运用、语音交互、AI硬件、智能眼镜等热点话题。近期,我爱音频网将陆续为各人分享「2025亚洲AI音频年夜会」演讲回首,此篇文章将要先容的是科年夜讯飞产物总监 吴如松师长教师的演讲内容。
科年夜讯飞是亚太地域知名的智能语音及人工智能上市企业。自1999年景立以来,一直专注智能语音、计较机视觉、天然语言处置惩罚、认知智能等人工智能焦点技能研究并连结国际前沿程度。作为人工智能“国度队”,科年夜讯飞承建了中国独一的认知智能天下重点试验室及语音和语言信息处置惩罚国度工程研究中央。科年夜讯飞踊跃鞭策人工智能源头焦点技能研发及财产化落地,致力在“让呆板能听会说,能理解会思索,用人工智能设置装备摆设夸姣世界。"
吴如松师长教师是科年夜讯飞AI交互产物总监,是AIUI人机交互开放平台产物卖力人。本次AI音频年夜会上,吴如松师长教师为不雅众带来了《AIUI开放平台语音交互技能演进及运用》的主题演讲。
演讲开场,吴如松师长教师重点先容了AIUI开放平台。这是讯飞2015年推出,专注人工智能语音交互的一站式开发平台,会聚了年夜模子、降噪算法、声音、图象、数字虚拟人、硬件模组等人机交互全链路软硬件焦点能力。
讯飞AIUI从2023年头就最先做年夜模子语音交互,年夜会上吴如松师长教师分享了他们于语音对于话频次、差别场景下交互频次方面的研究数据。此前,人机交互单次对于话轮数一般于两到三轮,而年夜模子交互整小我私家机交互对于话轮数晋升到十几轮。平台数据显示,家庭、儿童、呆板人等场景交互数据飙升,特别是儿童场景,年夜模子交互次数较传统指令交互增加了733%。这些数据的增加,也让讯飞AIUI对于年夜模子语音交互的将来布满期待。
讯飞把AIUI平台界说为智能硬件的人机交互年夜脑。接入AIUI平台以后,你的智能硬件不仅可以或许语音指令节制,还有能查询及时的内容,帮你实现语音交互的营业拓展,同时还有能跟人同样去谈天。更主要的一点是讯飞尽可能保障端上集成稳定化,于云端做好各项AI能力的进级,好比近来进级的年夜模子极速超拟人交互,于云端讯飞做了全流式的对于接,并接入第三方模子、常识库等能力,包管平台云真个人机交互效果不停晋升。吴如松师长教师暗示:这些云真个进级,即即是客户上市的产物,也能够无感体验到AIUI的最新结果。
随后,吴如松师长教师于演讲中阐发了让语音交互越发天然的技能要害点等。讯飞认为语音交互天然要解决两个问题:全双工交互、感情贯串。此刻年夜模子VAD已经经很智能地辨认人声及噪声,也能很好的分辩出对于人是否是于及呆板对于话。经由过程把人措辞的音频给到云端,使用语气、语调等副语言信息可以或许实现越发正确的情绪检测,从而让模子可以或许情绪共识、联合超拟人合成答复等实现更拟人化的交互。
为此,讯飞也做了很年夜转变,它专门为交互场景打造了交互年夜模子。通用的年夜模子,对于用户的发问会直接天生年夜篇幅内容,颠末合成后播报甚至需要两三分钟,不切合人天然对于话的习气。而讯飞的交互年夜模子会以渐进式的对于话去跟用户举行交流,自动性更强,交互更天然。同时平台提供富厚的内容信源,还有有类人影象体系,内容安全及时审核。平台还有提供二次开发的能力以和与其他模子兼容的能力。讯飞的多模态降噪及多模态理解还有可以进一步赋能更多繁杂场景及更多产物。
吴如松师长教师暗示:科年夜讯飞AIUI平台已经经做了十年,每年城市对于平台技能方案举行迭代进级,讯飞的每一一次进级城市思量向前兼容,为平台开发者提供持久不变的办事保障。接入AIUI平台的装备上市三年、五年甚至十年,它依然可使用AIUI办事。AIUI平台一直于不停精进,为开发者提供更天然、更快速、更实用的语音交互体验。
于具体先容AIUI人机交互平台的能力后,吴如松师长教师进一步对于运用场景举行了分享。面临差别场景的智能硬件,AIUI对于特定功效及解决方案连续打磨。演讲中,吴如松师长教师重点先容了它们平台针对于AI玩具场景做的许多优化。
讯飞为儿童产物做了专属交互方案设计,自研的童言辨认引擎,可以解决儿童发音暗昧不清、叠字等致使辨认不精准的问题;依托讯飞堆集的儿童交互数据,专门练习了童语理解模子,解决儿童表达跳跃致使的理解误差问题,让AI更懂孩子,并联合一句话声音复刻、超拟人合成实现更天然亲切的眷注及感情回应。
演讲的末了,吴如松师长教师还有先容了讯飞针对于家庭泛屏文娱影视、音乐、美食、医疗等智能体,讯飞多麦阵列降噪的智能眼镜方案,呆板人超脑、呆板人智能语音违包等产物。AI眼镜是当下的热点赛道,讯飞的AI眼镜最年夜亮点之一是多麦阵列降噪技能,它搭载了16个麦克风,极年夜晋升了高噪场景的交互效果。
本年具身智能也是一年夜火热范畴。早于2022年,科年夜讯飞就启动了“讯飞超脑2030规划”。年夜会上,吴如松师长教师也重点先容了讯飞打造的呆板人超脑平台。于端侧,该平台可以提供多模态降噪分散、人脸辨认跟踪、物体辨认检测、端侧年夜模子、离线辨认合成;于云端,可提供语音辨认年夜模子、超拟人合成、极速超拟人对于话、AI人设、具身智能理解等AI能力。呆板人超脑平台以视听交融的感厚交互联合基在年夜模子的云端呆板人年夜脑,经由过程软硬一体的产物形态面向小我私家开发者、呆板人厂家提供呆板人AI技能办事。
吴如松暗示:以往呆板人更偏重运动节制的能力,但当下语音交互正成为呆板人人机对于话、天然交流的主要配置。科年夜讯飞依附于语音交互范畴的深挚技能堆集,为呆板人赋能了多模态降噪、年夜模子对于话理解能力,联合针对于呆板人量身定制的即插即用的硬件,让呆板人快速“年夜脑”进级,实现听懂指令、启齿扳谈。
吴如松师长教师的演讲,让现场不雅众具体相识了讯飞的AIUI一站式年夜模子语音交互开发平台。语音交互正成为AI玩具、AI眼镜、呆板人等各年夜智能硬件的标配,讯飞打造的AIUI人机交互平台,于灌音降噪、语音辨认、天然对于话、情绪感知、多模态理解等方面揭示了精彩的技能实力,可以深度赋能儿童玩具、智能眼镜、家庭泛屏智能体、呆板人等智能硬件,显著晋升它们语音交互的能力。
我爱音频网是海内最早举行智能音频装备(蓝牙耳机、TWS无线耳机、有线耳机、智能音箱、蓝牙音箱、USB-C/Lightning耳机)阐发、评测、拆解的专业机构。稿件送达、接洽咱们:info@52audio.com-J9集团|国际站官网