WAP手机版 RSS订阅 加入收藏  设为首页
bodog
当前位置:首页 > bodog

bodog:流式多级截断注意力模型让语音识别的效果大幅提升

时间:2020/7/29 9:55:55   作者:   来源:   阅读:0   评论:0
内容摘要:在语音方面,流式多级截断注意模型大大提高了语音识别的效果;远场语音处理中基于麦克风阵列的端到端识别与声学建模相结合,使语音识别的错误率降低了40% - 50%;在语音合成技术中,百度可以动态地将声音的音色和风格结合起来,使得单一风格的合成声音具有向多种风格迁移的能力。在视觉方面,...
在语音方面,流式多级截断注意模型大大提高了语音识别的效果;远场语音处理中基于麦克风阵列的端到端识别与声学建模相结合,使语音识别的错误率降低了40% - 50%;在语音合成技术中,百度可以动态地将声音的音色和风格结合起来,使得单一风格的合成声音具有向多种风格迁移的能力。

在视觉方面,百度的视觉技术布局全面,包括图像、视频、AR/VR等,以及人脸、视觉字符、车辆、人体等多种垂直识别技术。同时百度还开发了visual AI SDK、3D结构化光模块等,构建了软硬件集成的可视化技术能力。

在语言和知识技术方面,它主要解决了理解语言和赋予机器“认知”能力这一具有挑战性的问题。百度创建了世界上最大的多源异构知识地图,拥有超过50亿个实体和超过5000亿个事实。百度Wenxin (ERNIE)是一个知识增强的可持续学习语义理解框架,将深度学习与知识相结合,可以进行持续学习,从而提高语言理解能力。此外,ERNIE提出了第一个集成场景图知识的多模态预训练模型ERNIE- vil,突破了多模态语义理解。

百度以百度的大脑为基础,通过智能云将AI能力输出到各行各业。云计算战略”为基础,人工智能为起点,专注于重要的赛马场”,百度云智能集成百度云计算核心技术等,百度大脑和大数据,并提供多层次平台通用基础云平台等,AI中间平台和知识中间平台,以及智能应用程序和解决方案,使各行各业。

上一篇:没有了
下一篇:bodog:美国中餐业受疫情影响非常严重
相关评论
本站所有站内信息仅供娱乐参考,不作任何商业用途,不以营利为目的,专注分享快乐,欢迎收藏本站!
所有信息均来自:百度一下 (hg0088)
粤ICP备12091507号-1