【邀测】开口即真人!欢迎体验端到端语音语言大模型

近日,百度发布​业界首个基于Cross-Attention的端到端语音语言大模型​,正式开启语音交互新纪元!该模型不仅能够精准识别包括重庆、广西、河南、广东、山东等地在内的多地方言,还能实现情感饱满、自然流畅的对话交流,让用户仿佛在与真人对话。目前API、在线SDK均已支持,详情可点击:https://ai.baidu.com/tech/speech/chatbot

亮点解析

  1. 超拟人交互:智能感知原始语音携带的情绪、语气等信息,快速理解人物设定与情境要求,通过悄声、快速、慢速等语气效果,实现情绪丝滑切换,打造高质量语音交互服务
  2. 超精准查询:集成38个垂类助手功能,能够高效处理天气、日历等查询需求;强大的信息检索和指令跟随能力,对于时效性和非时效性问题,均能给出精准且实时的回答
  3. 超低响应时延​:对话过程中融合RTC低延迟AEC处理以及对齐技术,响应时延低至1秒,让对话无停顿、交流无障碍,为用户带来超自然交互体验
  4. 超低调用成本​:低成本高速推理,在满足语音交互硬延迟等要求的同时,极大降低使用成本

核心创新

  1. 业界首个基于Cross-Attention的语音语言大模型​:百度首次将Cross-Attention机制应用于语音语言大模型中,实现了语音与文本之间的深度跨模态融合。
  2. 高效的全查询注意力EALLQA技术​:采用隐式RNN两级位置编码,训练时在128空间上的MHA,推理在模型各层共享的512空间上的MQA,将KV cache降低到几十分之一,进一步提升模型的推理效率。
  3. Encoder与语音识别结合​:实现对用户question的极速理解,计算量显著降低10倍。
  4. Decoder与语音合成结合​:依赖大模型强Context理解能力,直接生成语音合成所需的文本、情感、风格以及TN、多音字、韵律等信息。
  5. 流式逐字的情感语音合成​:业内领先的流式逐字语音合成,结合大模型实现多情感、超自然合成效果,同时语音语言大模型与合成系统一体化输出,打造极致性价比。

场景应用

百度端到端语音语言大模型,可广泛应用于实时语音交互的情感陪伴、助手查询以及在线教育等场景,通过超拟人语音对话,打造语音交互新体验!

-情感陪伴​:支持多样化音色选择与角色演绎,通过深度共情反馈与超低时延语音交互,满足个性化情感陪伴和角色扮演需求。

-语音助手​:支持实时联网查询与复杂指令遵循,通过超高双商加持,实现用户需求深度理解,打造智能全知助手。

-在线教育​:高智商多情商与拟人语音交互赋能数字孪生老师,实现全场景伴随式学习,助力教学服务突破时空限制。

-呼叫中心​:支持复杂场景处理与实时拟人对话,赋能在线客服、智能销售顾问及自动化外呼系统,构建全时响应、多维交互的服务生态。

-智能硬件​:支持多终端无缝适配,在复杂声学环境下仍能保障语音交互流畅度,为万物互联时代构建高鲁棒性的智能语音交互基础设施。

如需测试体验,可联系您的商务经理或在线申请

百度语音现已推出:端到端语音语言大模型、大模型声音复刻、短语音识别标准版 、短语音识别极速版 、实时语音识别 、音频文件转写 ,短文本在线合成 、长文本在线合成 、定制音库 ,呼叫中心实时语音通话 、呼叫中心语音质检 、呼叫中心音频文件转写 等多款语音产品,同时提供有声阅读解决方案 、呼叫中心语音解决方案 、语音数字大屏 、智能语音会议 、智能语音指令 、语音字幕服务 等场景化解决方案,满足各类语音场景需求。提供在线API 、HTTP SDK 、离线SDK 、私有化部署 、一体机等多种部署方式,接入便捷、稳定可靠。