【邀测】开口即真人！欢迎体验端到端语音语言大模型

近日，百度发布业界首个基于Cross-Attention的端到端语音语言大模型，正式开启语音交互新纪元！该模型不仅能够精准识别包括重庆、广西、河南、广东、山东等地在内的多地方言，还能实现情感饱满、自然流畅的对话交流，让用户仿佛在与真人对话。目前API、在线SDK均已支持，详情可点击：https://ai.baidu.com/tech/speech/chatbot

亮点解析

超拟人交互：智能感知原始语音携带的情绪、语气等信息，快速理解人物设定与情境要求，通过悄声、快速、慢速等语气效果，实现情绪丝滑切换，打造高质量语音交互服务
超精准查询：集成38个垂类助手功能，能够高效处理天气、日历等查询需求；强大的信息检索和指令跟随能力，对于时效性和非时效性问题，均能给出精准且实时的回答
超低响应时延：对话过程中融合RTC低延迟AEC处理以及对齐技术，响应时延低至1秒，让对话无停顿、交流无障碍，为用户带来超自然交互体验
超低调用成本：低成本高速推理，在满足语音交互硬延迟等要求的同时，极大降低使用成本

核心创新

业界首个基于Cross-Attention的语音语言大模型：百度首次将Cross-Attention机制应用于语音语言大模型中，实现了语音与文本之间的深度跨模态融合。
高效的全查询注意力EALLQA技术：采用隐式RNN两级位置编码，训练时在128空间上的MHA，推理在模型各层共享的512空间上的MQA，将KV cache降低到几十分之一，进一步提升模型的推理效率。
Encoder与语音识别结合：实现对用户question的极速理解，计算量显著降低10倍。
Decoder与语音合成结合：依赖大模型强Context理解能力，直接生成语音合成所需的文本、情感、风格以及TN、多音字、韵律等信息。
流式逐字的情感语音合成：业内领先的流式逐字语音合成，结合大模型实现多情感、超自然合成效果，同时语音语言大模型与合成系统一体化输出，打造极致性价比。

场景应用

百度端到端语音语言大模型，可广泛应用于实时语音交互的情感陪伴、助手查询以及在线教育等场景，通过超拟人语音对话，打造语音交互新体验！

-情感陪伴：支持多样化音色选择与角色演绎，通过深度共情反馈与超低时延语音交互，满足个性化情感陪伴和角色扮演需求。

-语音助手：支持实时联网查询与复杂指令遵循，通过超高双商加持，实现用户需求深度理解，打造智能全知助手。

-在线教育：高智商多情商与拟人语音交互赋能数字孪生老师，实现全场景伴随式学习，助力教学服务突破时空限制。

-呼叫中心：支持复杂场景处理与实时拟人对话，赋能在线客服、智能销售顾问及自动化外呼系统，构建全时响应、多维交互的服务生态。

-智能硬件：支持多终端无缝适配，在复杂声学环境下仍能保障语音交互流畅度，为万物互联时代构建高鲁棒性的智能语音交互基础设施。

如需测试体验，可联系您的商务经理或在线申请

百度语音现已推出：端到端语音语言大模型、大模型声音复刻、短语音识别标准版、短语音识别极速版、实时语音识别、音频文件转写，短文本在线合成、长文本在线合成、定制音库，呼叫中心实时语音通话、呼叫中心语音质检、呼叫中心音频文件转写等多款语音产品，同时提供有声阅读解决方案、呼叫中心语音解决方案、语音数字大屏、智能语音会议、智能语音指令、语音字幕服务等场景化解决方案，满足各类语音场景需求。提供在线API 、HTTP SDK 、离线SDK 、私有化部署、一体机等多种部署方式，接入便捷、稳定可靠。