【功能升级】大模型声音复刻,新增自定义音频与流式合成

近日,百度语音大模型声音复刻新增​自定义音频复刻功能​:无需按照规定文本录音,提供发音人的任意音频,即可实现声音复刻,操作门槛更低、使用更便捷。复刻完成后,新增支持​流式文本合成​:基于websocket协议,用户输入文本的同时,即可同步返回合成的音频数据,达到“边合成边播放”效果。同时,合成语言在中文普通话、英文基础上,新增支持​​上海话、河南话、四川话、湖南话、贵州话等方言​。更加贴合数字人、智能助手、情感陪伴等多种应用场景。点击了解详情>>

特色优势

  • 超低门槛:无需专业设备与场地任意有声音频即可克隆,极大提升效率,降低使用门槛
  • 精准还原:精准还原音色特点、说话风格、韵律起伏、声学环境
  • 极速复刻:秒级即可完成高品质复刻,精准呈现音色细节,高效逼真
  • 实时合成:实现边输入边播放的效果,完美适配多种实时应用场景
  • 方言合成:支持上海话、河南话、四川话、湖南话、贵州话等方言,还原地道家乡话

产品价格

创建音色

  • 按次数包预付费【购买】
次数包规格 支持并发 价格(元) 单次单价(元)
50 10 400 8
200 10 1400 7
1000 10 6000 6
5000 10 25000 5
20000 10 80000 4
  • 按调用量后付费【开通付费】
调用次数 支持并发 价格(元/次)
0-∞ 10 8.8

在线合成

  • 按字符包预付费【购买】
字符包规格(万字) 支持并发 价格(元) 万字符单价(元)
100 10 650 6.5
500 10 3000 6
1000 10 5500 5.5
5000 10 25000 5
10000 10 45000 4.5
  • 按调用量后付费【开通付费】
调用次数 支持并发 价格(元/万字符)
0-∞ 10 7

大模型声音复刻体验demo:https://ai.baidu.com/tech/speech/voicecloning

百度语音现已推出:端到端语音语言大模型、大模型声音复刻、短语音识别标准版 、短语音识别极速版 、实时语音识别 、音频文件转写 ,短文本在线合成 、长文本在线合成 、定制音库 ,呼叫中心实时语音通话 、呼叫中心语音质检 、呼叫中心音频文件转写 等多款语音产品,同时提供有声阅读解决方案 、呼叫中心语音解决方案 、语音数字大屏 、智能语音会议 、智能语音指令 、语音字幕服务 等场景化解决方案,满足各类语音场景需求。提供在线API 、HTTP SDK 、离线SDK 、私有化部署 、一体机等多种部署方式,接入便捷、稳定可靠。