大伢伢 2022-08-11 13:20 采纳率: 66.7%
浏览 144
已结题

这些情绪主播Ai配音用的是谁家的借接口?

如题,先放几张问题图片

1.悦音配音

img

2.配音助手App

img

类似上图这种配音网站或App有很多。他们都有个共同点:那就是里面的部分配音主播是支持(情绪)发音的。

显然,像这种,数百位主播的语音AI合成技术是非常复杂和烧钱的,动辄就是数亿、数十亿元,绝不是这些App的开发者、运营者所能自创的技术服务!因此我断定,他们都是调用了某些大公司的AI合成接口,如:科大讯飞(国内知名度最高),百度云、腾讯云、阿里云AI语音合成 等等。于是,我查了一下科大讯飞的Api文档,而后惊奇的发现,科大讯飞的Api文档中根本就没有(情绪)这项参数!然后我查了百度、腾讯、阿里等Api也都一样,都没有(情绪)这项参数!

这些大厂竟然压根就没有(情绪)主播发音?!惊不惊喜,意不意外,刺不刺激,开不开心?!

尼玛,我好头大!

所以,我的问题是:他们这些App,语音Ai合成用的到底是谁家的技术接口呢?!还是另有玄机,我遗漏了什么?

  • 写回答

5条回答 默认 最新

  • kakaccys 2022-08-12 09:07
    关注

    本人为语音方面的人工智能算法做了4,5年的从业人员,语音合成也就是tts这一块儿现在并没有你想象的那么耗成本,可以说技术已经很成熟了,现在语音合成与语音克隆技术都水平很高了,像ETTS,tacotron2,wavernn,wavegan,deep voice等等。
    很多时候只需要采集用户几十条语音就能合成一个差不多的声音,如果需要一个合成效果很完善的声音,那么几百条到上千条也就够了,而像这种有情绪的,无非就是让主播念的时候就带着同一个情绪,几百个主播看起来很多,但是采集这么个数据量并非什么难事,困难的是得到授权,但是其实可以去一些播音学院找些学生,这些人很便宜。
    那么现在就差训练了,tts相较于asr训练成本并不高,因为就那么几种声音,数据也不多,当然如果要训得好有一份比较多的数据是肯定的,所以肯定会先购买几份上万条的录音,但是这也不需要太多钱,然后至于gpu,一张v100或者t4的gpu卡绰绰有余。
    还有就是这几个网站的试听,实际上都是把他本来录好的一段文字合成效果给你去听,这个效果当然是最好的,如果楼主你多试一些含多音字的句子,你就会发现还是有瑕疵的。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 8月20日
  • 已采纳回答 8月12日
  • 创建了问题 8月11日

悬赏问题

  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?
  • ¥15 c++头文件不能识别CDialog
  • ¥15 Excel发现不可读取的内容