这些情绪主播Ai配音用的是谁家的借接口？

如题，先放几张问题图片

1.悦音配音

2.配音助手App

类似上图这种配音网站或App有很多。他们都有个共同点：那就是里面的部分配音主播是支持（情绪）发音的。

显然，像这种，数百位主播的语音AI合成技术是非常复杂和烧钱的，动辄就是数亿、数十亿元，绝不是这些App的开发者、运营者所能自创的技术服务！因此我断定，他们都是调用了某些大公司的AI合成接口，如：科大讯飞（国内知名度最高），百度云、腾讯云、阿里云AI语音合成等等。于是，我查了一下科大讯飞的Api文档，而后惊奇的发现，科大讯飞的Api文档中根本就没有（情绪）这项参数！然后我查了百度、腾讯、阿里等Api也都一样，都没有（情绪）这项参数！

这些大厂竟然压根就没有（情绪）主播发音？！惊不惊喜，意不意外，刺不刺激，开不开心？！

尼玛，我好头大！

所以，我的问题是：他们这些App，语音Ai合成用的到底是谁家的技术接口呢？！还是另有玄机，我遗漏了什么？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
AI晴天奶茶 2022-08-12 09:07
关注
本人为语音方面的人工智能算法做了4,5年的从业人员，语音合成也就是tts这一块儿现在并没有你想象的那么耗成本，可以说技术已经很成熟了，现在语音合成与语音克隆技术都水平很高了，像ETTS，tacotron2，wavernn，wavegan，deep voice等等。
很多时候只需要采集用户几十条语音就能合成一个差不多的声音，如果需要一个合成效果很完善的声音，那么几百条到上千条也就够了，而像这种有情绪的，无非就是让主播念的时候就带着同一个情绪，几百个主播看起来很多，但是采集这么个数据量并非什么难事，困难的是得到授权，但是其实可以去一些播音学院找些学生，这些人很便宜。
那么现在就差训练了，tts相较于asr训练成本并不高，因为就那么几种声音，数据也不多，当然如果要训得好有一份比较多的数据是肯定的，所以肯定会先购买几份上万条的录音，但是这也不需要太多钱，然后至于gpu，一张v100或者t4的gpu卡绰绰有余。
还有就是这几个网站的试听，实际上都是把他本来录好的一段文字合成效果给你去听，这个效果当然是最好的，如果楼主你多试一些含多音字的句子，你就会发现还是有瑕疵的。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月11日

这些情绪主播Ai配音用的是谁家的借接口？

5条回答 默认 最新

问题事件

5条回答默认最新