从录音中提取语音特征,再去做个性化语音合成

诸位 语音分析处理等相关领域的高人, 小民实在有事相求, 现在只能广发此求助信,希望能得到些许帮助。!
2016年1月3日我们用笔记本拍的唯一一次全家福

现在我手上只有若干个语音文件(wav), 我老婆生前留下来的, 简单的来说, 就是想要三岁的孩子,以后还能听到妈妈的声音, 孩子叫妈妈, 妈妈会答应一声, 再奢望一点,就是孩子能和妈妈 能简单的对话, 让孩子感觉到 妈妈还在他身边。

我有很多种空想和假设,但是实现起来,却是如此的困难, 翻遍互联网, 发现要做个性化语音合成,必须先对她进行声音训练, 可是她人都不在了,怎么去训练呢, 怎么提取她的语音特征?

我实在没有办法,只好跪求诸位高人, 帮我出出招吧, 求求您们了!!!

第一步计划,目标很简单:
1、从录音文件里提取 语音特征, 来合成其他语音,
2、用她的语音特征,来代替我的说话声音
3、语音聊天机器人,用她的语音特征发音, 这是后话。

您们看看 能给我提提建议吗, 哪怕给我指定一个方向, 我也好走啊, 求助啊求助。虽然我没有什么钱, 但是我绝对继续为她花钱,来报答您们的帮助。

我本人也是三岁的时候,失去母亲的, 我深深知道没有妈妈的孩子, 会承受上天给予多么严重的不公平, 也许是宿命, 但是我不想我闺女再去重复我的悲剧!绝对不能。

求求您们帮帮我, 她的身体没了, 我可以想尽办法,重新给她造一个, 她的声音没了,只有您们能帮我, 求求您们帮帮我吧。

孩子还在等着我带妈妈回家呢, 我对孩子撒谎,“妈妈生病了,躺在医院不能动,不能说话,以后你要照顾她 ”,“等过年了, 我们有住的地方,我就把妈妈接回来, 我们一家三口 又能开开心心在一起!”, “现在妈妈生病住医院,花了很多钱,爸爸要去上班挣钱,把妈妈接回来”。

如果您们有什么建议的方向或者路子, 有可能的邮箱、论坛、或者博客,给我指条路也好啊。 回我邮件提供帮助信息的,顺便回一个微信或者支付宝账号, 我无论如何,会多多少少给予相应的报答, 真的! 请您不要嫌弃我的微薄的回报, 我会把您铭记在心里, 如果您不嫌弃, 我会把今后,关于 孩子妈妈的重塑计划的成果 给您们 反馈和分享。

最后,衷心的感谢,您在百忙之中能看我的这篇邮件

本人 彭长春 tel 13391779559 QQ 420993170 很普通的一个程序员 今年29岁, 我妻子也是29岁, 孩子3岁半, 关于她妈妈出事的事情经过 我已经传在百度贴吧里,http://tieba.baidu.com/p/4520527314?pid=88839687410&cid=0&from=singlemessage&isappinstalled=1&pn=0&

真诚期待您们的帮助,谢谢!

不要看C币,我一定用真是货币酬谢,因为我不怎么上着网,很少登录到这里,所以没有C币

0

2个回答

0
dadofdudu
dadofdudu 你好,能不能给些 直接一点的答案啊
大约 3 年之前 回复
0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
阿里云语音合成,录音文件识别,自然语言分析,rest 调用 python实现
最近研究阿里云语音合成,录音文件识别,自然语言分析。 自然语言分析官网文档: https://help.aliyun.com/document_detail/61378.html?spm=a2c4g.11186623.6.547.9q3U1C 智能语音官网文档: https://help.aliyun.com/product/30413.html?spm=a2c4g.11186623....
语音合成vocoder(二) 基频参数
基本概念声带每开启和关闭一次的时间就是基音周期(pitch period),倒数即为音频频率(pitch frequency)[1]。 基音频率取决于声带的大小、厚薄、松紧程度,以及声门上下之间的气压差的效应等。最低可达80Hz,最高可达500Hz,老年男性偏低,小孩女性偏高。它反映了声调的变化。常用方法常用的有自相关方法和倒谱方法 Autocorrelation Function(ACF)运算
百度语音识别、语音合成,NAudio录音(C#)
调用API 调用百度语音识别API实现语音识别(ASR)与语音合成(TTS),分别需要发送一个HTTP请求。 Note: 在发送ASR或者TTS请求前,首先需要获取Access Token; 1. 获取Token 通过百度开发者账号获取到key与secret key,然后通过以下请求得到token;//Access Token(每次获取后,有效期:一个月)string getAccessUr
语音合成的思路、语音的声学特征、声音采样的一些资料
语音合成:把语音波形文件重现,以一种灵活的方式,只用极少数的基础数据,比如元音辅音的语音参数,那么首先需要研究元音辅音的语音学性质。 先从元音开始,根据相关资料,不同的元音是由相同的原始声带音通过不同的共振腔(由声腔形状的变化决定)产生不同的共振效果,导致其频谱发生很大变化而得以区分。一般来说每个频谱都有三个振幅比较强的频率区,在频谱上呈现为波峰状,称为“共振峰”(formant),从低频到高频
语音的关键声学特征(语音情感特征提取)
语音情感特征提取及其降维方法综述1 语音传递的信息可以分为两大类:语义信息和声学信息。关注语义方面的研究比较多,但是声学特征也能包含很多关键信息,既可以作为辅助语义信息进行研究和应用,也可以单独进行语音情绪识别投入应用中。 所以我们来看一下语音有哪些关键声学特征。 文章目录语音情感特征提取及其降维方法综述[^1]语音情感特征分类语音特征的提取1.基频特征2.共振峰特征3.Mel频率倒谱系数(MF...
语音合成系统WORLD-原理和简单使用
最近在做语音合成相关的一个东西,其中后期需要做一个声音转换系统,但是真正的声音转换系统还挺复杂,因为我们的目的是希望能够将一个声音完全地变为另一个已知的 WORLD通过获取三个语音信号相关的参数信息来合成原始语音,这三个参数信息分别是:基频F0、频谱包络、非周期信号参数(英文分别为:Fundamental Frequency、spectral envelope、aperiodic parame...
开源的语音合成系统WORLD介绍以及使用方法
WORLD是一个基于C语言的开源语音合成系统,语音合成主要包括波形拼接和参数合成两种方法,WORLD是一种基于vocoder的参数合成方法,它相比于STRAIGHT的优势是减少了计算复杂度,并且可以应用于实时的语音合成。由于STRAIGHT不是开源的系统,并且在WORLD论文中已经对比了WORLD相比于STRAIGHT无论是在合成的音频质量上还是合成速度上都处于领先优势,所以这里我不准备介绍STR...
语音信号处理中基频提取算法综述
语音信号处理中基频提取算法综述,论述了各种基频检测的算法,对比分析各方法与思想,不错的总结
H5 语音合成播报功能
采用的 SpeechSynthesisUtterance实现语音播报功能,参考资料: ONE、TWO实现效果图:语法介绍1、speechSynthesis.getVoices()getVoices()的方法SpeechSynthesis接口返回的列表SpeechSynthesisVoice对象代表当前设备上所有可用的声音。2、speechSynthesis.cancel()cancel()的方法Sp
openSMILE批量提取语音文件 脚本
@echo off setlocal enabledelayedexpansion set /a sum=0D: cd \opensmile\opensmile-2.3.0\bin\Win32 for /r F:\music %%i in (*.wav) do (set/a sum=sum+1 SMILExtract_Release -C D:\opensmile\opensmile-2.
目前自然语音合成(TTS)进度一点见解
目前实验模型wavenet,parallel wavenet, tacotron, deep voice 3, clarinet 1. 需要preemphasis来产生更好的音频 来自社区国人tacotron2的commit 2. 转换到mu-law域可以stabilize训练过程,加速converge, 但是好像对最优解生成的音频质量没什么影响,所以现在训练还是raw 3. 最终co...
C#语音合成-Win7平台
最近因为一个项目需要用到语音合成,使用的平台是win7+Vs2013,以前未曾接触过这方面的资料,网上找了半天,发现总是那几篇被转来转去,而且都是N年以前的东西,不实用。综合网上的资料,利用win7自带的语音引擎,发现实现起来其实很简单。 新建一个控制台,添加引用:System.Speech,合成代码如下: using System; using System.Collections.Gen
地摊叫卖商场促销广告制作文字转换语音合成配音录音软件背景音乐
地摊叫卖商场促销广告制作文字转换语音合成配音录音软件背景音乐
关于音频特征提取
一.语音的产生简介1.1   发音器官    人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的。人体发音器官由三部分组成:肺和气管、喉、声道。 肺是语音产生的能源所在。气管连接着肺和喉,是肺与声道的联系通道。喉是由一个软骨和肌肉组成的复杂系统,其中包含着重要的发音器官——声带。声带为产生语音提供主要的激励源。声道是指声门(喉)至嘴唇的所有发音器官,包括咽喉、口腔和鼻腔。1.2   语音的...
c#实现百度语音识别
通过借助百度云平台,实现对语音的识别、作者亲测可用;真的炒鸡靠谱!!如果不能实现可以联系我~
unity3d个人自制百度语音合成插件Android版
个人自制的unity百度语音合成插件Android版,目前只集合了Android的相关内容,unity版本2017.4.2
matlab语音合成详细版
适用于北京大学、清华大学的matlab大作业(已知的),主要是对乐音做分析,入门的matlab写法
语音合成TTS(Text-To-Speech,从文本到语音)
以上内容,来自饭团“AI产品经理大本营”,点击这里可关注:http://fantuan.guokr.net/groups/219/作者:黄钊,5年AI实战经验(图灵机器人),8年互联网背景(前腾讯QQ产品经理),微信公众号/知乎/在行/饭团ID“hanniman”,持续3年分享人工智能相关原创干货,关注者1.2万+,200页PPT《人工智能产品经理的新起点》被业内广泛好评,下载量1w+。一、核心概念
RTP包中直接提取音频(源码)
分析CAP包,提取其中RTP数据,并组装为wave文件,并可以直接听声音,对IP承载的语音通信分析有用。
语音合成vocoder(五) synthesis
基本概念最小相位脉冲响应[1]可以保证波形在时域上基本不变。 根据频谱包络求出最小相位响应(减弱时域信号的相位失真),然后IFFT还原为语音信号 其中AA跟频谱包络有关合成流程合成[2]分为三步 1. 根据f0f_0确定脉冲的位置 对分帧的频谱插值获得脉冲对应的频谱spectrumspectrum 2. 时域周期信号 2.1 求出频谱包络中周期部分,然后过最小相位脉冲响应 peri
领域电脑话务员录音文件制作
领域电脑话务员录音文件制作 领域电脑话务员录音文件制作
spring-boot集成百度语音合成
<dependency> <groupId>com.baidu.aip</groupId> <artifactId>java-sdk</artifactId> <version>4.0.0</version> </dependency> import com.ba
语音合成软件,超真人语音,超市广播专用!
文字转语音合成软件,超真人语音,超市广播专用!
【百度语音合成】JavaAPI方式语音合成示例
百度语音识别通过 REST API 的方式给开发者提供一个通用的 HTTP 接口。 上传需要完整的录音文件,录音文件时长不超过60s。 语种 普通话、粤语、英文 适用范围 任意操作系统,任意编程语言,只要可以对百度语音服务器发起http请求的,均可以使用本接口。 浏览器由于无法跨域请求百度语音服务器的域名,因此无法使用本接口。 语音格式 格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。推荐pcm 采样率 :8k 或者 16k 。推荐16K。 编码:16bit 位深的单声道。 百
语音录音、合成、识别 C#科大讯飞源代码
本案例调用科大讯飞开放接口实现了语音合成,识别,录音,以及语音朗读功能。有界面,可运行。
用opensmile批量提取语音特征
@echo off set /a sum=0 set extension=.txt E: cd \openSMILE-2.1.0\bin\Win32 for /f "tokens=1-10 delims=\" %%a in ('dir F:\esdata\casia\casiawav\sametext50\*.wav /a-d /b /s') do ( echo %%a\%%b\%%c
ROS学习--语音合成&语音识别
说明 前一篇的语义理解主要是跑通ROS Node的一个流程,下面开发的语音Node略有点实际意义,其中构建node的过程,如同语义理解Node,略有不同。 整理的代码放在github上,语音合成https://github.com/roboyun/ros_tts,语音识别https://github.com/roboyun/ros_asr 准备 在开始之前,先做一些准备工作,就是播
PHP在线语音合成
在线语音合成 PHP SDKhttp://yuyin.baidu.com/docs/tts/194PHP SDK文档简介Hi,您好,欢迎使用百度语音合成服务。本文档主要针对PHP开发者,描述百度语音合成接口服务的相关技术内容。如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:在百度云控制台内提交工单,咨询问题类型请选择人工智能服务;加入开发者QQ群:464413749接口能力接口名称接口能...
WPF--使用windows语音合成与语音识别
C# 语音开发 近些年来,Microsoft 越来越注重将语音技术投入于主流使用,从而促生了一些产品,例如,Speech Server(用于实现启用语音的电话系统)和 Voice Command(使用户能够使用语音命令控制 Windows Mobile® 设备)。因此可想而知,Microsoft 的语音小组在 Windows Vista® 的开发中一定是始终忙个不停。将强大的语音技术与强大的
微信语音合成--待整理
安卓手机 微痕迹 APP 一分钟搞定!微信语音合成! 苹果手机 语音助手+MP3语音剪切合并大师 如何把微信语音汇总成一个MP3文件? 微信群里面的语音干货怎么导出来? 苹果微信语音怎么导出?iPhone微信语音导出教程 微信群讲课或语音讨论交流 如何把大家讲的微信语音合成一个音频文件mp3格式 ...
讯飞开放接口实现了语音合成,识别,录音,以及语音朗读功能的源码
本案例调用科大讯飞开放接口实现了语音合成,识别,录音,以及语音朗读功能。有界面,可运行。windows应用程序
htk 搭建语音命令识别工具包
摘要 体验过百度语音产品的你一定能感受到语音交互的魅力。在这里,我们以一个常用命令(打开、关闭、开始、停止)的语音识别任务为例,介绍一下如何利用HTK快速地建立这样一个语音命令识别系统,让电脑识别出你所说的简单命令。当然,如果要想识别任何其它的词,原理及过程也完全相同。   工具包介绍 HTK的全称是”Hidden Markov Model Toolkit”,是英国剑桥大学工程
微信语音怎么保存 微信语音导出文件夹教程
转载自:http://www.pc6.com/edu/60823.html 微信语音也就是微信的说话功能,语音相比较文字和图片来说,更加方便些了。你可以免去了码字的烦恼,消息传送也更加快捷。和亲密的人在微信上说过了甜言蜜语之后,是不是怕微信里面的语音记录都没有了,而且这个还不是手机备份被纳入的范围,所以如果你是因为刷机或者其他什么原因,也许都需要将微信的语音文件找到,保存好。
ROS实战(二) 科大讯飞语音合成模块
一.前言 继上篇博客的内容,下面主要介绍科大讯飞语音合成模块: 主要分成是三部分讲解. 二.注册科大讯飞平台账号,下载linux版本在线语音合成模块SDK 下载好的文件如下: 解压到当前文件夹: unzip xxx.zip -d voice 后面的voice为解压到所在文件夹的名称,可以是其他名称 三.测试SDK,安装命令行播放下的sox软件 首先下载sox ...
语音识别 特征提取(一)
一.语音的产生简介 1.1   发音器官     人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的。人体发音器官由三部分组成:肺和气管、喉、声道。 肺是语音产生的能源所在。气管连接着肺和喉,是肺与声道的联系通道。喉是由一个软骨和肌肉组成的复杂系统,其中包含着重要的发音器官——声带。声带为产生语音提供主要的激励源。声道是指声门(喉)至嘴唇的所有发音器官,包括咽喉、口腔和鼻腔。
基于HMM的语音合成技术中的参数生成算法
本文转载自 http://wap.sciencenet.cn/blog-839087-653086.html?mobile=1 一、定义与定理 在基于隐马模型的语音合成技术中,连续密度隐马尔科夫模型(CD-HMM)集用于将语音参数建模,每个HMM状态的输出状态用单高斯函数(Gaussian)或混合高斯函数(GMM)表示(Zen et al., 2009),其参数生成算法的目标是在给定高斯分布序...
科大讯飞语音无限制录音、识别功能的实现:Android studio(一)
无限制录音时长、识别全部语音文件
语音信号中的特征提取
本文介绍了语音处理中常用到的语音特征的生物和物理含义,并给出了提取方法,主要包括响度,音高,基频,MFCC,共振峰,声门波,短时能量,过零率,短时幅度,语速,停顿,等等
ASR:基于pyaudio利用python进行语音生成、语音识别总结及其案例详细攻略
ASR:基于pyaudio利用python进行语音生成、语音识别总结及其案例详细攻略 利用python进行语音生成 T1、调用win系统自带程序将文字转为语音读出 T2、利用python的pyaudio库进行实时录制,生成wav文件 T3、利用BAT、科大讯飞等的语音识别API(上传到BAT、科大讯飞等语音服务器)API将自定义文字,转换生成wav、mp3等文件 利用pytho...
利用python实现语音文件的特征提取
概述 语音识别是当前人工智能的比较热门的方向,技术也比较成熟,各大公司也相继推出了各自的语音助手机器人,如百度的小度机器人、阿里的天猫精灵等。语音识别算法当前主要是由RNN、LSTM、DNN-HMM等机器学习和深度学习技术做支撑。但训练这些模型的第一步就是将音频文件数据化,提取当中的语音特征。 MP3文件转化为WAV文件 录制音频文件的软件大多数都是以mp3格式输出的,但mp3格式文...
文章热词 设计制作学习 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 人工智能个性化学习 去做区块链的公司上班