这很言顺哇 2022-08-11 22:40 采纳率: 0%
浏览 63
已结题

1D CNN的输入问题。

问题遇到的现象和发生背景

对于已经提取到的帧级别的音频特征,一个音频文件分为96帧样本,现在做1D CNN, 导师让我把输入改成每三帧看成一个样本,输入网络,原来是每一帧当一个样本,现在是每三帧一个样本。取三帧的方式是帧移一帧,也就是说原来的0-2帧为第一个样本,2-4为第二个样本,以此类推。

问题相关代码,请勿粘贴截图

原来是1000000帧量,每一帧有130维特征。也就是说输入变成(3,130)原来是(1,130)

我想要达到的结果

HELP! Please

  • 写回答

3条回答 默认 最新

  • kakaccys 2022-08-12 08:30
    关注
    获得1.85元问题酬金

    你的问题是啥?你的目标是什么?是提取帧不会吗?还是cnn不会?你的任务是语音识别吗?python有个librosa的库,可以很容易提取音频特征。还有我看你每3帧一个样本,每次帧移一帧,不应该是0-2一个样本,1-3一个样本吗?你是想用conv来提取音频特征,那就是卷积核size为3,strides=1

    评论 编辑记录

报告相同问题?

问题事件

  • 系统已结题 8月19日
  • 创建了问题 8月11日