wenet中efficient conformer流模式代码

有人能解答一下wenet中efficient conformer流模式推理中下面这两行代码吗，为什么要对时间维度//factor。


new_att_cache = new_att_cache[:, :, next_cache_start // factor:, :]
            # shape(new_cnn_cache) = [1, batch, outdim, cache_t2]
new_att_cache = new_att_cache.repeat_interleave(repeats=factor,
                                                            dim=2)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

7条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-03-08 11:19
关注
引自免费微信小程序：皆我百晓生

在Wenet的Efficient Conformer模型中，这两行代码涉及到了对注意力缓存（attention cache）进行时间维度上的处理。这是因为在流式语音识别场景下，模型需要实时或近似实时地处理输入音频序列，而不能一次性处理整个音频序列。为了实现这一点，模型会将历史信息存储在一个缓存中，以便与当前帧的信息进行拼接和交互。

首先，我们来看这两行代码：

new_att_cache = new_att_cache[:, :, next_cache_start // factor:, :]

在这行代码中，new_att_cache 是上一轮迭代后得到的注意力缓存，它通常包含了之前处理过的时序特征。next_cache_start // factor 表示了对时间轴进行下采样，即按照factor的步长选取子序列。这样做可能是为了降低计算复杂度或提高模型在处理连续输入时的时间分辨率适应性，确保缓存中的信息能够以更粗粒度的方式与当前帧有效融合。

接下来，

new_att_cache = new_att_cache.repeat_interleave(repeats=factor, dim=2)

这行代码则是对上述下采样后的缓存进行插值操作，repeat_interleave(repeats=factor, dim=2) 意味着在第2维（这里是时间维度）上，将每个元素重复factor次，从而使得缓存的总时间长度保持不变，但每个时间步的数据被复制了factor次，这样做的目的是在不丢失总体时长的前提下，调整时间步长以便于模型更好地进行特征整合。

总结来说，在Efficient Conformer流模式推理中，通过这两行代码对注意力缓存的时间维度进行处理，一方面实现了对历史信息的下采样以降低计算负担并可能改进模型性能，另一方面又通过重复插值保持了原始的时间覆盖范围，确保了模型能够有效地利用历史上下文信息。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

58同城AI Lab在WeNet中开源Efficient Conformer模型
2023-01-30 15:26

语音之家的博客 2022年8月，58同城TEG-AI Lab语音技术团队完成了WeNet端到端语音识别的大规模落地，替换了此前基于Kaldi的系统，并针对业务需求对识别效果和推理速度展开优化，取得了优异的效果。
Conformer（运用在WeNet中的理解与分析）
2022-09-28 15:10

雨雨子speech的博客 Conformer ASR WeNet
Conformer论文以及代码解析（上）
2021-08-23 22:05

从现在开始壹并超的博客 Conformer: Local Features Coupling Global Representations for Visual Recognition1. Abstract2. Introduction3. Related Work4. Conformer4.1. Overview4.2. CNN Branch4.3. Transformer Branch 论文：conformer...
Conformer代码讲解
2021-08-31 21:37

杀生丸学AI的博客初始下采样 def forward(self, x, x_t): x, x2 = self.cnn_block(x) # 第一次后维度x(b,256,56,56) x2(b,64,56,56) i=5时为 (512,28,28)(128, 28, 28) # self.cnn_block作用是下采样，在i循环中（2-12），2-4不变，5...
语音识别中的Transformer和Conformer（一）
2023-08-16 11:13

海海海柱的博客语音识别中的Transformer和Conformer（一）简介先验知识 Embedding 什么是Padding、max_len max_len Padding 注意力机制 TRM中的注意力 Transformer架构整体网络架构代码 Encoder ==位置编码（Positional ...
ASR Conformer模型论文及代码分析
2024-05-29 01:06

u013250861的博客 Conformer是Google在2020年提出的语音识别模型，基于Transformer改进而来，主要的改进点在于Transformer在提取长序列依赖的时候更有效，而卷积则擅长提取局部特征，因此将卷积应用于Transformer的Encoder层，同时...
Conformer论文以及代码解析(下)
2021-08-28 21:48

从现在开始壹并超的博客 Conformer: Local Features Coupling Global Representations for Visual Recognition1. main脚本中的参数配置2. 创建模型2.1. Conformer类2.2. ConvBlock类2.3. Block类2.4. FCUDown & FCUUp2.5. ...
Conformer阅读笔记
2022-01-21 21:28

44070509的博客论文：《Conformer: Convolution-augmented Transformer for Speech Recognition》
完美解释：wenet-流式与非流式语音识别统一模型
2021-12-22 21:04

zx超的博客如下图所示，模型包含三个部分，分别为共享的Encoder、CTC解码器、Attention解码器，共享Encoder包含多层transformer或者conformer，CTC解码器为一个全连接层和一个softmax层，Attention解码器包含多层transfor
WeNet更新：喜马拉雅团队在 WeNet 中支持 Squeezeformer
2022-11-16 16:22

语音之家的博客本文由喜马拉雅珠峰智能实验室撰写，介绍了Squeezeformer论文的复现细节，包括训练方案、流式推理以及实验结果。
EEG-Conformer Pytorch实现
2023-10-18 15:30

提出了一种新的框架用来进行运动想象分类的框架，称为EEG Conformer，可以直接结合CNN和Transformer进行端到端EEG分类。借鉴CNN和变形金刚的思想，Conformer使用卷积来学习局部时间和空间特征，然后采用自我注意来...
PPASR的V2版本Conformer模型文件
2022-11-08 18:32

PPASR的V2版本训练Conformer模型文件，使用Fbank，纯PaddlePaddle，训练数据Wenetspeech。源码地址：https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x
AudioGPT用AI的GPT理解文本并生成语音、音乐、声音等内容的Python代码
2024-01-25 17:17

Speech Recognition whisper, Conformer Yes Speech Enhancement ConvTasNet Yes (WIP) Speech Separation TF-GridNet Yes (WIP) Speech Translation Multi-decoder WIP Mono-to-Binaural NeuralWarp Yes 支持文本转...
Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition
2022-11-21 14:06

反卷斗士小郑的博客 Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition
wenet:生产优先和生产就绪的端到端语音识别工具包
2021-03-11 07:17

流和非流ASR的统一解决方案：WeNet实施框架，以实现准确，快速和统一的端到端模型，有利于行业采用。可移植的运行时：将提供几个演示，以演示如何在不同的平台（包括服务器和设备上的上托管经过WeNet训练的模型。...
MASR的V2版本Conformer训练超大数据集
2023-01-29 19:46

MASR的V2版本训练Conformer模型文件，使用Fbank，Pytorch，训练数据为超大数据集，13000+小时。源码地址：https://github.com/yeyupiaoling/MASR/tree/release/2.3.x
Conformer ASR详解
2021-10-30 22:02

glow-worm的博客 Conformer: Convolution-augmented Transformer for Speech Recognition 论文地址：https://arxiv.org/abs/2005.08100 Conformer编码器 Conformer编码器的结构如下图左侧所示，其中每个Conformer块包含四个模块：...
Conformer测试
2022-11-22 00:37

如雾如电的博客在本文中，我们提出了一种称为 Conformer 的混合网络结构，以利用卷积运算和自注意力机制来增强表示学习。 Conformer 源于特征耦合单元 (FCU)，它以交互方式融合不同分辨率下的局部特征和全局表示。 Conformer 采用...
基于WENET制作AI字幕
2022-03-29 09:53

语音不识别的博客基于WENET制作AI字幕 wenet环境配置获取视频并转音频安装处理视频工具安装ffmpeg：https://blog.csdn.net/zhouyj6516/article/details/107416209 ffmpeg参数：https://www.cnblogs.com/mwl523/p/10856633.html ...
Conformer
2022-04-20 10:26

GSAU-深蓝工作室的博客在卷积网络中，卷积操作非常擅长捕捉局部特征信息，但是对于捕捉图像中的全局特征信息就非常困难；对于Transformer，级联的self-attention机制可以捕捉到长距离的特征信息，但是又会弱化掉局部特征信息。其实这也是...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月8日

悬赏问题

¥15 Fatal error in Process MEMORY
¥15 labelme生成的json有乱码?
¥30 arduino vector defined in discarded section `.text' of wiring.c.o (symbol from plugin)
¥20 如何训练大模型在复杂因素组成的系统中求得最优解
¥15 关于#r语言#的问题：在进行倾向性评分匹配时，使用“match it"包提示”错误于eval(family$initialize): y值必需满足0 <= y <= 1“请问在进行PSM时
¥45 求17位带符号原码乘法器verilog代码
¥20 PySide6扩展QLable实现Word一样的图片裁剪框
¥15 matlab数据降噪处理，提高数据的可信度，确保峰值信号的不损失？
¥15 怎么看我在bios每次修改的日志
¥15 python+mysql图书管理系统

wenet中efficient conformer流模式代码

7条回答 默认 最新

问题事件

悬赏问题

7条回答默认最新