相对位置编码的Pytorch实现，1d数据

我想询问一下，就是说对于Transformer的相对位置编码是怎么实现的，我是使用Pytorch的，然后处理的数据是1d的，想问问有没有实现过的，我也是尝试了一下，但是感觉实验结果不理想，所以想问问我的是否有错，或者有没有成品给我尝试一下。

import torch
import torch.nn as nn

# 获得相对位置矩阵，这时候还没有乘于可训练参数
def position_distance( Seq ):
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

    positional_l = torch.arange(Seq, dtype=torch.long, device=device).view(-1, 1)      # 获得长度
    positional_r = torch.arange(Seq, dtype=torch.long, device=device).view(1, -1)      # 获得长度
    distance = positional_l - positional_r      # 相减获得相互距离
    distance = distance + Seq - 1       # 让值都保持为正数
    return distance


class Multihead_Attention(nn.Module):
    def __init__(self, dim, num_heads, Seq):
        super().__init__()

        # Q, K, V 转换矩阵
        self.q = nn.Linear(dim, dim, bias=False)
        self.k = nn.Linear(dim, dim, bias=False)
        self.v = nn.Linear(dim, dim, bias=False)
        self.num_heads = num_heads

        self.position_dim = dim // num_heads     # 因为是计算每个头的相对位置，所以dim要除于head
        # self.Seq_embedding = nn.Embedding(2*Seq-1, self.position_dim)
        self.Seq_embedding = nn.Parameter(torch.zeros((2*Seq-1), self.position_dim))

    def forward(self, x):  # [batch, Seq, dim]

        # *************多头注意力机制*************

        batch_size, Seq, dim = x.shape

        # q k v -> [batch, head, seq, dim]
        q = self.q(x).reshape(batch_size, Seq, self.num_heads, -1).permute(0, 2, 1, 3)
        k = self.k(x).reshape(batch_size, Seq, self.num_heads, -1).permute(0, 2, 1, 3)
        v = self.k(x).reshape(batch_size, Seq, self.num_heads, -1).permute(0, 2, 1, 3)

        # 计算相对位置距离
        distance = position_distance(Seq)
        distance = self.Seq_embedding[distance]     # ->[seq, seq, dim/head]
        # distance = self.Seq_embedding(distance)  # ->[seq, seq, dim/head]
        distance = distance.transpose(1, 2)     # ->[seq, dim/head, seq]

        # 计算q和distance相乘
        q_distance = q.permute(2, 0, 1, 3).reshape(Seq, batch_size*self.num_heads, self.position_dim)   # ->[seq, batch*head, dim]
        QmD = (q_distance @ distance).reshape(Seq, batch_size, self.num_heads, Seq).permute(1, 2, 0, 3)    # ->[dim, head, seq, seq]

        # 点积得到attention score
        MultiHead_attn = ((q@k.transpose(2, 3)) + QmD) * (self.position_dim ** -0.5)      # -> [batch, head, seq, seq]
        MultiHead_attn = MultiHead_attn.softmax(dim=-1)

        # 乘上attention score并输出  -> [batch, dim, Seq]
        MultiHead_attn = (MultiHead_attn @ v).permute(0, 2, 1, 3).reshape(batch_size, Seq, dim)

        return MultiHead_attn

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
kakaccys 2022-08-16 18:00
关注
楼主，相对位置实现，你可以参考这个网址：
https://blog.csdn.net/cyz0202/article/details/124929307

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

tensorflow转pytorch实现 python
2022-07-28 17:58

回答 2 已采纳这个跟keras还是pytorch没有任何关系，这就是个one hot，无非就是把类别标签都转为one hot，和框架没有任何关系，比如你有[0,1,2,3]四个类，那么0会由[1,0,0,0]表示，
实现pytorch时出现空参数问题 pytorch 机器学习深度学习
2022-10-24 15:49

回答 1 已采纳 int是什么鬼？改成__init__，不然你都没有初始化model，导致你的model就是空的
感知机算法的pytorch实现代码 python pytorch 机器学习
2021-10-22 11:27

回答 1 已采纳应该解决了 import matplotlib.pyplot as plt import torch import torch.utils.data as Data import numpy as n
PyTorch实战-实现神经网络图像分类基础Tensor最全操作详解(一)
2023-09-13 11:07

fanstuck的博客 Tensor是PyTorch中最基本的数据结构，可以看作是一个多维数组（矩阵的扩展）。与NumPy中的数组类似，与其不同的是ndarrays不能使用GPU加速计算但Tensor可以在GPU上运行，这使得它在深度学习领域特别强大，归根结底...
原形网络基于pytorch的实现 python pytorch
2023-03-22 13:23

回答 1 已采纳您可以按照以下步骤使用原形网络训练您自己的样本：将您的数据集转换为pytorch可以使用的数据格式，例如使用torchvision中的ImageFolder或Dataset类。请确保每个类别的样本数
pytorch自编码器训练 python pytorch 深度学习
2022-09-07 12:59

回答 3 已采纳 batch_size一般为32、64就可以了，不需要用到全部的数据，这样子会导致模型收敛慢。256只是编码器的输出位数，没有特定约束，跟1998没有任何关系，可以是任意数，只需要保证跟解码器的输入是一
pytorch重写Dataset类，用于读取csv数据 python pytorch 有问必答深度学习
2022-02-23 16:19

回答 2 已采纳根据数据类型进行转换一下试试，类似这样： import numpy as np s='251 251 251 253 246 217 186 172 162 139 144 113 92 164 20
吴恩达课后编程作业 Course 2 - 改善深层神经网络识别手势pytorch实现
2022-01-14 15:50

JieShiZuoJiuShiYan的博客我是一名小白，最近学习pytorch，用pytorch复现一下吴的课后编程作业一、导入库开始之前先导入库 import numpy as np import h5py import matplotlib.pyplot as plt import tf_utils import time import ...
关于pytorch网站上官方实现fcn网络的问题 pytorch 深度学习
2022-04-11 11:22

回答 1 已采纳低版本可手动安装，是否兼容可自行尝试 path '/data/VOCdevkit\VOC2012' does not exist. 报错是文件位置不对，你已经找到在哪里改了，可将--data-path
pytorch中实现图片由1通道向2通道转变 pytorch 人工智能深度学习
2022-10-06 22:07

回答 2 已采纳 transforms.Grayscale(num_output_channels=2)
pytorch数据集出现问题?? pytorch 人工智能
2021-07-16 17:15

回答 1 已采纳 [[1.0],[2.0],[3.0]],下面一样外面加层括号
利用Microsoft COCO数据集和pytorch实现看图说话
2020-08-28 11:26

安替-AnTi的博客对于没有GPU的同学，本文建议在Google Colab环境下进行代码编程。本文用浅显易懂的方式解释了什么是“看图说话”(Image Captioning)，借助Github上的PyTorch代码带领大家自己做一个模型。介绍深度学习目前是一个...
pytorch：从dataset删除数据 python 神经网络自然语言处理
2021-03-15 13:36

回答 1 已采纳那你按剩下的index选数据不就行了： 1.得到你要用的index 2.train_tensor.index_select(0,index),train_label.index_select(0,
玩PyTorch？你不得不看的PyTorch资源大列表
2020-02-29 18:16

BoCong-Deng的博客 PyTorch我就不多说了吧，我搞CV平时也就用PyTorch和TensorFlow，不过最近更喜欢用PyTorch 了，因为TensorFlow的API真的搞的我头疼，不过因为我有时候用C++写算法的话，还是会用TensorFlow的。PyTorch 能在短时间内被...
第02章 PyTorch基础知识
2021-10-15 17:54

青少年编程备考的博客文章目录第02章 Pytorch基础知识2.1 张量2.2 自动求导2.3 并行计算简介2.3.1 为什么要做并行计算2.3.2 CUDA是个啥2.3.3 做并行的方法补充：通过股票数据感受张量概念。本图文是Datawhale组队学习Pytorch的学习笔记...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月16日

悬赏问题

¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 关于大棚监测的pcb板设计
¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器
¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)
¥15 Vue3地图和异步函数使用

相对位置编码的Pytorch实现，1d数据

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新