embedding的原理

我想在matlab 上复现一段python代码的功能
主要是将一段DNA序列用（1 2 3 4）编码后提取特征矩阵
然后进行神经网络训练。
这里第一步就是用embedding把数字变成向量
但是我不知道这里的向量究竟是如何得到的？
是依据我输入的数组的数据的关系还是有一个词典进行匹配？（我觉得更有可能是前者，但是不知道具体怎么得到的）

def __init__(self):
        super(Prediction, self).__init__()
        self.Embedding = torch.nn.Embedding(num_embeddings=5,embedding_dim=DIM_embedding)
        self.dropout = nn.Dropout(p=0.2)
        
        self.conv1 = nn.Conv1d(in_channels = DIM_embedding, out_channels = DIM, kernel_size = 5,padding = 2)
        self.BatchNorm1d = nn.BatchNorm1d(DIM)
        self.relu1 = nn.ReLU()
        self.MaxPool1d = nn.MaxPool1d(kernel_size=2)
       
        self.conv2 = nn.Conv1d(in_channels = DIM, out_channels = DIM, kernel_size = 5,padding = 2)
        self.BatchNorm1d = nn.BatchNorm1d(DIM)
        self.relu1 = nn.ReLU()
        self.MaxPool1d = nn.MaxPool1d(kernel_size=3,stride=2)
        
        self.dropout = nn.Dropout(p=0.2)
        self.LSTM = nn.LSTM(input_size=DIM,hidden_size=DIM,num_layers=1)
        self.linear = nn.Linear(60 * DIM, 1)
        
    def forward(self,x):
        x = self.Embedding(x) #(batch_size, seq_len, embedding_dim)
        x = self.dropout(x)  #(batch_size, seq_len, embedding_dim)
        
        x = x.permute(0, 2, 1)#(batch_size, embedding_dim, seq_len)
        x = self.conv1(x)   #(batch_size, dim, seq_len)
        x = self.dropout(x)
        x = self.relu1(x)#(batch_size, dim, seq_len)
        x = self.MaxPool1d(x)#(batch_size, dim, 30)
        #x = self.BatchNorm1d(x)#(batch_size, dim, 30)
        x = x.permute(0, 2, 1)#(batch_size,30,dim,)
        x1,(hn,cn) = self.LSTM(x)#(batch_size, 30, dim)
        
        x = x.permute(0, 2, 1)#(batch_size, dim, 30)
        x = self.conv2(x)   #(batch_size, dim, 30)
        x = self.dropout(x)
        x = self.relu1(x)#(batch_size, dim, 30)
        x = self.BatchNorm1d(x)#(batch_size, dim, 30)
        x = x.permute(0, 2, 1)#(batch_size,30,dim,)
        x2,(hn,cn) = self.LSTM(x)#(batch_size, 30, dim)
        
        x = torch.cat((x1,x2),1)
        x = self.dropout(x)
        x = torch.reshape(x, (-1, 60 * DIM)) #(batch_size, seq_len * dim)
        x = self.linear(x) #(batch_size, 1)
        x = x.squeeze(-1)
        return x

希望知道这里的nn.embedding的底层原理,就是数字和嵌入的向量的关系
另外不知道有没有能在matlab上能实现类似的num2vec的功能的函数
万分感谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
kakaccys 2022-08-14 22:04
关注
embedding的原理你可以去搜cbow和skip-gram，说白了就是用两边的字或词预测中间的，或者用中间的字或词预测两边的。
第一，每个文本，我们可以取字也可以取词，以字为例，先生成字典{"以":0,"字":1,"为":2,"例":3}
第二，然后将上述字典转为one-hot。
第三，开始将文本放入训练，以cbow为例，说白了比如训练"为"这个字的时候，x是以，字，例等one-hot，y是为的one-hot，中间计算说白了就是神经网络。
至于matlab里，我看他官网有，但是我还是劝你早点用python吧，有时候选择比努力更重要。
https://ww2.mathworks.cn/products/text-analytics.html

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

embedding的原理 matlab python 深度学习
2022-08-14 21:34

回答 2 已采纳 embedding的原理你可以去搜cbow和skip-gram，说白了就是用两边的字或词预测中间的，或者用中间的字或词预测两边的。第一，每个文本，我们可以取字也可以取词，以字为例，先生成字典{"以":
embedding 矩阵是根据什么来生成的呢 word2vec 自然语言处理
2022-07-20 15:03

回答 1 已采纳这个问题我以前也困扰过，研究半天发现结果其实特别简单，embedding 层就是一个查找表。这就是说，如果你有 10 个 token，也就是有 10 种 one-hot 编码，那么每一个 one-ho
tensorflow 怎么进行变长序列的embedding？ tensorflow 数据挖掘深度学习神经网络自然语言处理
2020-09-11 16:23

回答 1 已采纳 https://blog.csdn.net/qq_27825451/article/details/88991529
embedding的原理和结构
2024-02-29 17:56

瓶子好亮的博客 (向量化)是一个将数据转化为向量矩阵的过程，作用是：将高维稀疏向量转化为稠密向量，从而方便下游模型处理简单的概念大家应该都知道了，以LLM为例输入：文字模型：embedding输出：向量我疑惑的难点主要为以下：1....
请问命名实体识别任务中如何在bilstm前加入embedding？ lstm nlp 自然语言处理
2022-01-17 21:39

回答 1 已采纳可以把BERT的Embedding层拿来用，也可以把BEET的输出视为embedding，也可以自己使用NN..Embedding定义一层Embedding层，自己进行训练
word embedding区分大小写吗，尤其是首字母 actionscript c语言 typescript
2023-03-09 21:07

回答 1 已采纳该回答引用ChatGPT 在 Word embedding 中，通常会将单词的大小写视为不同的单词，并分别对其进行编码，即大小写形式不同的单词会被视为不同的词汇，这是因为同一个单词的不同大小写形式可
文本数据为阿拉伯数字和运算符号怎么做embedding呢 nlp word2vec 语言模型
2023-03-30 10:43

回答 1 已采纳文章：深度学习中，embedding如何理解？中也许有你想要的答案，请看下吧
nn.Embedding()的原理
2023-11-16 10:21

双天至尊20176的博客 nn.Embedding()的原理：定义一个Embedding： embeddings = nn.Embedding(num_embeddings=10, embedding_dim=3) vocab_size : 10 输出维度为： 3 假定输入inputs如下： inputs = torch.tensor([ [1,3,6, 8], [9,1,3,...
facenet中的train_tripletloss.py报错 python 人工智能
2022-06-07 10:28

回答 1 已采纳 embeddings为4096，后面的为3Xargs.embedding_size=384？4096无法整除以384，所以是无法reshape的，所以你应该是改了什么参数了，改回去看看
GCN图表示是无监督还是有监督？人工智能深度学习
2022-05-15 10:46

回答 2 已采纳看下游任务，你如果做分类可以是无标签，只训练embedding可以无标签，看下摘要就知道，GCN半监督准确率会高些
Python 内存占用高 django python 人工智能
2021-03-02 16:45

回答 1 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 你可以参考下这篇文章：Python内存模型如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
人工智能内容生成元年—AI绘画原理解析
2022-12-03 22:27

AI记忆的博客 AIGC元年达到了学术-商业共振，本文介绍现有AI绘画、AI作画背后的相应基本原理、应用、以及论文参考文献。
imageai + resnet50为何报type object got multiple values for keyword argument 'training' python 目标检测计算机视觉
2022-04-19 16:30

回答 1 已采纳更换resnet50_coco_best_v2.0.1已解决
Embedding原理到实战
2022-03-09 16:58

笑傲NLP江湖的博客图灵测试其实就是人工智能的最早的雏形，它的思想就是制作一个机器，让其他人分辨不出来这个机器人是一个真的机器还是一个人。阿兰图灵的很多理论成为了人工智能最早期的思想萌芽。 1950 年，在有了人工智能的想法...
【文本特征表征（1）】什么是embedding（把物体编码为一个低维稠密向量）pytorch中nn.Embedding原理及使用，大模型的LMAS.Embedding原理及使用
2022-06-15 15:57

Hali_Botebie的博客使embedding空前流行的“word2vec”到了深度学习时代，我们一定会首先想到 2013 年的 Word2Vec——没错，句子是由词构成的，有了词向量，句子向量自然而然呼之欲出了。直觉看，直接对每个词的向量拼接、求和、逐元素...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月14日

悬赏问题

¥15 smptlib使用465端口发送邮件失败
¥200 总是报错，能帮助用python实现程序实现高斯正反算吗？有偿
¥15 对于squad数据集的基于bert模型的微调
¥15 为什么我运行这个网络会出现以下报错？CRNN神经网络
¥20 steam下载游戏占用内存
¥15 CST保存项目时失败
¥15 树莓派5怎么用camera module 3啊
¥20 java在应用程序里获取不到扬声器设备
¥15 echarts动画效果的问题，请帮我添加一个动画。不要机器人回答。
¥15 Attention is all you need 的代码运行

embedding的原理

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新