求解glove能否用于处理非文本数据

本人的毕设要求用注意力机制挖掘数据属性列之间的联系，便于生成数据清洗规则。但是在用自注意力机处理数据时，发现相似度的计算主要基于对原始数据的embedding。因为要体现不同属性列数据间的相关性，于是考虑到了共现矩阵（目前的设想是把连续型数据离散化，大致把样本中出现的所有数据做一个简单区分就好啦）。在一通胡乱查阅资料后发现似乎可以用glove。。但是glove应该也没啥处理非文本数据的先例。有没有路过的大神能帮我看看这种思路可不可行？如果可行的化，可以对原始数据做一些怎样的处理使其能够套进glove的应用框架里。拜托啦~

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间代码工作室 Java领域优质创作者 2024-07-14 22:04
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
首先，您的思路是可行的。虽然GloVe通常用于处理文本数据，但是您可以通过一些处理方法将非文本数据转换成适合GloVe处理的形式。一种方法是将离散化后的数据转换成词向量的形式，然后再进行GloVe模型的训练。以下是一个简单的示例代码，假设您有一组连续型数据和需要进行离散化处理：
import numpy as np from sklearn.preprocessing import KBinsDiscretizer from gensim.models import Word2Vec # 原始连续型数据 data = np.array([[1.0, 2.0, 3.0], [2.0, 3.0, 4.0], [3.0, 4.0, 5.0]]) # 进行离散化处理 discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform') data_discretized = discretizer.fit_transform(data) # 转换成词向量的形式 sentences = [list(map(str, row)) for row in data_discretized] # 使用Word2Vec训练词向量模型 model = Word2Vec(sentences, size=100, window=5, min_count=1, workers=4) # 获取词向量 vector = model.wv['0.0']

通过以上代码，您可以将原始数据进行离散化处理，并转换成适合GloVe处理的形式。之后您可以根据实际需求调整模型参数，并训练出对应的词向量模型。希望对您有所帮助，祝您毕设顺利！如果有任何疑问，请随时提出。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何将已经进行tfidf和glove处理好的数据导入文本 python 有问必答机器学习自然语言处理
2021-05-04 21:50

回答 3 已采纳你将数据让模型去训练学习啊
glove出错了，怎么搞呢 python
2022-12-11 22:03

回答 1 已采纳用法不对，望采纳
使用DOMXPath在PHP中调用XML数据 php xml
2018-10-01 03:03

回答 1 已采纳 The problem is that there is a namespace on your VehicleDescription element. You need to register
【自然语言处理与文本分析】PCA文本降维。奇异值分解SVD，PU分解法。无监督词嵌入模型Glove。有案例的将文本非结构化数据转化为结构化数据的方法。
2022-07-19 23:58

晴天qt01的博客将文本非结构化数据转化为结构化数据的方法无监督GLove词嵌入模型。（还有PCA和SVD，PU这种好用的方法的具体解读）
pytorch加载训练好的模型进行预测时，为什么又开始训练了 python 自然语言处理
2021-06-01 17:16

回答 2 已采纳因为你在run里的训练代码没有封装城函数，直接全局执行，import run.py 就开始xun lian le
用于比较装甲集的复杂阵列 php
2012-10-24 09:07

回答 1 已采纳 Here is an implementation from this guy: function array_cartesian_product($arrays) { $result
'ov::Exception，位于内存位置 0x00000001000FF650 处'，局部变量ie显示<无可用信息，未为openvino.dll加载任何符号> c++ openvino
2023-04-06 14:57

回答 5 已采纳以下答案由GPT-3.5大模型与博主波罗歌共同编写：这个问题是由于OpenVINO推理时发生异常引起的，具体原因需要查看OpenVINO异常的信息。方法一：可以在运行代码时，直接让代码输出OpenV
在PyTorch中处理文本数据时，如何进行词嵌入和文本向量化？
2024-04-30 11:24

_Johngo学长的博客词嵌入和文本向量化是NLP中常用的技术，可以将文本数据转换为机器学习算法可以处理的数值向量，从而提取文本的语义信息和特征。词嵌入是一种将离散的词转换为连续的向量表示的方法，通常使用的是分布式假设。Skip-...
Army Formations
2017-10-28 02:55

回答 1 已采纳 http://blog.csdn.net/u014258433/article/details/77416105
自然语言处理与其Mix-up数据增强方法报告
2023-05-02 09:55

原创小白变怪兽的博客朴素贝叶斯 (Naive Bayes) 是贝叶斯分类算法中最简单的一个，一般用于处理二分类或多分类任务。该算法围绕着一个核心进行展开：贝叶斯定理。贝叶斯网络实际上是一种模拟人类推理过程中因果关系的不确定性处理模型，...
NLP 自然语言处理实战
2022-03-28 15:49

风尘浪子的博客本文从分词、词频、词向量等基础领域开始讲解自然语言处理的原理，讲解 One-Hot、TF-IDF、PageRank 等算法及 LDA、LDiA、LSA 等语义分析的原理。介绍 Word2vec、GloVe 、Embedding 等常用词嵌入及 NLTK、Jieba 等...
人工智能文本分析 (AI Text Analysis)
2023-07-19 00:46

禅与计算机程序设计艺术的博客文本分析技术结合了自然语言处理（NLP）、机器学习和深度学习等多种技术手段，能够自动化地处理和分析文本数据，从中提取出有用的信息和知识。文本分析中的核心算法包括词袋模型（Bag of Words）、TF-IDF、词向量...
怎样通过Python代码库NLTK进行文本情感分析
2023-08-07 00:39

禅与计算机程序设计艺术的博客文本情感分析(Text Sentiment Analysis)是指对输入的一段文字或者文档的整体的积极或消极程度进行分析的一种自然语言处理技术。它的应用范围非常广泛，如产品评论，用户评论，微博客等等。近几年，随着深度学习、...
（三）文本嵌入式表示方法实战（词、句和段落向量：Word2Vec，GloVe，Paragraph2vec，FastText，DSSM）
2019-05-31 18:05

胖胖的飞象的博客《文本嵌入式表示方法实战》系列文章是基于2017年我于研一下半学期做的两场长时间的组会汇报ppt上形成的文章（学习和实验长达3个月，因为...（一）文本嵌入式表示方法实战（词、句和段落向量：Word2Vec，GloVe，P...
入坑NLP - 自然语言处理领域概述
2017-11-17 21:08

小智Robo的博客自然语言处理研究的内容包括但不限于如下分支：文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析（词法、句法、语法）、语音...
TensorFlow 2.0实现BERT文本分类模型：使用预训练的BERT模型进行文本分类任务
2023-08-09 04:20

禅与计算机程序设计艺术的博客 2018年是NLP技术爆炸式...其中最火的当属预训练的BERT(Bidirectional Encoder Representations from Transformers)模型，它可以学习到大量的文本语义信息并用于许多NLP任务中，比如文本分类、文本匹配、序列标注等。
word2vec,glove 向量模型训练实践
2021-04-10 15:49

飞锡2024的博客 3.处理后的数据放入模型(gensim/glove)训练，若经过一定epoch,loss值变化不大，则收敛，停止训练，保存得到embedding和字典(后续任务可能会用上) 各种词向量的特点： One-hot：维度灾难 and 语义鸿沟矩阵分解（LSA...
【NLP】对比学习——文本匹配（一）
2022-11-01 11:48

馨歌的博客 NLP方向的对比学习算法，针对文本相似度匹配任务，包括BERT-Flow、BERT-Whitening、ConSERT原理详解。
没有解决我的问题, 去提问

悬赏问题

¥15 在若依框架下实现人脸识别
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同

求解glove能否用于处理非文本数据

1条回答 默认 最新

悬赏问题

1条回答默认最新