本人的毕设要求用注意力机制挖掘数据属性列之间的联系,便于生成数据清洗规则。但是在用自注意力机处理数据时,发现相似度的计算主要基于对原始数据的embedding。因为要体现不同属性列数据间的相关性,于是考虑到了共现矩阵(目前的设想是把连续型数据离散化,大致把样本中出现的所有数据做一个简单区分就好啦)。在一通胡乱查阅资料后发现似乎可以用glove。。但是glove应该也没啥处理非文本数据的先例。有没有路过的大神能帮我看看这种思路可不可行?如果可行的化,可以对原始数据做一些怎样的处理使其能够套进glove的应用框架里。拜托啦~
1条回答 默认 最新
关注
让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言
首先,您的思路是可行的。虽然GloVe通常用于处理文本数据,但是您可以通过一些处理方法将非文本数据转换成适合GloVe处理的形式。一种方法是将离散化后的数据转换成词向量的形式,然后再进行GloVe模型的训练。 以下是一个简单的示例代码,假设您有一组连续型数据和需要进行离散化处理:import numpy as np from sklearn.preprocessing import KBinsDiscretizer from gensim.models import Word2Vec # 原始连续型数据 data = np.array([[1.0, 2.0, 3.0], [2.0, 3.0, 4.0], [3.0, 4.0, 5.0]]) # 进行离散化处理 discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform') data_discretized = discretizer.fit_transform(data) # 转换成词向量的形式 sentences = [list(map(str, row)) for row in data_discretized] # 使用Word2Vec训练词向量模型 model = Word2Vec(sentences, size=100, window=5, min_count=1, workers=4) # 获取词向量 vector = model.wv['0.0']
通过以上代码,您可以将原始数据进行离散化处理,并转换成适合GloVe处理的形式。之后您可以根据实际需求调整模型参数,并训练出对应的词向量模型。 希望对您有所帮助,祝您毕设顺利!如果有任何疑问,请随时提出。
解决 无用评论 打赏 举报
悬赏问题
- ¥15 在若依框架下实现人脸识别
- ¥15 网络科学导论,网络控制
- ¥100 安卓tv程序连接SQLSERVER2008问题
- ¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比,为什么Snetinel-2计算的结果最小值特别小,而Lansat8就很平均
- ¥15 metadata提取的PDF元数据,如何转换为一个Excel
- ¥15 关于arduino编程toCharArray()函数的使用
- ¥100 vc++混合CEF采用CLR方式编译报错
- ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
- ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
- ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同