Ashley1101 2021-04-23 15:41 采纳率: 0%
浏览 8

求解glove能否用于处理非文本数据

本人的毕设要求用注意力机制挖掘数据属性列之间的联系,便于生成数据清洗规则。但是在用自注意力机处理数据时,发现相似度的计算主要基于对原始数据的embedding。因为要体现不同属性列数据间的相关性,于是考虑到了共现矩阵(目前的设想是把连续型数据离散化,大致把样本中出现的所有数据做一个简单区分就好啦)。在一通胡乱查阅资料后发现似乎可以用glove。。但是glove应该也没啥处理非文本数据的先例。有没有路过的大神能帮我看看这种思路可不可行?如果可行的化,可以对原始数据做一些怎样的处理使其能够套进glove的应用框架里。拜托啦~

  • 写回答

1条回答 默认 最新

  • 码农阿豪@新空间代码工作室 Java领域优质创作者 2024-07-14 22:04
    关注
    让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言
    首先,您的思路是可行的。虽然GloVe通常用于处理文本数据,但是您可以通过一些处理方法将非文本数据转换成适合GloVe处理的形式。一种方法是将离散化后的数据转换成词向量的形式,然后再进行GloVe模型的训练。 以下是一个简单的示例代码,假设您有一组连续型数据和需要进行离散化处理:
    import numpy as np
    from sklearn.preprocessing import KBinsDiscretizer
    from gensim.models import Word2Vec
    # 原始连续型数据
    data = np.array([[1.0, 2.0, 3.0], [2.0, 3.0, 4.0], [3.0, 4.0, 5.0]])
    # 进行离散化处理
    discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
    data_discretized = discretizer.fit_transform(data)
    # 转换成词向量的形式
    sentences = [list(map(str, row)) for row in data_discretized]
    # 使用Word2Vec训练词向量模型
    model = Word2Vec(sentences, size=100, window=5, min_count=1, workers=4)
    # 获取词向量
    vector = model.wv['0.0']
    

    通过以上代码,您可以将原始数据进行离散化处理,并转换成适合GloVe处理的形式。之后您可以根据实际需求调整模型参数,并训练出对应的词向量模型。 希望对您有所帮助,祝您毕设顺利!如果有任何疑问,请随时提出。

    评论

报告相同问题?

悬赏问题

  • ¥15 在若依框架下实现人脸识别
  • ¥15 网络科学导论,网络控制
  • ¥100 安卓tv程序连接SQLSERVER2008问题
  • ¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比,为什么Snetinel-2计算的结果最小值特别小,而Lansat8就很平均
  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同