qq_46067989 2023-03-29 06:19 采纳率: 0%
浏览 27

gensim里LDA模型训练时的corpus参数什么意思?

问题1:gensim里LDA模型训练时的corpus参数什么意思?


lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=20, passes=60)

问题2:看到有人还结合了tf-idf来初始化corpus,为什么要用tf-idf呢?

tfidf_model = model.TfidfModel(corpus)
corpus_tfidf = tfidf_model[corpus]
  • 写回答

1条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2023-03-29 08:26
    关注
    • 这篇文章:TF-IDF矩阵与LDA模型的参数 也许能够解决你的问题,你可以看下
    • 除此之外, 这篇博客: gensim实现TF-IDF和LDA模型、sklearn实现聚类中的 2.2 corpus创建 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
    • corpus = [id2word.doc2bow(text) for text in string_list100]   # 分别对每篇文章建立词袋向量
      
      print(corpus[:1])
      print([[(id2word[id], freq) for id, freq in cp] for cp in corpus[:1]])
      

      输出形如:

      [(0, 2), (1, 2)]
      [('一侧', 2), ('一端', 2)]
      
    评论

报告相同问题?

问题事件

  • 创建了问题 3月29日

悬赏问题

  • ¥15 无源定位系统的时差估计误差标准差
  • ¥15 请问这个代码哪里有问题啊
  • ¥20 python--version在命令端输入结果Python is not defined怎么办?还有pip不是exe格式是不是没安装成功?
  • ¥15 通过GaussianView进行结构微调消除虚频
  • ¥15 调用transformers库
  • ¥15 由于导出的数据名字中带有/,导致Matlab打不开,怎么办?
  • ¥15 新硬盘安装的程序总是崩溃,提示遇到错误
  • ¥15 openpcdet自制数据集评估bev精度和3d精度相同
  • ¥15 excel 上下按钮 显示行
  • ¥20 云卓h12pro 数传问题