在现有LDA基础上添加余弦相似度

目前代码已经实现了对于英文文本的LDA聚类，但是由于之后需要计算余弦相似度，因此希望代码能增加一部分，使其输出的主题-概率分布具有词向量的特征，即输出的为：主题+词向量+概率，并在此基础上实现余弦相似度的计算

目标结果如图所示：

现有代码如下：

import numpy as np
from gensim import corpora, models

if name == 'main':

# 读入文本数据
f = open('E:/KYLX/LDA代码/LDA数据/g2020-2021.txt', encoding='utf-8')  # 输入已经预处理后的文本
texts = [[word for word in line.split()] for line in f]
f.close()
M = len(texts)
print('文本数目：%d 个' % M)

# 建立词典
dictionary = corpora.Dictionary(texts)
V = len(dictionary)
print('词的个数：%d 个' % V)

# 计算文本向量g
corpus = [dictionary.doc2bow(text) for text in texts]  # 每个text对应的稀疏向量

# 计算文档TF-IDF
corpus_tfidf = models.TfidfModel(corpus)[corpus]

# LDA模型拟合
num_topics = 9  # 定义主题数
lda = models.LdaModel(corpus_tfidf, num_topics=num_topics, id2word=dictionary,
                      alpha=0.01, eta=0.01, minimum_probability=0.001,
                      update_every=1, chunksize=100, passes=1)

# 所有文档的主题
doc_topic = [a for a in lda[corpus_tfidf]]
print('Document-Topic:')
print(doc_topic)

# 打印文档的主题分布
num_show_topic = 10  # 每个文档显示前几个主题
print('文档的主题分布：')
doc_topics = lda.get_document_topics(corpus_tfidf)  # 所有文档的主题分布
idx = np.arange(M)  # M为文本个数，生成从0开始到M-1的文本数组
for i in idx:
    topic = np.array(doc_topics[i])
    topic_distribute = np.array(topic[:, 1])
    topic_idx = topic_distribute.argsort()[:-num_show_topic - 1:-1]  # 按照概率大小进行降序排列
    print('第%d个文档的前%d个主题：' % (i, num_show_topic))
    print(topic_idx)
    print(topic_distribute[topic_idx])

# 每个主题的词分布
num_show_term = 15  # 每个主题显示几个词
for topic_id in range(num_topics):
    print('主题#%d：\t' % topic_id)
    term_distribute_all = lda.get_topic_terms(topicid=topic_id)  # 所有词的词分布
    term_distribute = term_distribute_all[:num_show_term]  # 只显示前几个词
    term_distribute = np.array(term_distribute)
    term_id = term_distribute[:, 0].astype(np.int)
    print('词：', end="")
    for t in term_id:
        print(dictionary.id2token[t], end=' ')
    print('概率：', end="")
    print(term_distribute[:, 1])

# 将主题-词写入一个文档 topword.txt，每个主题显示20个词
with open('E:/KYLX/LDA代码/LDA数据/gg2020-2021.txt', 'w', encoding='utf-8') as tw:
    for topic_id in range(num_topics):
        term_distribute_all = lda.get_topic_terms(topicid=topic_id, topn=20)
        term_distribute = np.array(term_distribute_all)
        term_id = term_distribute[:, 0].astype(np.int)
        for t in term_id:
            tw.write(dictionary.id2token[t] + " ")
        tw.write("\n")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2022-01-21 10:52
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答

本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为您补发到账户。

因为有问必答VIP体验卡有效期仅有1天，您在需要使用的时候【私信】联系我，我会为您补发。

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

问个用MATLAB实现的LDA问题 matlab
2016-04-17 14:16

回答 2 已采纳 http://download.csdn.net/detail/gaohong520/5017607
LDA模型运行时报错，如何解决？(语言-python) nlp python 有问必答自然语言处理
2022-03-08 09:36

回答 2 已采纳可能是路径中包含中文，在操作文件的过程中会因为中文字符的原因导致无法找到正常的路径，因此会出现 Users\ + xe6…那些报错。
LDA主题模型输入问题 python 机器学习自然语言处理
2023-02-19 01:28

回答 2 已采纳该回答引用ChatGPT LDA主题模型是一种无监督机器学习方法，可以将文本数据集中的每个文档（例如年报）表示为主题的概率分布，同时将每个主题表示为词汇的概率分布。因此，对于上市公司的年报，我们可以
【项目实战】Python实现基于LDA主题模型进行电商产品评论数据情感分析
2021-10-17 10:35

胖哥真不错的博客在21世纪人工智能大数据时代，网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品并购物，产生了海量的用户行为数据，用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的...
向大佬请教，做LDA主题分析时，多个主题结果一样 python 有问必答
2021-05-10 22:02

回答 6 已采纳 1.数据上，读取时要设置header;2.在分词之前，要将各行数据进行处理。这样改： texts=pd.read_excel(r'data1.xlsx',header=None).astype(s
LDA主题模型中文文本输入问题中文分词机器学习
2023-03-01 16:57

回答 2 已采纳是的，在使用LDA主题模型之前，需要将中文文本进行分词，并将分词后的结果转换为列表形式，然后再进行corpora.Dictionary及dictionary.doc2bow等操作。具体来说，需要经过以
python做LDA模型出现问题 python
2023-02-28 10:49

回答 2 已采纳 css样式没有引入，这儿抛错了，无效的css参数，你仔细检查一下，这个css参数对不对
人工智能面试问题整理
2021-12-23 22:50

白拾Official的博客例如，分析一个人的身高和体重对健康的影响，如果使用米（m）和千克（kg）作为单位，那么身高特征会在1.6～1.8m的数值范围内，体重特征会在50～100kg的范围内，分析出来的结果显然会倾向于数值差别比较大的体重特征...
求Java版的LDA源码，急 java
2014-12-18 09:53

回答 1 已采纳在sourceforge.net上有：[JGibbLDA](http://jgibblda.sourceforge.net/ "JGibbLDA") > A Java Implementati
lda主题模型报错return pd.concat python 深度学习
2023-04-08 00:55

回答 1 已采纳看下这篇博客，也许你就懂了，链接：pd.concat()的用法
Python文本挖掘lda模型可视化后出错怎么改？ python 有问必答
2021-06-09 14:56

回答 3 已采纳提示编码格式错误，你改成utf-8试试
数据挖掘案例实战：利用LDA主题模型提取京东评论数据
2020-09-28 13:48

爱学习的数据喵的博客利用好这些碎片化、非结构化的数据，将有利于企业在电商平台上的持续发展，对这部分数据进行分析，依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。本章主要针对用户在电商平台上留下的评论数据，对...
LDA模型中阿尔法和贝塔如果不设置有默认值吗 python
2023-04-16 10:03

回答 1 已采纳你可以看下这个问题的回答https://ask.csdn.net/questions/7412132我还给你找了一篇非常好的博客，你可以看看是否有帮助，链接：主题模型LDA的实现除此之外, 这篇博客:
万字综述，GNN在NLP中的应用，建议收藏慢慢看
2021-06-24 01:08

kaiyuan_sjtu的博客本章中，将阐述GNNs的基础理论和方法，能够直接在图结构的数据上操作。并详细介绍了图滤波器（Spectral-based Graph Filters，Spatial-based Graph Filters，Attention-based Graph Filters，Recurrent-based Graph ...
【知识图谱】知识图谱的基础概念与构建流程
2019-11-09 18:46

夜空骑士的博客目录 1、引言 2、知识图谱的定义 ...【导读】知识图谱技术是人工智能技术的组成部分，其强大的语义处理和互联组织能力，为智能化信息应用提供了基础。我们专知的技术基石之一正是知识图谱-构建AI知识体系-专...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月20日

悬赏问题

¥15 fluent的在模拟压强时使用希望得到一些建议
¥15 STM32驱动继电器
¥15 Windows server update services
¥15 关于#c语言#的问题：我现在在做一个墨水屏设计，2.9英寸的小屏怎么换4.2英寸大屏
¥15 模糊pid与pid仿真结果几乎一样
¥15 java的GUI的运用
¥15 Web.config连不上数据库
¥15 我想付费需要AKM公司DSP开发资料及相关开发。
¥15 怎么配置广告联盟瀑布流
¥15 Rstudio 保存代码闪退

在现有LDA基础上添加余弦相似度

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新