DTM主题模型主题强度计算

我最后得出的主题-时间矩阵全是0，主题在不同时间点的热度全是NaN，这是为什么啊？我想用它呈现主题阶段热力图。明明前面DTM跑出来得到的“时间——主题矩阵、主题——时间矩阵以及文档——主题矩阵”，都有值啊，为什么最后算出来是0


```python
import os
import re
import numpy as np
import math
import nltk
import spacy  ####安装英文包！！！！
from nltk.corpus import wordnet
from nltk import MWETokenizer
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk import word_tokenize, pos_tag
from nltk.stem import WordNetLemmatizer
import string
import pandas as pd

wnl = WordNetLemmatizer()

def get_stop_dict(file):
    content = open(file,encoding="utf-8")
    word_list = []
    for c in content:
        c = re.sub('\n|\r','',c)
        word_list.append(c)
    return word_list
def get_wordnet_pos(tag): 
    if tag.startswith('N'):
        return wordnet.NOUN
   
    else:
        return None

#os.chdir("D:/jupyter_file/work/DTM/DTM_一致性/")  
os.chdir("C:/Users/123/Documents/Python Scripts/4nltk dtm")###修改文件路径！！！！！！！！！！！
text = open("0113.txt",encoding='utf-8').read()

stop_file = "stopwords.txt"#！！！！！
dic_file = "dict.txt"#！！！！！！！
synonym_file = "synonym.xlsx"#！！！！！！！！！
stop_list = get_stop_dict(stop_file)

nlp = spacy.load("en_core_web_sm")
nlp.max_length = 8000000
doc = nlp(text)

# 自动提取短语
phrases = []
for ent in doc.ents:
    if ' ' in ent.text:
        phrases.append(ent.text)
    
f = open('短语.txt','w',encoding='utf-8')
for p in phrases:
    f.write(p+'\n')
f.close()

## 自定义词组
dicts = open(dic_file,encoding='utf-8').readlines()
dict_tuple = []
dicts.extend(phrases)
for d in dicts:
    d = d.replace('\n','')
    d = tuple(d.split(' '))
    if d not in dict_tuple:
        dict_tuple.append(d)

def english_word_cut(t):
    #去除标点符号
    t = t.lower()
    for c in string.punctuation:
        if c !='-':
            t = t.replace(c,' ')
        if c =='-':
            t = t.replace(c,'_')
    #分词，添加自定义词组
    tokenizer = MWETokenizer(dict_tuple, separator = '_')
    wordlist = tokenizer.tokenize(nltk.word_tokenize(t))
    #wordlist = nltk.word_tokenize(t)
    filtered = [w for w in wordlist if w not in stop_list and w not in stopwords.words('english')]

    refiltered =nltk.pos_tag(filtered)
    
    #词形还原
    lemmas_sent = []
    for wordtag in refiltered:
        wordnet_pos = get_wordnet_pos(wordtag[1]) or wordnet.NOUN
        word = wnl.lemmatize(wordtag[0], pos=wordnet_pos)
        if word in synonym_origin:
            index = synonym_origin.index(word)
            word = synonym_new[index]
        lemmas_sent.append(word)
    
    return lemmas_sent

c_list = []
synonym = pd.read_excel(synonym_file)
synonym_origin = list(synonym['origin'])
synonym_new = list(synonym['new'])
for c in text.split('\n'):
    if len(c)>0:
        c_list.append(english_word_cut(c))

print("##处理后:",c_list)

#方法1
import logging
from gensim import corpora  #4.0.0版本
from six import iteritems
from gensim.models import ldaseqmodel
from gensim.corpora import Dictionary, bleicorpus

#c_list = c_list[0:150]
id2word = corpora.Dictionary(c_list)
corpus = [id2word.doc2bow(sentence) for sentence in c_list]

time_slice=[18,28,33] 
num_topics = 15 

ldaseq = ldaseqmodel.LdaSeqModel(corpus=corpus, time_slice=time_slice,id2word=id2word, num_topics=num_topics,passes=50)

corpusTopic = ldaseq.print_topics(time=0)  # 输出指定时期主题分布，此处第一个时期主题分布
print(corpusTopic)
topicEvolution = ldaseq.print_topic_times(topic=14) # 查询指定主题在不同时期的演变，此处为第一个主题的
print(topicEvolution)
doc = ldaseq.doc_topics(0) # 查询指定文档的主题分布,此处为第一篇文档的主题分布
print (doc)

# 一致性得分 
from gensim.models.coherencemodel import CoherenceModel

# 获取每个时间片的主题-词语分布

topics_per_time_slice = []
number_of_time_slices = len(time_slice)
for t in range(number_of_time_slices):  
    #topics = ldaseq.print_topics(time=t)
    topics = ldaseq.dtm_coherence(time=t)
    topics_per_time_slice.append(topics)

# 对每个时间片计算一致性得分并取平均值
dictionary = id2word
coherence_scores = []
for topics in topics_per_time_slice:
    coherence_model = CoherenceModel(topics=topics, texts=c_list, dictionary=dictionary, coherence='c_v')
    coherence_score = coherence_model.get_coherence()
    coherence_scores.append(coherence_score)

avg_coherence = sum(coherence_scores) / len(coherence_scores)
print("一致性得分:", avg_coherence)

import pandas as pd

# 获取每个时间片的主题-词语分布
topics_at_each_time = [ldaseq.print_topics(time=t, top_terms=10) for t in range(ldaseq.num_time_slices)]

# 构建主题-时间矩阵
num_topics = ldaseq.num_topics
num_time_slices = ldaseq.num_time_slices
topic_time = np.zeros((num_topics, num_time_slices))

# 遍历每个时间片，填充主题-时间矩阵
for t, topics_at_time_t in enumerate(topics_at_each_time):
    for topic_info in topics_at_time_t:
        if not topic_info or not isinstance(topic_info[0], str):  # 跳过空字符串和非字符串的情况
            continue
        topic_id_str, distribution_str = topic_info[0], str(topic_info[1])  # 主题标识符转换为字符串，分布信息
        topic_id = int(re.search(r'\d+', topic_id_str).group())  # 从字符串中提取整数
        distribution_values = [float(value.split('*')[0]) for value in re.findall(r"[-+]?\d*\.\d+|\d+", distribution_str)]
        topic_time[topic_id, t] = sum(distribution_values)

# 构建 DataFrame
topic_time_df = pd.DataFrame(topic_time, columns=[f"Time_{t}" for t in range(num_time_slices)], index=[f"Topic_{topic}" for topic in range(num_topics)])

# 打印主题-时间矩阵
print("主题-时间矩阵:")
print(topic_time_df)

# 计算每个主题在不同时间点的热度
topic_heatmap = topic_time_df.apply(lambda x: x / x.sum(), axis=0)

# 打印结果
print("\n主题在不同时间点的热度:")
print(topic_heatmap)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

16条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-01-13 10:27
关注
获得0.60元问题酬金
引自微信小程序：皆我百晓生。

除了之前说的三个原因外，还有一些可能导致结果为0或NaN的原因：

数据量过小：如果你的文本数据非常小，可能无法产生有意义的主题模型。尝试使用更大的文本数据集或者增加数据量。

参数调节不准确：尝试调整模型参数，例如调整passes和num_topics参数的值，看看是否会对结果产生影响。

停用词问题：请确保你正确地去除了停用词，并且停用词表中包含了你需要去除的所有停用词。

数据质量问题：文本数据可能存在噪声或错误，可能需要进行数据清洗或重新处理。

主题模型不适用：有时候，主题模型可能并不适用于特定的数据集或任务。可以尝试其他方法或模型来处理数据。

代码问题：请仔细检查代码，确保没有错误或逻辑问题。

如果排除了以上原因后仍然出现问题，可能需要更多的详细信息来进一步诊断问题。
解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

matlab如何将mfcc提取的特征变成模型 matlab 机器学习语音识别
2023-04-07 12:05

回答 2 已采纳把所有人的mfcc特征合成一个特征矩阵，然后80%训练20%测试，用SVM分类：比如： % 假设你有五个人的mfcc特征矩阵，分别为A、B、C、D和E。 % 每个特征矩阵包含n个样本，每个样本由m个m
PyCharm上运行计算最佳CoherenceModel的代码时，会出现代码反复从头开始运行的情况，但是用jupyter运行就很正常，只会循环需要循环运行的部分。 jupyter pycharm python 有问必答
2022-05-28 13:40

回答 5 已采纳修改了下代码顺序，你试下这样可以不另外你上边是所有代码吗？本地跑了下会报错KeyError: 'ConsumerReviews'，方便说下你的python版本和其他库的版本吗 import pand
关于MATLAB的contourf和contour函数同时使用的问题 matlab
2023-03-30 12:00

回答 2 已采纳在绘制等值线图之前将绘图区域的colormap设置为默认值： clear,clc; addpath E:\毕业论文资料\数据 sname={'三灶' '灯笼山' '竹银' '甘竹' '马口'}; fn
用python实现基于自媒体数据的人群聚类分析
2022-06-08 09:16

程序员小王java的博客本设计利用Python编程爬虫搜集微博平台上关于大学生网课的评论，使用SPSS、机器学习、自然语言处理等方法，对收集到的文本数据进行分词、数据清洗、词频统计和聚类分析。最后根据所得到的数据进行前端可视化展示以及...
hdfs本地查看器java java
2022-11-01 14:56

回答 4 已采纳用绝对路径看看你最好把异常完全打印，你这样没法排查问题的
spring只要加了事务配置就报错。 spring 数据库
2022-10-12 21:17

回答 4 已采纳根据日志 Error updating database. Cause: java.lang.ClassCastException: com.github.obase.spring.transact
JAVA JTable控件查询时数据被覆盖 eclipse java 后端有问必答
2022-01-22 16:56

回答 2 已采纳不能这样每次创建JTable,要使用setModel方法更新数据
文本挖掘：文本关联规则挖掘技术教程
2024-07-19 06:52

kkchenjj的博客 Apriori算法是实现关联规则挖掘的一种经典方法，通过计算支持度和置信度，可以发现频繁项集和生成关联规则。上述代码示例展示了如何使用Python的mlxtend库来实现Apriori算法，对文本数据集进行关联规则挖掘。请注意...
如何显示查询结果 sql
2019-02-16 04:53

回答 1 已采纳 I'm not sure why you're using the Raw method for this, but I'd like to point out there's a Count m
运行pyLDAvis.sklearn.prepare()时报错 python 有问必答
2021-05-04 14:48

回答 4 已采纳 DataFrame没有_data这个属性，你看看你模块版本是不是更新了相关函数方法
axios跨域请求(请求支援) vue.js
2021-03-15 18:09

回答 2 已采纳代理转发的时候把'/'换成'/api' 试试
机载激光雷达数据处理
2011-11-16 10:26

在本主题中，我们将深入探讨如何使用C++编程语言对机载激光雷达数据进行读取和处理，以及如何摄影飞行路线。首先，理解LiDAR数据的基本结构是至关重要的。LiDAR数据通常以点云的形式存储，每个点包含其三维坐标（X...
session_write_close（）：无法使用用户定义的保存处理程序写入会话数据。 PHP 7.3.1 php
2019-08-20 03:05

回答 1 已采纳 I don't see a reason why you need to set a shutdown handler. Sessions are automatically saved when
地理信息系统专业考研 GIS专业考研名词解释大全[转]
2019-09-30 21:20

ajfpck0369的博客一般而言，GIS空间数据模型由概念数据模型、逻辑数据模型和物理数据模型三个有机联系的层次所组成。（邬伦，《地理信息系统原理、方法和应用》） 32. 分布式数据库（武大06）是一组数据的集合，这些数据在物理上...
GIS名词解释大全
2012-02-21 11:26

happyangelling的博客一般而言，GIS空间数据模型由概念数据模型、逻辑数据模型和物理数据模型三个有机联系的层次所组成。（邬伦，《地理信息系统原理、方法和应用》） 32. 分布式数据库（武大06）是一组数据的集合，这些数据在物理上...
地理信息系统专业考研 GIS专业考研名词解释大全
2010-05-28 10:30

weixin_30407099的博客一般而言，GIS空间数据模型由概念数据模型、逻辑数据模型和物理数据模型三个有机联系的层次所组成。（邬伦，《地理信息系统原理、方法和应用》） 32. 分布式数据库（武大06）是一组数据的集合，这些数据在物理上...
gis专业词汇汇总
2005-04-20 12:46

iihero的博客选取属性值和计算参数以及使模型与现实情况相符合的过程。如在路由选择和定位时 , 校准通常指指定并计算到达的阻值大小和需求项目的值。 Capacity 由中心所能分配的最大资源量。如 , 一个学校的容量就是该校所...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 1月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月13日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

DTM主题模型主题强度计算

16条回答 默认 最新

问题事件

悬赏问题

16条回答默认最新