LDA模型可视化报错

在运行
pyLDAvis.enable_notebook()
pic = pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)
pyLDAvis.save_html(pic, 'lda_pass'+str(n_topics)+'.html')
pyLDAvis.show(pic,local=False)
代码时出错

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

CSDN-Ada助手 CSDN-AI 官方账号 2023-04-11 12:03

关注

帮你找了个相似的问题, 你可以看下: https://ask.csdn.net/questions/4646672
你也可以参考下这篇文章：使用LDA分类器对邮件进行分类
除此之外, 这篇博客: LDA 学习笔记中的 2 完整的模型代码: 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

import re
import time
import jieba
import jieba.posseg as pseg
import numpy as np
import numpy
from sklearn.externals import joblib
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.model_selection import GridSearchCV

def read_data(fname):
    '''
    输入的数据是按照:
        title   content answer  tag tag1
    存储的,在训练lda时,只需要使用title和answer.
    :return: list 每一项是一个问题以及其所有的答案,使用.分隔
    '''
    dic = {}
    with open(fname,'r',encoding='utf8') as f:
        for i in f:
            lst = i.strip().split('\t')
            if lst[0] not in dic:
                dic[lst[0]] = re.sub('[。？！，、….?!:]$','',lst[2])
            else:
                dic[lst[0]] += '.' + re.sub('[。？！，、….?!:]$','',lst[2])
    corpus = [re.sub('[。？！，、….?!:]$','',key) + '.' + dic[key] for key in dic]
    return corpus

def jieba_cut(corpus,cut_file,stopwords_file):
    #结巴分词,并去除停用词(停用词为网上找到的中文停用词库),最后存储在cut_file中
    stopwords = []
    with open(stopwords_file,'r',encoding='utf8') as f:
        for i in f:
            stopwords.append(i.strip())
    corpus_cut = []
    n = 0
    for s in corpus:
        s_cut = [w for w in jieba.cut(s) if w not in stopwords]
        corpus_cut.append(' '.join(s_cut))
        n += 1
        if n % 10000 == 0:
            print(n)
    f1 = open(cut_file, 'a', encoding='utf8')
    for i in corpus_cut:
        f1.write(i + '\n')
    f1.close()
    return corpus_cut

    
    
def vec_model(cut_file):
    with open(cut_file, 'r', encoding='utf8') as f:
        corpus_cut = [i.strip() for i in f.readlines()]
    tf_vectorizer = CountVectorizer(max_df=0.95,min_df=2,stop_words='english')
    x = tf_vectorizer.fit_transform(corpus_cut)
    joblib.dump(tf_vectorizer,tf_ModelPath )
    return x,tf_vectorizer,corpus_cut




def read_vec_model(cut_file,tf_ModelPath):
    # 直接加载模型
    with open(cut_file, 'r', encoding='utf8') as f:
        corpus_cut = [i.strip() for i in f.readlines()]
    tf_vectorizer = joblib.load(tf_ModelPath)
    x = tf_vectorizer.fit_transform(corpus_cut)
    return x,tf_vectorizer,corpus_cut



def train(vec_data,tf_model,n_topics = 14,max_iter = 10,learning_method= 'batch'):
    '''
    训练lda模型并存储
    :param vec_data:
    :param n_topics:
    :param max_iter:
    :param learning_method:
    :return: 返回最终的lda模型
    '''
    lda = LatentDirichletAllocation(n_topics=n_topics,max_iter=max_iter,learning_method=learning_method,max_doc_update_iter=5)
    print('train')
    a = time.time()
    lda.fit(vec_data)
    print(time.time() - a)
    n_top_words = 20
    tf_feature_names = tf_model.get_feature_names()
    print_top_words(lda, tf_feature_names, n_top_words)
    joblib.dump(lda, lda_ModelPath)
    return lda



def print_top_words(model, feature_names, n_top_words):
    #打印每个主题下权重较高的term
    for topic_idx, topic in enumerate(model.components_):
        print( "Topic #%d:" % topic_idx)
        print( " ".join([feature_names[i]for i in topic.argsort()[:-n_top_words - 1:-1]]))
    print()
    print(model.components_)

    
    
def grid_search(vec_data,tf_vectorizer,parameters):
    GridSearchCV

    
    
def jieba_cut_transform(file):
    #读取结巴分词的数据,然后将其中的英文和字母全部去除
    with open(file,'r',encoding='utf8') as f:
        ret_list = f.readlines()
        f1 = open('./jieba_cut_all_drop.txt','a',encoding='utf8')
        lst = []
        for i in [[re.sub(r'[^\u4e00-\u9fa5]+','',j) for j in i.strip().split(' ') if re.sub(r'[a-zA-Z0-9]+','',j)] for i in ret_list]:
            f1.write(' '.join(i) + '\n')
        f1.close()

调用函数训练模型

lda_ModelPath = './lda_model2_all'
tf_ModelPath = './tf_model1_all'
fname = '../train_data'
cut_file = './jieba_cut_all.txt'
stopwords_file = './stopwords'

#读取数据
corpus = read_data(fname)
#分词
cut_data = jieba_cut(corpus, cut_file, stopwords_file)
#训练词向量模型
vec_data,tf_vectorizer,cut_data = vec_model(cut_file)
##这是直接读取数据的函数
#vec_data,tf_vectorizer,cut_data = read_vec_model(cut_file, tf_ModelPath)
lda = train(vec_data,tf_vectorizer,max_iter=50)
# 计算困惑度
# lda = joblib.load(lda_ModelPath)
p = lda.perplexity(vec_data)
print(p)
test_data = vec_data[:10]
ret = lda.transform(vec_data[:10])
print(ret)
print(ret.argmax(1))
print(cut_data[:10])
print(len(cut_data[:10]))

您还可以看一下唐宇迪老师的机器学习30天进阶实战课程中的 LDA数学原理推导小节, 巩固相关知识点

报告相同问题？

关注问题

LDA模型运行时报错，如何解决？(语言-python) nlp python 有问必答自然语言处理
2022-03-08 09:36

回答 2 已采纳可能是路径中包含中文，在操作文件的过程中会因为中文字符的原因导致无法找到正常的路径，因此会出现 Users\ + xe6…那些报错。
pyLDAvis实现LDA结果可视化时报错OSError: [Errno 22] Invalid argument python 有问必答
2022-02-11 15:49

回答 3 已采纳这个应该是源码问题，你可以按照下面的修改一下源码参考一下：https://blog.csdn.net/weixin_43575322/article/details/115022664
Python文本挖掘lda模型可视化后出错怎么改？ python 有问必答
2021-06-09 14:56

回答 4 已采纳提示编码格式错误，你改成utf-8试试
如何用 AI 工具做数据分析与可视化？
2024-04-18 13:45

nkwshuyi的博客 2024 年 4 月 14 日，应武汉大学信息管理学院的邀请，我和北京大学步一老师给几千名学员（其中正式报名超过千人）做了一次数据分析与可视化工作坊。我负责的是上午场，题目为《运用 AI 工具进行数据分析与可视化 》...
lda主题模型报错return pd.concat python 深度学习
2023-04-08 00:55

回答 1 已采纳看下这篇博客，也许你就懂了，链接：pd.concat()的用法
LDA主题模型输入问题 python 机器学习自然语言处理
2023-02-19 01:28

回答 2 已采纳该回答引用ChatGPT LDA主题模型是一种无监督机器学习方法，可以将文本数据集中的每个文档（例如年报）表示为主题的概率分布，同时将每个主题表示为词汇的概率分布。因此，对于上市公司的年报，我们可以
python做LDA模型出现问题 python
2023-02-28 10:49

回答 2 已采纳 css样式没有引入，这儿抛错了，无效的css参数，你仔细检查一下，这个css参数对不对
[Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解
2021-08-10 20:55

Eastmount的博客前一篇文章讲述了数据预处理、Jieba分词和文本聚类知识，这篇文章可以说是文本挖掘和自然语言处理的入门文章。本文将详细讲解文本挖掘领域的词云热点分析和LDA主题分布分析。两万字基础文章，希望对您有所帮助。欢迎...
求解：Python主题模型停用词过滤失效 python 中文分词语言模型
2022-09-06 16:46

回答 1 已采纳直接整篇文章替换字符串，不要先分解成单个汉字你用文章里的单个汉字去跟词典进行比较，当然不一致了
gensim得到的LDA主题完全一致(语言-python) python 自然语言处理
2023-02-19 17:45

回答 4 已采纳如果您使用gensim训练LDA模型，但得到的所有主题都完全一致且概率都为0.00，可能有以下几个可能的原因：参数设置不当：LDA模型有许多参数需要调整，如主题数量、迭代次数、alpha和beta等
LDA主题模型中文文本输入问题中文分词机器学习
2023-03-01 16:57

回答 2 已采纳是的，在使用LDA主题模型之前，需要将中文文本进行分词，并将分词后的结果转换为列表形式，然后再进行corpora.Dictionary及dictionary.doc2bow等操作。具体来说，需要经过以
基于KNN和LDA/PCA的简易人脸分类实验
2023-02-08 22:36

Wevicion的博客基于KNN和LDA的简易人脸分类实验
LDA模型中阿尔法和贝塔如果不设置有默认值吗 python
2023-04-16 10:03

回答 1 已采纳你可以看下这个问题的回答https://ask.csdn.net/questions/7412132我还给你找了一篇非常好的博客，你可以看看是否有帮助，链接：主题模型LDA的实现除此之外, 这篇博客:
机器学习算法与应用大作业-基于预处理的小麦品种的分类和聚类源码+数据+项目使用说明.zip
2023-07-20 09:16

对所有的算法均实现了可视化；基于pytorch框架使用自行搭建的MLP（多层感知机）神经网络对数据进行分类处理并总结效果。经过本次项目的实践，我对机器学习常用算法的理解与编程能力有了进一步提升，了解了预处理的...
送书 | 222Beta多样性限制性排序CPCoA/CCA/RDA/LDA
2020-08-13 21:26

生信宝典的博客可以用于讨论选择适当的可视化尺度并解释此排序。在RDA的结果中经常会显示有关多个约束轴（RDA轴）和非约束轴（PCA轴）的信息。每个RDA轴都有一个与之关联的特征值。由于总方差等于所有特征值的总和（受约束的），...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月11日

悬赏问题

¥15 远程访问linux主机超时
¥15 odoo17存货管理优势于中国国内该行业传统ERP或MES的详细解读和举例
¥15 CPU卡指令整合指令数据都在图片上
¥15 火车票关联12306问题
¥15 odoo17处理受托加工产品
¥15 如何用MATLAB编码图三的积分
¥15 圆孔衍射光强随孔径变化
¥15 MacBook pro m3max上用vscode运行c语言没有反应
¥15 ESP-PROG配置错误，ALL ONES
¥15 结构功能耦合指标计算

LDA模型可视化报错

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新