LDA模型运行时报错，如何解决？(语言-python)

问题遇到的现象和发生背景

代码已经写好了，一开始运行时显示缺少gensim、pandas和nltk包，后来我安装上了，但是运行时还是报错。

问题相关代码，请勿粘贴截图

# -*- coding: utf-8 -*-

""" 
Dataset Input 
""" 
import pandas as pd
listings_raw = pd.DataFrame(pd.read_csv('D:\研一\大数据\A\数据来源/listings.csv'))# 创建一个二维表
reviews_raw = pd.DataFrame(pd.read_csv('D:\研一\大数据\A\数据来源/reviews.csv'))
listings_raw.rename(columns = {'id':'listing_id'}, inplace = True) # 将源数据列名改为新的列名

listings = listings_raw.copy()
reviews = reviews_raw.copy().dropna() #将空值所在的行/列删除

"""
Filter listings
    挑选 'room_type' = 'Private room'
    40629->19532
       
    挑选 'beds' = 1
    40629->13602
    
    挑选 'number_of_reviews'>10
    40629->27625
    
    全部
    40629->5024
"""
listings = listings.loc[listings['room_type'] == 'Private room']
listings = listings.loc[listings['number_of_reviews'] > 10 ]
listings = listings.loc[listings['beds'] == 1 ]



"""
listing和reviews mapping
"""
reviews['room_type'] = reviews['listing_id'].map(listings.set_index('listing_id')['room_type'])
reviews['number_of_reviews'] = reviews['listing_id'].map(listings.set_index('listing_id')['number_of_reviews'])
df = reviews.copy() 


""" 
Pre-process Phase
""" 
from nltk.corpus import stopwords   
import time 
# The TypeError: 'float' object is not iterable could happen if the data is missing a value 
df = df.dropna() 
pre_start = time.time() 
 
# Remove Punctuations 
import string 
df['comments'] = [''.join(c for c in s if c not in string.punctuation) for s in df['comments']] 
print("Remove Punctuations : ") 
df['comments'].head(10) 
 
# Transform to lowcase and split 
df['comments'] = df['comments'].str.lower().str.split()   
print("lowcase and split : ") 
df['comments'].head(10) 
 
# Remove stopwords 
stop = stopwords.words('english') 
df['comments'] = df['comments'].apply(lambda x: [item for item in x if item not in stop]) 
print("Remove stopwords : ") 
df['comments'].head(10) 
 
# Stemming 
from nltk.stem import RegexpStemmer 
st = RegexpStemmer('ing$|s$|e$|able$', min=4) 
for x in df['comments']: 
        for y in x: 
                y = st.stem(y) 
print("Stemming : ") 
df['comments'].head(10) 
 
# Remove Strings which length > 3 
df['comments'] = df['comments'].apply(lambda x: [item for item in x if len(item)>3 ]) 
print("Remove Strings which length > 3    : ") 
df['comments'].head(10) 

pre_end = time.time() 
print("It cost %f sec" % (pre_end - pre_start)) 
 
""" 
Group Comments by the column of 'listing_id' 
""" 
df2 = df[['listing_id', 'comments']].copy()
# To return a Dataframe 
df2 = df2.groupby('listing_id').apply(lambda x: x.sum()) 



""" 
LDA Phase 
""" 
# Establish dictionary and corpus 
lda_start = time.time() 
from gensim import corpora, models 
dictionary = corpora.Dictionary(df2['comments']) 
corpus = [ dictionary.doc2bow(text) for text in df2['comments'] ] 
 # Transform Bag-of-Words to TF/IDF   
tfidf = models.TfidfModel(corpus) 
corpus_tfidf = tfidf[corpus] 
 
from nltk.probability import FreqDist 
fdist = FreqDist(dictionary) 
top_ten = fdist.most_common(1000) 
lda = models.ldamodel.LdaModel(corpus=corpus_tfidf, id2word=dictionary, num_topics=20) 
#lda = models.LdaMulticore(corpus=corpus, id2word=dictionary, num_topics=20, workers=3) 
lda_end = time.time() 
print("It cost %f sec" % (lda_end - lda_start)) 
 
# Print Top20 topics 
lda.print_topics(20) 
# Print the dist. of 20th topic 
lda.print_topic(19)

运行结果及报错内容

#百度了一下没有相关结果，报错内容如下

PS C:\Users\月落青山外> & D:/python/python.exe d:/研一/大数据/代码/差不多代码/Airbnb-comments-LDA-master/LDA修改.py
Traceback (most recent call last):
  File "d:/研一/大数据/代码/差不多代码/Airbnb-comments-LDA-master/LDA修改.py", line 45, in <module>
    from nltk.corpus import stopwords   
    from nltk.collocations import *
  File "D:\python\lib\site-packages\nltk\collocations.py", line 36, in <module>
    from nltk.metrics import (
  File "D:\python\lib\site-packages\nltk\metrics\__init__.py", line 18, in <module>
    from nltk.metrics.association import (
  File "D:\python\lib\site-packages\nltk\metrics\association.py", line 26, in <module>
    from scipy.stats import fisher_exact
  File "D:\python\lib\site-packages\scipy\stats\__init__.py", line 468, in <module>
    from ._rvs_sampling import rvs_ratio_uniforms, NumericalInverseHermite  # noqa
  File "D:\python\lib\site-packages\scipy\stats\_rvs_sampling.py", line 3, in <module>
    from ._unuran import unuran_wrapper
  File "unuran_wrapper.pyx", line 221, in init scipy.stats._unuran.unuran_wrapper
  File "unuran_wrapper.pyx", line 200, in scipy.stats._unuran.unuran_wrapper._setup_unuran
  File "messagestream.pyx", line 36, in scipy._lib.messagestream.MessageStream.__cinit__
OSError: Failed to open file b'C:\\Users\\\xe6\x9c\x88\xe8\x90\xbd\xe9\x9d\x92~1\\AppData\\Local\\Temp\\scipy-kzl3auzb'

我的解答思路和尝试过的方法

我尝试将visual studio code 卸载重装，但是还是报同样的错误

我想要达到的结果

请大家看一看如何解决，在此万分感谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-深度学习进阶 2022-03-08 09:49
关注
可能是路径中包含中文，在操作文件的过程中会因为中文字符的原因导致无法找到正常的路径，因此会出现 Users\ + xe6…那些报错。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

gensim得到的LDA主题完全一致(语言-python) python 自然语言处理
2023-02-19 17:45

回答 4 已采纳如果您使用gensim训练LDA模型，但得到的所有主题都完全一致且概率都为0.00，可能有以下几个可能的原因：参数设置不当：LDA模型有许多参数需要调整，如主题数量、迭代次数、alpha和beta等
报错NameError:: name 'pos0_0' is not defined求解决，如何解决？(语言-python) python
2022-03-30 15:39

回答 1 已采纳 1、我想问题所在是你定义变量的作用域，是在最小的红框，你使用变量的域，在最小的蓝框，差了6 个层次2、为啥不考虑传参数到h里呢？减少模块的耦合性。
Python文本挖掘lda模型可视化后出错怎么改？ python 有问必答
2021-06-09 14:56

回答 4 已采纳提示编码格式错误，你改成utf-8试试
[Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解
2021-08-10 20:55

Eastmount的博客前一篇文章讲述了数据预处理、Jieba分词和文本聚类知识，这篇文章可以说是文本挖掘和自然语言处理的入门文章。本文将详细讲解文本挖掘领域的词云热点分析和LDA主题分布分析。两万字基础文章，希望对您有所帮助。欢迎...
lda主题模型报错return pd.concat python 深度学习
2023-04-08 00:55

回答 1 已采纳看下这篇博客，也许你就懂了，链接：pd.concat()的用法
python做LDA模型出现问题 python
2023-02-28 10:49

回答 2 已采纳 css样式没有引入，这儿抛错了，无效的css参数，你仔细检查一下，这个css参数对不对
pyLDAvis实现LDA结果可视化时报错OSError: [Errno 22] Invalid argument python 有问必答
2022-02-11 15:49

回答 3 已采纳这个应该是源码问题，你可以按照下面的修改一下源码参考一下：https://blog.csdn.net/weixin_43575322/article/details/115022664
5.Python数据分析项目之文本分类-自然语言处理
2023-02-27 21:08

想成为数据分析师的开发工程师的博客文本分类-自然语言处理
求解：Python主题模型停用词过滤失效 python 中文分词语言模型
2022-09-06 16:46

回答 1 已采纳直接整篇文章替换字符串，不要先分解成单个汉字你用文章里的单个汉字去跟词典进行比较，当然不一致了
LDA主题模型输入问题 python 机器学习自然语言处理
2023-02-19 01:28

回答 2 已采纳该回答引用ChatGPT LDA主题模型是一种无监督机器学习方法，可以将文本数据集中的每个文档（例如年报）表示为主题的概率分布，同时将每个主题表示为词汇的概率分布。因此，对于上市公司的年报，我们可以
LDA主题模型数值是怎么计算出来的？ python
2022-08-16 14:52

回答 1 已采纳这篇文章讲的很详细，请看：LDA主题模型的原理及使用教程
人工智能：pip、conda配置、使用命令，以及个人安装过的包汇总（pip/conda） ---- python3.7
2019-11-30 16:28

Acegem的博客 人工智能：个人安装过的包汇总 ---- python3.0 包安装命令（安装方式）功能领域方向（类型）注 gensim pip install gensim LDA主题模型的建模 NLP自然语言处理 slenium pip ...
DTM动态主题模型实战案例
2022-05-03 14:09

GMgomgmian的博客 DTM动态主题模型实战案例 ` 针对三个月份某期刊论文的摘要进行时间片上的动态模型主题分析代码实现所参考博客文章目录DTM动态主题模型实战案例代码实现所参考博客一、数据处理二、使用步骤1.引入库2.去除停用词，...
[Python人工智能] 四十一.命名实体识别 (2)基于BiGRU-CRF的中文实体识别万字详解
2024-02-15 18:00

Eastmount的博客从本专栏开始，作者正式研究Python深度学习、神经网络及人工智能相关知识。前文讲解如何实现威胁情报实体识别，利用BiLSTM-CRF算法实现对ATT&CK相关的技战术实体进行提取，是安全知识图谱构建的重要支撑。这篇文章将...
#NLP|文本生成#全网最全方法一篇搞定文本摘要\关键字提取，包含SnowNLP|TextRank4ZH|大模型|TF-IDF
2024-01-25 10:58

向日葵花籽儿的博客智谱AI是一家诞生于清华大学计算机系,以技术转化成果为基础的公司,专注于研发和提供新一代的认知智能通用模型。ChatGLM，清华技术成果转化的公司智谱AI研发的支持中英双语的对话机器人。开发文档获取api-key。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月8日

悬赏问题

¥30 Matlab打开默认名称带有/的光谱数据
¥50 easyExcel模板动态单元格合并列
¥15 res.rows如何取值使用
¥15 在odoo17开发环境中，怎么实现库存管理系统，或独立模块设计与AGV小车对接？开发方面应如何设计和开发？请详细解释MES或WMS在与AGV小车对接时需完成的设计和开发
¥15 CSP算法实现EEG特征提取，哪一步错了？
¥15 游戏盾如何溯源服务器真实ip?需要30个字。后面的字是凑数的
¥15 vue3前端取消收藏的不会引用collectId
¥15 delphi7 HMAC_SHA256方式加密
¥15 关于#qt#的问题：我想实现qcustomplot完成坐标轴
¥15 下列c语言代码为何输出了多余的空格

LDA模型运行时报错，如何解决？(语言-python)

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新