画词云图时，出现问题，之前可以运行成功，这一次运行就报错

问题遇到的现象和发生背景

画词云图时，出现问题，之前可以运行成功，这一次运行就报错了

问题相关代码，请勿粘贴截图

import os
import numpy as np
import pandas as pd
import re
import jieba.posseg as psg
import matplotlib.pyplot as plt
from gensim import corpora,models #主题挖掘，提取关键信息
from wordcloud import WordCloud,ImageColorGenerator
from collections import Counter
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

#导入数据
raw_data=pd.read_csv('D:\文本挖掘\期末作业\京东商品评论.csv',encoding='gbk')
print(raw_data.head())
# raw_data.info()
# print(raw_data.columns)
# 二、数据预处理
# （一）去重
# 删除系统自动为客户做出的评论。
reviews=raw_data.copy()
reviews=reviews[['content', 'content_type']]
print('去重之前：',reviews.shape[0])
reviews=reviews.drop_duplicates()
print('去重之后：',reviews.shape[0])
# 清洗之前
content=reviews['content']
for i in range(5,10):
    print(content[i])
    print('-----------')
#清洗之后，将数字、字母、京东欧莱雅紫熨斗眼霜字样都删除
info=re.compile('[0-9a-zA-Z]|京东|欧莱雅|紫熨斗眼霜|眼霜|')
content=content.apply(lambda x: info.sub('',str(x)))  #替换所有匹配项
print(content.head())

for i in range(5,10):
    print(content[i])
    print('-----------')

# （三）分词、词性标注、去除停用词、词云图
# (1)分词
#分词，由元组组成的list
seg_content=content.apply( lambda s:  [(x.word,x.flag) for x in psg.cut(s)] )
print(seg_content.shape)
# len(seg_content)
print(seg_content[5])
#统计评论词数
n_word=seg_content.apply(lambda s: len(s))

# len(n_word)
n_word.head(6)
#得到各分词在第几条评论
n_content=[ [x+1]*y for x,y in zip(list(seg_content.index),list(n_word))] #[x+1]*y,表示复制y份，由list组成的list
index_content_long=sum(n_content,[]) #表示去掉[]，拉平,返回list
# len(index_content_long)
sum([[2,2],[3,3,3]],[])
#分词及词性，去掉[]，拉平
seg_content.head()
seg_content_long=sum(seg_content,[])
print(seg_content_long)
type(seg_content_long)
len(seg_content_long)
print(seg_content_long[0])
#得到加长版的分词、词性
word_long=[x[0] for x in seg_content_long]
nature_long=[x[1] for x in seg_content_long]

len(word_long)
len(nature_long)
#content_type拉长
n_content_type=[ [x]*y for x,y in zip(list(reviews['content_type']),list(n_word))] #[x+1]*y,表示复制y份
content_type_long=sum(n_content_type,[]) #表示去掉[]，拉平

len(content_type_long)
review_long=pd.DataFrame({'index_content':index_content_long,
                        'word':word_long,
                        'nature':nature_long,
                        'content_type':content_type_long})
print(review_long.shape)
print(review_long.head())
#（2）去除标点符号、去除停用词
review_long['nature'].unique()
#去除标点符号
review_long_clean=review_long[review_long['nature']!='x'] #x表示标点符合
review_long_clean.shape
#导入停用词
stop_path=open('./data/stoplist.txt','r',encoding='UTF-8')
stop_words=stop_path.readlines()

# len(stop_words)
# stop_words[0:5]
#停用词，预处理
stop_words=[word.strip('\n') for word in stop_words]
# stop_words[0:5]
#得到不含停用词的分词表
word_long_clean=list(set(word_long)-set(stop_words))
len(word_long_clean)

review_long_clean=review_long_clean[review_long_clean['word'].isin(word_long_clean)]
print(review_long_clean.shape)
print('----------------------------------------')
# (3)在原df中，再增加一列，该分词在本条评论的位置
# 再次统计每条评论的分词数量
# n_word=review_long_clean.groupby('index_content').count()['word']
# # n_word
#
# index_word=[ list(np.arange(1,x+1)) for x in list(n_word)]
# index_word_long=sum(index_word,[]) #表示去掉[]，拉平
#
# # len(index_word_long)
# review_long_clean['index_word']=index_word_long
# review_long_clean.head()
# review_long_clean.to_csv('./1_review_long_clean.csv')
# n_review_long_clean=review_long_clean[[ 'n' in nat for nat in review_long_clean.nature]]
# n_review_long_clean.shape
# n_review_long_clean.head()
# n_review_long_clean.nature.value_counts()
# n_review_long_clean.to_csv('./1_n_review_long_clean.csv')
# import collections
# word_counts = collections.Counter(review_long_clean)
# word_counts_top10 = word_counts.most_common(10)
# print('********************',word_counts_top10)#词频统计
font=r"C:\Windows\Fonts\msyh.ttc"
from PIL import Image
background = Image.open('./jdicon.jpg')
graph = np.array(background)
wordcloud = WordCloud(font_path='C:/Windows/Fonts/msyh.ttc',
                      mask=graph,
                      background_color='white',
                      max_font_size=150,
                      random_state=30)
print('*******************',Counter(review_long_clean.word.values))
word_count = Counter(review_long_clean.word.values)
# print(type(word_count))
ciyuntu = wordcloud.fit_words(word_count)

# background_image=plt.imread('./jdicon.jpg')
# wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white',mask=background_image) #width=1600,height=1200, mode='RGBA'
# wordcloud.generate_from_frequencies(Counter(review_long_clean.word.values))
# wordcloud.to_file('1_分词后的词云图.png')

plt.figure(figsize=(20,10))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
不会打代码的计算机学习人 2022-05-25 09:24
关注
终于排查到问题了参考这个博主的：http://t.csdn.cn/50SFq

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

WordCloud 中英文词云图绘制，看这一篇就够了
2018-12-12 13:31

R3eE9y2OeFcU40的博客欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：...
python制作词云图
2023-05-19 09:46

星河欲转。的博客前段时间，在上课的时候，老师发布了一个在线讨论，后面，老师把所有同学的回答结果展示了出来，不同颜色和不同大小，这样就一目了然看出了同学们回答的最多的是哪些关键词，这让我对词云图产生了兴趣，于是参考了...
python爬虫，智能爬取网站弹幕和评论，生成词云图，两种方法。
2022-03-28 17:28

CBIhalsen的博客智能爬取网站弹幕和评论，生成词云图，两种方法，超简单，可打包，生成exe使用，可供教学使用。
[Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解
2021-08-10 20:55

Eastmount的博客前一篇文章讲述了数据预处理、Jieba分词和文本聚类知识，这篇文章可以说是文本挖掘和自然语言处理的入门文章。本文将详细讲解文本挖掘领域的词云热点分析和LDA主题分布分析。两万字基础文章，希望对您有所帮助。欢迎...
我是提示工程架构师，用“用户画像法”让提示相关性提升65%
2025-09-28 19:56

AI架构全栈开发实战笔记的博客所有高相关性提示（用户满意度>90%）都有一个共性——它们精准匹配了使用者的"隐性需求"。而挖掘这些需求的最佳工具，就是"用户画像法"。用户画像法（Persona-based Prompting）是将产品设计中的用户画像理论迁移到...
毕设记录（一）(重制版)——医疗知识图谱实现智能问答与分析服务（前端）
2025-01-03 00:13

神庙猫的博客本篇毕设是基于b站up主——每天都要机器学习的开源项目，以该项目的深度学习部分为毕设的核心部分，再...最后，开源作者在b站上在深度学习部分有对模型的训练及其代码逻辑的详细讲解，这一部分就可以去看作者的视频啦。
Agentic AI提升提示灵活性？4案例给答案
2025-08-18 20:27

Golang编程笔记的博客 Agentic AI（代理式AI）是一种具备自主决策能力的AI系统理解目标：接收用户的高层指令（比如“帮我做个图片分类Web应用”）；规划任务：自动将大目标拆成小步骤（数据收集→模型训练→Web部署）；调用工具：使用各种...
如何用 AI 工具做数据分析与可视化？
2024-04-18 13:45

nkwshuyi的博客 2024 年 4 月 14 日，应武汉大学信息管理学院的邀请，我和北京大学步一老师给几千名学员（其中正式报名超过千人）做了一次数据分析与可视化工作坊。我负责的是上午场，题目为《运用 AI 工具进行数据分析与可视化》...
【实战篇】零代码到全自动！手把手教你用DeepSeek+轻云图打造智能词云生产线
2025-02-15 10:42

再见孙悟空_的博客今天要给大家分享一个我们团队压箱底的绝活——如何用DeepSeek大模型和轻云图平台搭建全自动词云生成系统。这套方案从原始文本到精美词云全程自动化，每天能处理上万份文档，而且支持17种可视化样式动态切换。下面我...
23/04/16使用pyecharts绘制中国地图并显示城市
2023-04-16 23:12

AI民工（读研版的博客用pyecharts插件制作标记六个大学所在城市分布的中国地图高清图
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月25日

画词云图时，出现问题，之前可以运行成功，这一次运行就报错

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

1条回答默认最新