python词云出现KeyError问题

做包含中英文的txt的词云。

开始是出不来图，词云图的黑色背景中显示类似这样一行<0x00000021FA66>的乱码

我以为是字体问题，就找到wordcloud，用simhei.ttf替换了自带的DroidSansMono.ttf，同时修改了.py文件

但是还是没有变化，黑色背景图里还是上面那个样子

于是开始逐个排查发现2个问题：

word_list无法打印出东西，print（）也不行。（见下图）

后来百度看别人代码发现加上 wl = " ".join(wordlist) 可以解决问题，但是不知道什么原理

2.继续排查发现KeyError问题，但是我代码里好像没用字典，不知道是否是跟内置函数有冲突

于是我就去.py找到了57行这个bigram，发现是一个分词函数但是我不知道这行代码是什么意思，他运行到第一个字“被”，就出现问题了，我该如何修改才能生成正确词频词云图？谢谢！

最后附一下全的代码：

import os
import re
import time
import random

import requests
import jieba
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
from wordcloud import WordCloud

# 生成Session对象，用于保存Cookie
s = requests.Session()
# 词云形状图片
WC_MASK_IMG = 'K:/test.jpg'
# 影评数据保存文件
COMMENTS_FILE_PATH = 'K:/douban_comments.txt'
# 词云字体
WC_FONT_PATH = '/Library/Fonts/Songti.ttc'
# 统计词频
from collections import defaultdict

def login_douban():
"""
登录豆瓣
:return:
"""
# 登录URL
login_url = 'https://accounts.douban.com/j/mobile/login/basic'
# 请求头
headers = {'user-agent': 'Mozilla/5.0', 'Referer': 'https://accounts.douban.com/passport/login?source=main'}
# 传递用户名和密码
data = {'name': '你的账号',
'password': '你的密码',
'remember': 'false'}
try:
r = s.post(login_url, headers=headers, data=data)
r.raise_for_status()
except:
print('登录请求失败')
return 0
# 打印请求结果
print(r.text)
return 1

def spider_comment(page=0):
"""
爬取某页影评
:param page: 分页参数
:return:
"""
print('开始爬取第%d页' % int(page))
start = int(page * 20)
comment_url = 'https://movie.douban.com/subject/3011091/comments?start=%d&limit=20&sort=new_score&status=P' % start
# 请求头
headers = {'user-agent': 'Mozilla/5.0'}
try:
r = s.get(comment_url, headers=headers)
r.raise_for_status()
except:
print('第%d页爬取请求失败' % page)
return 0
# 使用正则提取影评内容
comments = re.findall('<span class="short">(.*)</span>', r.text)
if not comments:
return 0
# 写入文件
with open(COMMENTS_FILE_PATH, 'a+', encoding='utf-8') as file:
file.writelines('\n'.join(comments))
return 1

def batch_spider_comment():
"""
批量爬取豆瓣影评
:return:
"""
# 写入数据前先清空之前的数据
if os.path.exists(COMMENTS_FILE_PATH):
os.remove(COMMENTS_FILE_PATH)
page = 0
while spider_comment(page):
page += 1
# 模拟用户浏览，设置一个爬虫间隔，防止ip被封
time.sleep(random.random() * 3)
print('爬取完毕')

def cut_word():
"""
对数据分词
:return: 分词后的数据
"""
with open(COMMENTS_FILE_PATH, encoding='utf-8') as file:
comment_txt = file.read()
wordlist = jieba.cut(comment_txt, cut_all=True)
wl = " ".join(wordlist)
print(wl)
return wl

def create_word_cloud():
"""
生成词云
:return:
"""

# 设置词云形状图片
wc_mask = np.array(Image.open(WC_MASK_IMG))
# 数据清洗词列表
stop_words = ['就是', '不是', '但是', '还是', '只是', '这样', '这个', '一个', '什么', '电影', '没有']
# 设置词云的一些配置，如：字体，背景色，词云形状，大小
wc = WordCloud(background_color="white", max_words=50, mask=wc_mask, scale=4,
max_font_size=50, random_state=42, stopwords=stop_words, font_path=WC_FONT_PATH)
# 生成词云
wc.generate(cut_word())

# 在只设置mask的情况下,你将会得到一个拥有图片形状的词云
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.figure()
plt.show()

if __name__ == '__main__':
# 登录成功才爬取
# if login_douban():
# # spider_comment(30)
batch_spider_comment()
create_word_cloud()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
coagenth 2021-03-19 18:16
关注
就代码中词云图问题，一是代码中wordlist是一个生成器对象，需要遍历出来，文本分割是全分割，其中有很多标点符号和其他字符不是中文，需要对其进行筛选剔除。wl=' '.join([x for x in wordlist if x!='\n' and x not in string.punctuation])，你需要先导入内置模块 import string,用于处理标点符号。二是要对字体路径进行指定。在WordCloud函数中指定font_path='simhei.ttf'，用于显示中文。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python词云图出现keyError错误 python 有问必答
2021-06-04 20:22

回答 4 已采纳你的keywords是什么样的？是不是得都是string类型的才行，建议拿短一点的中文文本先试试，如果还有问题，可以私信我，之前做过词云
python可视化 KeyError问题 python
2022-12-14 19:37

回答 2 已采纳望采纳你新加一个cell，在里面输入yye，查看一下它是不是一个包含“营业额”的字典。这个报错，是说你的yye数据中，没有“营业额”为key的内容，所以取不出。
python做词云图出现错误？ python 有问必答
2021-05-18 09:39

回答 2 已采纳你这个输出图像没有空间了，也可能是设置的太小或太大，建议把字体设置合适一些，因为我发现这个错误的原因和字体有关 except IndexError: tr
python词云2：明朝那些事儿
2021-06-30 18:53

假期的学习的博客 1、词云背景图片无效或者不明显解决办法： ①.图片格式使用*.jpg ②.图片背景使用白色，为了更突出，可以直接把图片颜色改成黑色 ③.以上两点可以使用ps 2、报错信息： line 36, in read_cut_result x = x.decode('...
Python 词云报错 python
2022-05-06 19:53

回答 3 已采纳你的图片文件放在哪里？跟py文件在同目录吗
设置词云形状时出现问题 python
2022-03-26 13:08

回答 1 已采纳可能是你的 pic1.jpg 有问题。贴pic1.jpg 图片出来看看建议要用那种层次分明黑白图。
Python词云使用显示模组没有被唤起 python
2022-11-22 12:31

回答 1 已采纳把报错那行换成 wc.WorldCloud().generate(newtxt) 试试
Python实现词云
2020-03-21 12:29

Bubblegirl123的博客实现词云安装wordcloud1.生成英文词云的方法2.生成中文词云的方法3.使用蒙版进行词云4.使用颜色进行词云5.控制颜色或者方向等进行词云6.精细控制颜色或者方向等进行词云所用到的图片参考于张宏伦的深度有趣系列 ...
Python词云，这种情况该怎么办？ python 有问必答
2022-04-04 14:28

回答 4 已采纳看报错应该是字体加载错误,把要使用的字体复制到当前文件夹下,或者找到要使用的字体在本机中的位置,然后用绝对路径加载该字体.有帮助望采纳~
关于#python#的问题：python词云安装 python
2022-05-09 16:24

回答 1 已采纳下载过程报错，这是网络问题吧，重新执行还是这样吗
python 词云 jieba python
2022-04-16 13:42

回答 2 已采纳可以参考一下 OSError: cannot open resource 错误原因及解决方法_陆离_的博客-CSDN博客_cannot open resource
Python——爬虫+词云+数据库
2022-01-02 18:54

I_love_hanser_QAQ的博客爬取指定新闻网站，将爬取到的数据做词频统计生成词云图，做相应的词频分析饼状图，柱状图，散点图。最后将词频数据存至MySQL数据库。
python词云图生成和代码 python
2022-06-18 13:58

回答 1 已采纳 import jieba # 分词 from wordcloud import WordCloud # 词云图相关 import matplotlib.pyplot as plt import
Python数据可视化——词云图
2020-12-08 21:43

努力搬砖的阿也吖的博客任务：下载一本txt的电子书，对它分词、词频统计，生成电子书的词云图，作为这本书的概览理解在数据可视化中，词云图是一个比较常用也比较简单的应用。...但是我的显然有问题，我也不太懂为啥安
Python可视化词云图
2021-09-15 21:24

lacey66的博客一、绘制词云时常用库及函数的意义 1、dir库 ...3、wordcloud库：可以根据文本中词语出现的频率等参数绘制词云（1）向WordCloud对象中加载文本txt WordCloud.generate(txt) 4、Pyplot库：是mat
没有解决我的问题, 去提问

悬赏问题

¥30 Matlab打开默认名称带有/的光谱数据
¥50 easyExcel模板动态单元格合并列
¥15 res.rows如何取值使用
¥15 在odoo17开发环境中，怎么实现库存管理系统，或独立模块设计与AGV小车对接？开发方面应如何设计和开发？请详细解释MES或WMS在与AGV小车对接时需完成的设计和开发
¥15 CSP算法实现EEG特征提取，哪一步错了？
¥15 游戏盾如何溯源服务器真实ip?需要30个字。后面的字是凑数的
¥15 vue3前端取消收藏的不会引用collectId
¥15 delphi7 HMAC_SHA256方式加密
¥15 关于#qt#的问题：我想实现qcustomplot完成坐标轴
¥15 下列c语言代码为何输出了多余的空格

python词云出现KeyError问题

3条回答 默认 最新

悬赏问题

3条回答默认最新