分析政府工作报告出现最高的40个词,作图(横向条形图),并存入Excel文件中
问题相关代码,请勿粘贴截图
import re,openpyxl,pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import jieba
plt.rcParams['font.family']='STXiHei'
f=open(r'D:\政府工作报告.txt')
txt=f.read()
pat=re.compile(r'^[\u4e00-\u9fa5]{0,}$')
lst=pat.findall(txt)
dict={}
for word in lst:
if word in dict.keys():
dict[word]+=1
else:
dict[word]=1
df=pd.DataFrame([dict]).T
df.columns=['freq']
df.index.name='word'
df=df.sort_values(by='freq',ascending=False)[:40]
sns.barplot(y=df.index,x=df['freq'],data=df)
UnicodeDecodeError: 'gbk' codec can't decode byte 0x9a in position 14: illegal multibyte sequence
试过几个方法,解决不了。