python文本分析，目前是sorted降序排列，想得到一个乱序排列的折线图，怎么改成乱序排列呢？

import jieba.posseg as pseg
import operator
import warnings
import os
from tqdm import tqdm
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
warnings.filterwarnings('ignore')

class Word():
def __init__(self, char, freq=0, deg=0):
self.freq = freq
self.deg = deg
self.char = char

def returnScore(self):
return self.deg / self.freq

def updateOccur(self, phraseLength):
self.freq += 1
self.deg += phraseLength

def getChar(self):
return self.char

def updateFreq(self):
self.freq += 1

def getFreq(self):
return self.freq

def notNumStr(instr):
for item in instr:
if '\u0041' <= item <= '\u005a' or ('\u0061' <= item <= '\u007a') or item.isdigit():
return False
return True

def run(rawText):
swLibList = [line.rstrip('\n') for line in open('./dataset/1893（utf8）.txt', 'r', encoding='utf-8')]
conjLibList = [line.rstrip('\n') for line in open('./dataset/spw.txt', 'r', encoding='GB2312')]

rawtextList = pseg.cut(rawText)

textList = []
listofSingleWord = dict()
lastWord = ''
poSPrty = ['m', 'x', 'uj', 'ul', 'mq', 'u', 'v', 'f']
meaningfulCount = 0
checklist = []
for eachWord, flag in rawtextList:
checklist.append([eachWord, flag])
if eachWord in conjLibList or not notNumStr(
eachWord) or eachWord in swLibList or flag in poSPrty or eachWord == '\n':
if lastWord != '|':
textList.append("|")
lastWord = "|"
elif eachWord not in swLibList and eachWord != '\n':
textList.append(eachWord)
meaningfulCount += 1
if eachWord not in listofSingleWord:
listofSingleWord[eachWord] = Word(eachWord)
lastWord = ''

newList = []
tempList = []
for everyWord in textList:
if everyWord != '|':
tempList.append(everyWord)
else:
newList.append(tempList)
tempList = []

tempStr = ''
for everyWord in textList:
if everyWord != '|':
tempStr += everyWord + '|'
else:
if tempStr[:-1] not in listofSingleWord:
listofSingleWord[tempStr[:-1]] = Word(tempStr[:-1])
tempStr = ''

for everyPhrase in newList:
res = ''
for everyWord in everyPhrase:
listofSingleWord[everyWord].updateOccur(len(everyPhrase))
res += everyWord + '|'
phraseKey = res[:-1]
if phraseKey not in listofSingleWord:
listofSingleWord[phraseKey] = Word(phraseKey)
else:
listofSingleWord[phraseKey].updateFreq()

outputList = dict()
for everyPhrase in newList:

if len(everyPhrase) > 5:
continue
score = 0
phraseString = ''
outStr = ''
for everyWord in everyPhrase:
score += listofSingleWord[everyWord].returnScore()
phraseString += everyWord + '|'
outStr += everyWord
phraseKey = phraseString[:-1]
freq = listofSingleWord[phraseKey].getFreq()
if meaningfulCount != 0:
if freq / meaningfulCount < 0.01 and freq < 3:
continue
else:
pass
outputList[outStr] = score

sorted_list = sorted(outputList.items(), key=operator.itemgetter(1), reverse=True)
return sorted_list[:20]

def plot(x, y, title):
mpl.rcParams['font.sans-serif'] = ['STZhongsong']
mpl.rcParams['axes.unicode_minus'] = False
plt.plot(x, y)
plt.xticks(rotation=-25)
plt.xlabel('word')
plt.ylabel('score')
plt.title(title)
plt.legend()
plt.show()

def get_tags():
path = './processed_data/'
file_list = os.listdir(path)

for file in tqdm(file_list):
data2p = ''
word = []
score = []
with open(path + file, 'r', encoding='utf-8') as fin:
for lin in fin:
line = lin.strip()
data2p = data2p + line + ' '
res = run(data2p)
for r in res:
word.append(r[0])
score.append(r[1])
# print(word)
# print(score)
plot(word, score, file)

if __name__ == '__main__':
get_tags()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
python技巧(数据分析及可视化) 2021-04-20 18:23
关注
随机抽样呢 , 抽样大小和原大小一样

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python将一个文件里某几行输入到另一个文本 python
2022-06-12 16:49

回答 2 已采纳 Gene={}是字典,你需要用什么做字典的键和值如果是复制整行内容应该是 import re Gene=[] pattern=re.compile(r'gene_type=((mi|r|sn)RNA)
python排列函数 python
2022-10-30 19:57

回答 2 已采纳推荐观看： Python之排序函数总结_久笙&的博客-CSDN博客_python排序函数一 .序列排序为:1.sorted(list,r
想了解一下，python中sort函数与sorted方法本质上是十大排序类型的哪种排序方法？是快排吗? python
2021-11-28 23:10

回答 1 已采纳 sorted排序：Timsort算法,一种优化版本的归并排序参考： python sort函数内部实现原理 - 焦国峰的随笔日记 - 博客园
【Pandas】四个例子掌握用Python进行数据分析！一看就懂！
2023-07-12 11:55

小菜鸡竟是我自己的博客本文选取了四个经典案例，主要聚焦Pandas在数据分析中的简单应用，结合代码学习利用Python进行数据分析过程(●ˇ∀ˇ●)。在每个例题开始前，我们将会标注出本例题涉及的重要知识点，并在重要处添加解释和代码注释，...
请问python中sorted函数中匿名函数lambda的这两种使用方法存在什么区别？ python
2021-10-19 11:01

回答 2 已采纳我也挺好奇的，所以试着跑了一些数据输入:[-6, 6, -6, 1, -1, 1, 5, 4, 3, -3, 3]输出:6,-6,-6,5,4,3,3,-3,1,1,-1-6,6,-6,5,4,3,-
c语言文件读取 降序排列数据 c语言
2022-07-10 14:54

回答 1 已采纳用结构体struct stu{ char id[10]; float y,s,h;float sum;}
Python的一个小小问题？ python 有问必答
2021-05-14 21:51

回答 2 已采纳 """ 乐彩小游戏 """ import random def generate_num(): auto_num = [] while len(auto_num) < 6:
SCI论文绘图—Python绘图常用模板及技巧
2022-01-06 22:47

Mr. Material的博客数据的可视化展示，不仅是对数据的整理、思维逻辑的展示，更是一篇文章思想的表达和传递。现在很多文章喜欢用 Graph abstract 去展示文章的创新性和主要贡献。因此，绘图的技巧不仅包括：配色、符号以及数据信息的...
请问代码第二行是得到了一个什么样的长度呢？为什么要这么取？ python 数据挖掘深度学习
2022-01-24 16:43

回答 2 已采纳 rnn运行，需要输入一个数据队列，也就是多维度的tensor，而数据队列的长度不一定总是相同的。比如，你原始的队列数据如下所示： a = torch.tensor([1,2,3,4]) b = tor
为什么用python的sorted函数排序后的结果不正确 python
2023-02-04 00:27

回答 2 已采纳如对你的问题有帮助，请点击右侧采纳即可打印结果时，写错了变量名，应该是ordered_list而不是order_list.
关于python3匿名函数与sorted（）函数 python
2022-09-03 18:55

回答 2 已采纳 key参数是一个可调用的匿名函数，在排序时，列表中的每一项都会调用key函数，sorted函数基于key函数返回的结果完成列表中项的排序。lambda 关键字的使用，创建了一个可调用的匿名函数。在使用
Python基于Matplotlib实现双Y轴绘图——图书销售数据可视化分析
2022-06-16 14:12

Together_CZ的博客今天遇上一个小的需求就是需要绘制双轴的图，这个之前使用excel的话是可以很快绘制出来的，但是基于代码实现的话好像还么怎么用过，所以这里研究了下，绘制好后，分享记录一下，首先看下数据：主要是不同种类的编程...
怎么数字做数字，字母做字母，数字字母混合排列？ python
2022-07-09 03:37

回答 2 已采纳可以按照他们的AsscII码进行排序
主成分分析（PCA）及其可视化——python
2021-11-17 18:58

洋洋菜鸟的博客一、主成分分析的原理主成分分析是利用降维的思想，在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分，其中每个主成分都是原始变量的线性组合，且各个...
python画每年月平均折线图
2023-10-16 19:06

Miss Weird的博客【代码】python画每年月平均折线图。
没有解决我的问题, 去提问

悬赏问题

¥15 matlab用simulink求解一个二阶微分方程
¥30 matlab解优化问题代码
¥15 写论文，需要数据支撑
¥15 identifier of an instance of 类 was altered from xx to xx错误
¥100 反编译微信小游戏求指导
¥15 docker模式webrtc-streamer 无法播放公网rtsp
¥15 学不会递归，理解不了汉诺塔参数变化
¥15 基于图神经网络的COVID-19药物筛选研究
¥30 软件自定义无线电该怎样使用
¥15 R语言mediation包做中介分析，直接效应和间接效应都很小，为什么？

python文本分析，目前是sorted降序排列，想得到一个乱序排列的折线图，怎么改成乱序排列呢？

2条回答 默认 最新

悬赏问题

2条回答默认最新