英文文本进行分词代码报错

对数据进行清洗，得到了cleaned_text，形式如下：

想要对cleaned_text这一列的文本进行分词，之后探究整个文本里词频最高的前十五个单词，根据网上找的代码如下：

for cyber_type in df.cleaned_text.unique():
    top50_word = df[df.cleaned_text == cyber_type].str.split(expand=True).stack().value_counts()[:15]
    fig = px.bar(top50_word, color=top50_word.values, color_continuous_scale=px.colors.sequential.RdPu, custom_data=[top50_word.values])
    fig.update_traces(marker_color='red')
    fig.update_traces(hovertemplate='<b>Count: </b>%{customdata[0]}')
    fig.update_layout(title=f"Top 15 words for {cyber_type}",
                     template='simple_white',
                     hovermode='x unified')
    fig.show()

但是一直报错：

请问应该怎么修改？感谢各位，谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-23 21:35
关注
引自免费微信小程序：皆我百晓生

看起来您在尝试从DataFrame中提取特定类型的cleaned_text并分析其包含的单词。然而，在您的代码中有一些小错误导致了这个AttributeError。这里是修复后的代码：

首先，确保您的数据已经正确地进行了清洗，并且cleaned_text列确实存在。接下来，我们将遍历每种cyber_type，然后对相应的cleaned_text进行分词、计数并绘制条形图。

import pandas as pd import plotly.express as px # 假设您的DataFrame名为df，且已经包含了清洗后的数据 # df = ... # 定义一个函数来进行分词和计数 def count_words(dfCyberType): word_counts = dfCyberType["cleaned_text"].str.split(expand=True).stack().value_counts()[:15] return word_counts # 对于每一种cyber_type，创建一个新的DataFrame并计算前15个最常出现的单词 for cyber_type in df["cleaned_text"].unique(): dfCyberType = df[df["cleaned_text"] == cyber_type] top50_word = count_words(dfCyberType) # 使用plotly express创建条形图 fig = px.bar(top50_word, x=top50_word.index, y=top50_word.values, title=f"Top 15 words for {cyber_type}", template="simple_white", hover_name=top50_word.index, hover_data=["values"], color_discrete_sequence=px.colors.sequential.RdPu) fig.update_traces(marker_color='red', hovertemplate="Word: %{hovertext} Count: %{y}") fig.show()

这段代码应该能解决您的问题。注意，我将str.split()方法应用到了dfCyberType["cleaned_text"]上，而不是整个DataFrame，这样就避免了引发错误的部分。同时，我还调整了px.bar中的参数，以便更好地显示结果。如果您的数据结构与示例有所不同，可能需要根据实际情况稍作调整。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

最大正向匹配分词法报错求解 python 自然语言处理
2021-03-20 17:12

回答 1 已采纳 31行的new_word = [sent_length]，是创建new_word为list。如果想看new_word是否为word_dic的子集，需要循环new_word，确认是否每个元素都在word
elsticsearch在配置IK分词插件报错，请问怎么处理？ elasticsearch 中文分词
2020-07-16 16:52

回答 2 已采纳 https://blog.csdn.net/zhanlanmg/article/details/48729443
python关于垃圾短信过滤的代码报错求解决方法 python 机器学习
2022-06-15 17:32

回答 2 已采纳这不是错误，是警告不影响运行可以使用以下命令取消所有警告 import warnings warnings.filterwarnings("ignore")
Python分词系统jieba代码（有注释，无报错）
2018-01-26 17:33

在Python编程语言中，jieba库是一个非常流行的中文分词工具，它为处理中文文本提供了高效、便捷的解决方案。本文将深入探讨jieba库的工作原理、主要功能以及如何使用其进行分词操作。首先，jieba库的核心是基于...
实现bigram分词系统的python代码 python 中文分词
2023-03-28 19:25

回答 1 已采纳实现bigram分词系统可以使用Python中的基础字符串处理函数和一些基本的数据结构。下面是一个简单的实现过程：定义一个词典：可以将一个包含大量单词的文本文件读入一个列表中，每个单词作为列表的一个
文件夹下文本分别分词，词频统计 python
2022-05-05 15:43

回答 1 已采纳遍历文本文件，读取内容，统计词频
隐马尔科夫进行中文分词自然语言处理
2019-12-27 20:13

回答 1 已采纳 https://www.cnblogs.com/astropeak/p/9916873.html
Python二级编程：分词去重
2023-05-27 16:01

PythonFun的博客参考编程模板，完善代码，实现以下功能。算法：可以用open()来打开文件，jieba进行分词，获得句柄后用write写入，由于是按行写入，注意添加换行符。答案：特点是紧扣大纲，中规中矩，代码易于理解，不好的是代码过多...
文本预处理，关键词提取时时报错 python 有问必答
2021-08-30 11:22

回答 3 已采纳 word, freq = line.strip().split(' ')这里报错是因为:一行字符串在分割后多于两个子字符串，所以报错。检查一下line的值，找出word和freq对应的索引，使用lin
怎么修改这个代码使其对所有行的分词的词频进行统计然后输出到一个表 python 开发语言
2023-03-15 21:00

回答 1 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ,具体如下：你可以把循环遍历每一行的代码放到一个函数中，然后在外层再循环遍历每一行并调用这个函数。修改后的代码如下： import pandas as pd import
python实现中文分词，jieba库实现中文分词自然语言处理
2022-11-24 22:45

回答 1 已采纳这是详细的教程https://blog.csdn.net/weixin_44095417/article/details/121146386
【小沐学NLP】Python实现中文、英文分词
2022-09-24 14:00

爱看书的小沐的博客机器学习之所以看上去可以解决很多复杂的问题，是因为它把...分词是自然语言理解（NLP）的重要步骤。分词就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作。（1）中文分词⼯具
怎么对Excel中的一列进行jieba分词并去停用词？ python 自然语言处理
2023-02-08 10:50

回答 1 已采纳导入pandas 用python读取excel文件，一个方法搞定，然后获取需要处理的数据列，导入jieba分词库，分词即可。停用词表网上有，循环停用词，判断分词结果中有这个停用词，就从分词结果中删除。
英文分词(不用类似re等工具)
2024-01-15 23:53

梦幻精灵_cq的博客 —— 华罗庚 My CSDN主页、My HOT博、My Python 学习个人备忘录好文力荐、老齐教室将输入英文文本英文分词 (拆分成有意义的单词) 本文质量分：【 97 97 97 】本文地址： ...
自然语言处理之中文分词（基于Python)
2018-11-07 11:15

俱往矣`的博客人生苦短，我用python 除了给你生孩子，python都能给你做到。这句话所言不假，python拥有丰富的库，能完成各种各样的的功能。只有你想不到的，没有python做不到的。下面我们来看看python...在自然语言处理技术...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月23日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

英文文本进行分词代码报错

6条回答 默认 最新

问题事件

悬赏问题

6条回答默认最新