文本预处理，关键词提取时时报错

自定义语料库后，在提取关键词时报错：“File "C:\Users\Administrator\AppData\Local\Programs\Python\Python39\lib\site-packages\jieba\analyse\tfidf.py", line 50, in set_new_path
word, freq = line.strip().split(' ')
ValueError: too many values to unpack (expected 2)”

源代码如下：
jieba.analyse.set_idf_path(r'C:/Users/Administrator/Desktop/分词/语料库.txt')
keywords = jieba.analyse.extract_tags(words, topK=10, withWeight=True)
print('\n（TF-IDF提取的关键词：）')
print(keywords)
不知道原因是什么

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-08-30 12:21
关注
word, freq = line.strip().split(' ')这里报错是因为:一行字符串在分割后多于两个子字符串，所以报错。检查一下line的值，找出word和freq对应的索引，使用line.strip.split(' ')[索引]，分别赋值

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

文本预处理——python数据读入
2019-05-30 15:29

林灵会灭的博客 1 数据读入 1.1 后缀名为docx anaconda环境，cmd pip install docx 2.x便可直接使用，但是3.x版本不兼容，import docx会显示 Import Error: No module named ‘exceptions’ ...找到python_docx-0....
Python数据预处理
2021-11-19 09:50

怎么会这么难的博客 Python数据预处理技术与实践 1. 概述数据预处理：数据清理数据集成数据规约数据变换（按照预先设计好的规则对抽取的数据进行转换，如把数据压缩到0.0～1.0区间）数据降维原始数据存在数据不完整、数据...
实现中文分词、词性标注、关键词提取、句法分析等智能预处理
2022-01-28 21:23

江白AS的博客实现中文分词、词性标注、关键词提取、句法分析等智能预处理的一个简单的小实验作业实验报告一、实验目的 3 二、实验环境 3 三、实验内容（内容以txt1分析为例） 3 1、文本素材自动分词 3 （1）分词初步...
Python练手小程序—从摘要中提取关键词
2019-12-14 22:46

hanfeixue2001的博客在GitHub上发现一些很有意思的项目，由于本人作为Python的初学者，编程代码能力相对薄弱，为了加强Python的学习，特此利用前辈们的学习知识成果，自己去亲自实现。来源：GitHub Python练手小程序项目地址：...
python分割文本_python分割文本
2020-11-21 02:18

weixin_39616565的博客广告关闭腾讯云11.11云上盛惠，精选热门产品...我有一个文本文件。我需要得到一个句子列表。这如何实现？有很多微妙的东西，比如点用在缩写中。我的旧正则表达式工作不好。 re.compile((. |^|!|?)(]*(.|!|?)...
python情感词提取_Python调用百度接口（情感倾向分析）和讯飞接口（语音识别、关键词提取）处理音频文件...
2020-11-28 07:36

weixin_39736606的博客 /usr/bin/env python2 #-*- coding: utf-8 -*-3 """4 讯飞非实时转写调用demo（语音识别）5 """6 importbase647 importhashlib8 importhmac9 importjson10 importos11 importtime1213 importrequests1415 lfasr_host...
cnn文本分类python实现_CNN文本分类
2020-12-04 14:39

weixin_39721853的博客首先，最明显的优势，深度学习不需要人工手动的提取文本的特征，它可以自动的获取基础特征并组合为高级的特征，训练模型获得文本特征与目标分类之间的关系，省去了使用TF-IDF等提取句子的关键词构建特征工程的过程...
Python 实战 | 文本分析中停用词的去除（免费赠送停用词库大全）
2024-11-05 17:51

企研数据的博客本期文章和大家分享“如何在文本分词中去除停用词”（划重点，还有停用词库免费分享哦）
新浪微博数据预处理
2019-12-07 21:43

茄子子子子子的博客我是按用户爬取的微博内容，没有爬取评论，微博初始数据格式如下：预处理阶段包括去除html格式、去除链接、emoji表情处理、分词、去停用词，提取微博中的话题名称和@人名等等。（1）首先去除文本中的html标签，这...
5.Python数据分析项目之文本分类-自然语言处理
2023-02-27 21:08

想成为数据分析师的开发工程师的博客文本分类-自然语言处理
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月30日

文本预处理，关键词提取时时报错

3条回答 默认 最新

问题事件

3条回答默认最新