机器学习去除停用词问题

分词之后去除停用词运行结果出问题了有人知道是什么原因吗？

import pandas as pd  # pandas模块用于读取和处理数据
import jieba  # jieba模块用于对短信内容进行分词
from sklearn.feature_extraction.text import CountVectorizer  # 文本特征抽取
from sklearn.model_selection import train_test_split  # 划分训练集和测试集

def swindle():
    # 读取数据和处理数据
    data = pd.read_table("swindle_text.txt", sep="\t", header=None, nrows=10000, names=["标签", "短信内容"])
    new_data = []
    # 进行分词
    data['分词后数据'] = data["短信内容"].apply(lambda x: ' '.join(jieba.cut(x)))

    # 去除停用词
    # stpwrdpath = "/Users/mustafa-de/PycharmProjects/pythonProject/mechine_swindle/stop_words.txt"
    with open('stop_words.txt', 'rb') as f:
        stopword = f.read().decode('utf-8')  # 停用词提取
        stpwrdlst = stopword.splitlines()  # 将停用词表转换为list

        for word in data:
            if word not in stpwrdlst:
                new_data.append(word)
    print(new_data)

    # 提取特征

    # 分割训练集和测试集

    return None


if __name__ == "__main__":
    swindle()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
於黾 2022-10-25 13:58
关注
data是个表啊
for word in data:
word是个行吗？

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

机器学习去除停用词问题 sklearn 机器学习
2022-10-25 13:23

回答 1 已采纳 data是个表啊for word in data:word是个行吗？
机器学习特征重要程度问题 python 人工智能机器学习
2020-12-22 17:33

回答 11 已采纳就是特征值这两个类的占比。比如特征值等于1 ，a类占比多少，b类占比多少。这两个占比区分度越大，对目标值越有可能高权值
机器学习交叉验证问题人工智能机器学习
2022-03-29 20:00

回答 1 已采纳我觉得可能是数据的问题。我之前做叶绿素，验证集也是一直低于训练，但是这是没问题的，可能是数据量太小的缘故，但是我那个数据量提升也还是验证loss低于训练
（2-3）文本预处理算法：去除停用词（Stopword Removal）
2024-02-25 08:24

码农三叔的博客 停用词（Stop Words）是自然语言处理中的一类常见词汇，通常是...因此，去除这些停用词可以减少文本中的噪声，使文本处理更加准确和有效。在现实应用中，一些常见的停用词包括：冠词：a, an, the介词：in, on, at, by。
机器学习有关特征处理的问题 python 有问必答机器学习
2023-01-04 20:38

回答 3 已采纳当数据特征的量级差别很大的时候，通常会使用归一化来解决这个问题。归一化的方法有很多，比如将数值缩放到固定范围内，比如 [-1, 1]；或者将数值缩放到 [0, 1] 区间内。这种方法可以让所有的特征在
机器学习提取数据集问题 python 机器学习
2023-02-14 23:33

回答 3 已采纳数据清洗，用正则匹配清洗掉就行了。或者读数据时用a.startswith('>Negative')判断下。
机器学习python问题 python 机器学习神经网络
2022-09-24 21:21

回答 1 已采纳如果你的数据集够多，可以用网络训练。但听你的描述，感觉大概是非线性规划，就是有目标方程和多种目标条件限制，比如说求利润最大，里面要考虑运输成本，人的行为博弈，还有人数安排。我推荐你可以先看看一些启发式
实践：jieba分词和pkuseg分词、去除停用词、加载预训练词向量
2023-06-11 15:24

「已注销」的博客目标：中文句子中的词与词之间加上边界标记，...而对于中文如何让机器智能识别出单词词汇，是文本分析的第一步。基本分词思想：(1) 由句子到词.(2) 由字到词具体分词方法：举例：如何分词使得这个句子的共现概率最大。
自动机器学习问题解决 python 机器学习
2023-01-15 09:39

回答 5 已采纳直接在你的虚拟环境运行脚本，你那个报错是pycharm没有识别虚拟环境下的安装包而已
机器学习是做什么的？人工智能数据挖掘有问必答机器学习
2022-11-11 15:51

回答 4 已采纳 机器学习的一般分类为:监督学习、无监督学习、强化学习、半监督学习、主动学习。很多东西可以cv出来，但是业务不一样，怎么整合你的业务，就是技术问题了。
关于机器学习解决分类问题机器学习深度学习神经网络
2022-08-14 15:25

回答 1 已采纳可以啊。。。这不是很正常就能获取的，你如果是python的sklearn，直接调用predict_proba就有
【人工智能项目】机器学习中文垃圾邮件分类任务
2021-10-28 15:49

mind_programmonkey的博客【人工智能项目】机器学习中文垃圾邮件分类任务本次采用机器学习模型对中文邮件是否为垃圾邮件进行判别。那么工友们，学起来吧！！！任务说明 0,商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一 1,...
机器学习IPython could not be loaded问题 python 机器学习
2023-02-24 18:03

回答 1 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ可能是由于ipython版本与jupyter版本不兼容导致的问题。可以尝试升级ipython版本，如果还有问题，可以尝试降低ipython版本。可以使用以下命令升级ipy
【NLP】文本预处理：删除单词停用词
2021-07-14 11:59

风度78的博客自然语言处理（NLP）是人工智能的一个分支，它允许机器解释人类语言。但是，机器不能直接使用，我们需要先对其进行预处理。文本预处理是准备文本数据的过程，机器可以使用这些数据来执行分析、预测等任务。文本...
人工智能 -- NLP：文本去掉停用词stopwords
2019-11-30 18:42

Acegem的博客 人工智能：文本去掉停用词stopwords 为了彻底搞懂本质，写的非常细！（1）准备停用词 import pandas as pd import jieba # 准备停用词 stopwords = pd.read_csv("data/stopwords.txt", index_col=False, ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月25日

悬赏问题

¥15 linux驱动，linux应用，多线程
¥20 我要一个分身加定位两个功能的安卓app
¥15 基于FOC驱动器，如何实现卡丁车下坡无阻力的遛坡的效果
¥15 IAR程序莫名变量多重定义
¥15 (标签-UDP|关键词-client)
¥15 关于库卡officelite无法与虚拟机通讯的问题
¥15 目标检测项目无法读取视频
¥15 GEO datasets中基因芯片数据仅仅提供了normalized signal如何进行差异分析
¥100 求采集电商背景音乐的方法
¥15 数学建模竞赛求指导帮助

机器学习去除停用词问题

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新