土豆萝卜泥 2020-06-03 23:24 采纳率: 100%
浏览 210

python NLP 为什么对list处理停止词没有用?

不多废话直接上代码,数据是119988条微博消息(代码中为data["review"]),目的是做感情判断
现在分完词了,想去除stopwords,读取的自己stopwords.txt(代码中的sw)
为什么输出根本没有变化啊我都用了最暴力的方法了还是没有用。
代码部分:

import jieba

text = []

for sen in data["review"]:
    words = list(jieba.cut(sen))
    text.append(words)

print(text[0])

text_s = []

for i in range(0,119987):
    for word in text[i]:
        for sig in sw:
            if (word != sig):
                text_s.append(word)

输出结果

#删除stopword之前
['\ufeff', '更博', '了', ',', '爆照', '了', ',', '帅', '的', '呀', ',', '就是', '越来越', '爱', '你', '!', '生快', '傻', '缺', '[', '爱', '你', ']', '[', '爱', '你', ']', '[', '爱', '你', ']']
#删除操作之后
'[\ufeff', '更博', '了', ',', '爆照', '了', ',', '帅', '的', '呀', ',', '就是', '越来越', '爱', '你', '!', '生快', '傻', '缺', '[', '爱', '你', ']', '[', '爱', '你', ']', '[', '爱', '你', ']']
  • 写回答

1条回答 默认 最新

  • 关注
    评论

报告相同问题?

悬赏问题

  • ¥20 为什么我写出来的绘图程序是这样的,有没有lao哥改一下
  • ¥15 js,页面2返回页面1时定位进入的设备
  • ¥200 关于#c++#的问题,请各位专家解答!网站的邀请码
  • ¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
  • ¥15 (希望可以解决问题)ma和mb文件无法正常打开,打开后是空白,但是有正常内存占用,但可以在打开Maya应用程序后打开场景ma和mb格式。
  • ¥15 绘制多分类任务的roc曲线时只画出了一类的roc,其它的auc显示为nan
  • ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
  • ¥20 腾讯企业邮箱邮件可以恢复么
  • ¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗?
  • ¥15 错误 LNK2001 无法解析的外部符号