不多废话直接上代码,数据是119988条微博消息(代码中为data["review"]),目的是做感情判断
现在分完词了,想去除stopwords,读取的自己stopwords.txt(代码中的sw)
为什么输出根本没有变化啊我都用了最暴力的方法了还是没有用。
代码部分:
import jieba
text = []
for sen in data["review"]:
words = list(jieba.cut(sen))
text.append(words)
print(text[0])
text_s = []
for i in range(0,119987):
for word in text[i]:
for sig in sw:
if (word != sig):
text_s.append(word)
输出结果
#删除stopword之前
['\ufeff', '更博', '了', ',', '爆照', '了', ',', '帅', '的', '呀', ',', '就是', '越来越', '爱', '你', '!', '生快', '傻', '缺', '[', '爱', '你', ']', '[', '爱', '你', ']', '[', '爱', '你', ']']
#删除操作之后
'[\ufeff', '更博', '了', ',', '爆照', '了', ',', '帅', '的', '呀', ',', '就是', '越来越', '爱', '你', '!', '生快', '傻', '缺', '[', '爱', '你', ']', '[', '爱', '你', ']', '[', '爱', '你', ']']