想请教一下为什么会出现这种报错?
我是不是需要再建立一个excel文档来命名我的结果?
不是很懂,麻烦请教各位。
这个错误信息表明变量 new_data 未定义。这可能是因为 re.findall 返回了一个空列表,导致 join 操作结果为空字符串。
import re
import jieba
def chinese_word_cut(mytext):
jieba.load_userdict('add_word_list.txt')
jieba.initialize()
# 找到文本中的所有中文字符
new_data = re.findall(r'[\u4e00-\u9fa5]+', mytext, re.S)
# 检查 new_data 是否为空
if new_data:
new_data = " ".join(new_data)
else:
new_data = ""
seg_list_exact = jieba.cut(new_data, cut_all=True)
result_list = []
with open('stopwordlist.txt', encoding='utf-8') as f:
con = f.readlines()
stop_words = set()
for i in con:
i = i.replace("\n", "")
stop_words.add(i)
for word in seg_list_exact:
if word not in stop_words and len(word) > 1:
result_list.append(word)
return " ".join(result_list)
# 示例使用
# data['content_cutted'] = data.content.apply(chinese_word_cut)
# data.head()