问题遇到的现象和发生背景
我从网站上下载的用户评论,里面有中文、英文、韩语、西班牙语等,我使用了正则表达式,但并没有完全处理干净。
问题相关代码,请勿粘贴截图
# 训练文件
file = pd.read_csv(filepath_p)#读取data.csv文件
txts = []#设置空列表
for string in file[message]:
string = ''.join(x for x in str(string) if ord(x) < 256)
string = re.sub('<br/>', '', string)
string = re.sub('[\s+\.\!\/_,$%^*(+\"\')]+|[+——()?【】“”!,。?、~@#¥%……&*()]+', " ", string)
string = re.sub(r"\s+", " ", string)
txts.append(string)
file[message] = txts #将file文件里的comments替换为处理后的评论
# 选取字符长度>15的评论
file = file[file[message].str.len() >= 15]
file.reset_index(drop=True, inplace=True)#重置索引,在原数据上进行修改
print(file.shape)#打印file数据表的维度
file.head()#打印file前5行
运行结果及报错内容
运行后发现comments文本中依然含有其它语言的评论
我的解答思路和尝试过的方法
尝试过其他正则表达式,但是效果不理想
我想要达到的结果
去除英文外的所有文本,只保留英文文本