我想提取一个文本中除了中文以外的英文,数字,以及各种符号,用以下代码,能把所有的中文提取出来,有没有什么办法能在原文件中将提取出来的这一部分中文去掉剩下英文数字和各种符号,请求各位大佬帮忙,不尽感激。
import re
def open_file(file):
with open(file, 'r') as f:
return f.read()
def find_chinese(file):
pattern = re.compile(r'[^\u4e00-\u9fa5]')
chinese = re.sub(pattern, '', file)
print(chinese)
find_chinese(open_file('F:/compare/http.txt'))