python如何处理含有多种语言的文本，使其只保留英文文本？

问题遇到的现象和发生背景

我从网站上下载的用户评论，里面有中文、英文、韩语、西班牙语等，我使用了正则表达式，但并没有完全处理干净。

问题相关代码，请勿粘贴截图

# 训练文件
file = pd.read_csv(filepath_p)#读取data.csv文件


txts = []#设置空列表

for string in file[message]:
    string = ''.join(x for x in str(string) if ord(x) < 256)
    string = re.sub('<br/>', '', string)
    string = re.sub('[\s+\.\!\/_,$%^*(+\"\')]+|[+——()?【】“”！，。？、~@#￥%……&*（）]+', " ", string)
    string = re.sub(r"\s+", " ", string)            
    txts.append(string)
    
file[message] = txts #将file文件里的comments替换为处理后的评论

# 选取字符长度>15的评论
file = file[file[message].str.len() >= 15]
file.reset_index(drop=True, inplace=True)#重置索引，在原数据上进行修改

print(file.shape)#打印file数据表的维度
file.head()#打印file前5行

运行结果及报错内容

运行后发现comments文本中依然含有其它语言的评论

我的解答思路和尝试过的方法

尝试过其他正则表达式，但是效果不理想

我想要达到的结果

去除英文外的所有文本，只保留英文文本

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
於黾 2022-03-23 09:39
关注
你应该按段来处理，而不是按文字
同一段里只要出现了非英文字符，那么整段肯定都是非英文编写的
你不能只摘掉所有的非英文字符而把英文字符堆积在一起
比如法文里的字符就有跟英文字符一模一样的字符
打汉字的时候也难免偶尔会用个拼音什么的

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

DeepSeek智能文本摘要生成器：基于自然语言处理的Python实战项目
2025-03-22 17:12

内容概要：本文介绍了基于国产AI模型DeepSeek的智能文本摘要生成器的设计与实现。首先详细阐述了DeepSeek的定义、特点以及应用场景，特别是其推理能力强、低成本和完全开源的优势。接着针对新闻摘要生成的具体应用...
【自然语言处理】基于Transformer的文本生成模型应用：AI创作系统设计与多场景实战实现
2026-01-03 15:43

适合人群：具备一定Python编程基础和机器学习基础知识，从事或有兴趣进入自然语言处理、AI应用开发等相关领域的学生、开发者或研究人员，尤其适合工作1-3年希望拓展AI实战能力的技术人员；使用场景及目标：① 掌握...
【自然语言处理】python之人工智能应用篇——文本生成技术
2024-06-20 12:37

@我们的天空的博客文本生成是指使用自然语言处理技术，基于给定的上下文或主题自动生成人类可读的文本。这种技术可以应用于各种领域，如自动写作、聊天机器人、新闻生成、广告文案创作等。
博文自然语言处理：文本分类中代码用到的训练集
2025-03-06 10:18

简介：该训练集聚焦自然语言处理文本分类任务，数据涵盖多领域书籍信息，旨在提升模型在文本分类任务中的性能。训练集是由代码自动生成的。适用人群：适用于自然语言处理文本分类学习与研究的同学或同事，及想调通...
Anytext-多语言视觉AI文本生成工具（Python源码）
2025-10-23 11:11

AnyText是一款在线多语言视觉AI文本生成工具和编辑工具，利用最先进的 AI 技术将简单的文本输入转换为视觉上引人注目的图像，由阿里达摩院发布的文生图最新模型提供支持，目前可以可实现生成与原图风格融为一体的...
【人工智能】基于Python的自然语言处理：深入实现文本相似度计算
2024-12-15 08:47

蒙娜丽宁的博客本文全面解析文本相似度计算的核心技术，使用Python中的spaCy和sentence-transformers库实现多种方法，包括基于词向量的余弦相似度、预训练语言模型的句向量方法等。我们将从理论讲解到代码实现，涵盖预处理、特征...
使用Python进行医疗临床文本处理
2020-08-06 14:02

标题“使用Python进行医疗临床文本处理”中，主要讨论了使用Python语言对医疗临床文本进行处理的方法和技术。医疗临床文本处理是医疗保健领域的一个重要应用，通过自然语言处理（NLP）技术，可以对医疗临床文本进行...
AI人工智能技术 Python TensorFlow机器学习实战教程第8章自然语言文本处理共24页.pptx
2022-04-30 23:16

自然语言文本处理是人工智能领域的一个重要分支，它涉及对人类语言的理解、生成和分析。在Python和TensorFlow的机器学习框架下，自然语言处理技术能够应用于各种任务，如文本分类、情感分析、机器翻译和聊天机器人等...
人工智能项目-情感分析-基于python的金融文本情感分析模型源码+文档说明
2024-10-29 19:46

人工智能项目-情感分析-基于python的金融文本情感分析模型源码+文档说明人工智能项目-情感分析-基于python的金融文本情感分析模型源码+文档说明人工智能项目-情感分析-基于python的金融文本情感分析模型源码+文档...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月23日

python如何处理含有多种语言的文本，使其只保留英文文本？

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

1条回答默认最新