如何用Python处理单元格内连续出现的重复词语？

要处理的对象是一个名为data.xlsx 表格中列名为content中的评论文本，将连续重复的字符串删除，要得到如图所示中“ 处理后”的文本。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

15条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-11-18 18:01
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

使用 Python 处理单元格内连续出现的重复词语

首先，我们需要使用 pandas 库来读入 Excel 表格，然后使用 regex 来匹配连续重复的字符串。

下面是一个示例代码：

import pandas as pd import re # 读入 Excel 表格 df = pd.read_excel('data.xlsx') # 选择要处理的列 content_col = df['content'].tolist() # 定义正则表达式 pattern = r"(.)\1{1,}" # 遍历每条评论文本 for i, text in enumerate(content_col): # 使用正则表达式来匹配连续重复的字符串 result = re.sub(pattern, r"\1", text) # 更新数据 content_col[i] = result # 将处理结果写回 Excel 表格 df['content'] = content_col df.to_excel('output.xlsx', index=False)

这个代码将读入 Excel 表格，选择要处理的列，然后使用正则表达式来匹配连续重复的字符串。最后，它将处理结果写回 Excel 表格。

请注意，这个正则表达式 (.)\1{1,} 会匹配任何字符（.）后跟随多个（{1,}）相同的字符（\1）。这个正则表达式可以匹配连续重复的字符串，但是可能会删除一些不必要的字符。例如，如果你想删除连续重复的空格，可以使用以下正则表达式： ( )+

如果你需要更多的控制，例如删除连续重复的多个词语，可以使用以下正则表达式： (?:\b())+\b

请根据你的实际需求来选择合适的正则表达式。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 拆分excel单元格_Python Excel 单元格 拆分并填充内容，功能和的wps类似
2020-11-24 01:14

weixin_39690391的博客加载excel name_list = workbook.sheetnames# 所有sheet的名字 worksheet = workbook[name_list[0]]# 读取第一个工作表 # 获取所有合并单元格的位置信息 # 是个可迭代对象，单个对象类型：openpyxl.worksheet.cell...
Python3.11+自然语言处理：文本分类部署全流程详解
2026-01-08 11:44

blackironwolf89的博客本文介绍了如何在星图GPU平台上自动化部署Python3.11镜像，并利用其搭建自然语言处理环境，快速实现文本分类任务。通过该平台，开发者可以便捷地完成从数据准备、模型训练到部署应用的全流程，典型应用于新闻分类、...
大学/高中信息技术合格考试Python编程知识点全整理【连载....】
2022-10-27 02:12

Rui-Yang的博客在语言层面上，合格考的要求学习变量命名，赋值，使用认识各种数据类型知道常用的数据组合形式，例如列表使用常用的内置函数或方法会使用math库或运算符进行数据计算会使用顺序结构会使用if-elif-else分支结构会使用...
使用python-docx库修改文档内容
2024-07-24 10:41

python自动化工具的博客 python-docx是一个用于处理Microsoft Word文档的Python库。它支持.docx文件的创建、查询和修改。通过这个库，可以方便地对Word文档进行操作，而无需安装庞大的Microsoft Office软件。本文介绍了如何使用python-docx...
Python3.8自然语言处理：云端NLTK环境新手友好教程
2026-01-17 04:15

SilverfoxOwl19的博客本文介绍了如何在星图GPU平台自动化部署Python3.8 + NLTK镜像，快速搭建云端自然语言处理环境。该镜像预装Jupyter、NLTK及常用数据科学库，特别适合语言学研究者进行文本分词、词性标注、情感分析等任务，实现零配置...
Python机器学习：从入门到精通
2025-07-18 17:01

莲华君的博客本书将带您，以Python为舟，泛游于算法之海。我们不只传授“术”，更探求其后的“道”——从数据的生灭流转中观照规律，于模型的迭代演进里体悟得失。愿您合上书卷时，收获的不仅是驾驭数据的技能，更有一双洞悉复杂...
上下文优化技术：如何在有限token内获得最佳编程帮助
2025-03-18 01:21

SuperMale-zxq的博客一位资深开发者花了整整30分钟向AI助手解释他的项目背景，却得到了一个完全...这一数据揭示了一个关键问题：大多数程序员并不知道如何在有限的token内优化上下文，从而获得最佳的AI编程帮助。这个问题的核心在于上下文
GeneratingKeywordsforGoogleAds：使用Python自动为搜索引擎营销活动生成关键字
2021-02-14 13:55

本文将深入探讨如何使用Python编程语言，特别是Jupyter Notebook环境，来自动化这一过程。通过这种方式，我们可以更高效地生成大量的潜在关键字，优化Google Ads的投放策略，从而吸引更多的目标用户。首先，我们...
python中模块，包，python常用内置模块，第三方模块
2024-08-16 19:40

MIMO. mimo的博客你可以使用datetime.datetime对象来表示日期和时间，并通过timestamp()方法将其转换为时间戳，或者使用datetime.fromtimestamp()方法将时间戳转换回datetime对象。模块可以导入一整个也可以导入其中的部分变量函数类...
Python自动化Office文档处理全攻略
2025-02-25 16:14

Java面试题合集的博客在日常办公中，处理Word、Excel和PDF等Office文档是再常见不过的任务。手动操作这些文档不仅耗时耗力，还容易出错。幸运的是，Python提供了丰富的库，使得自动化处理这些文档变得轻松高效。本文将通过通俗易懂的表达...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 11月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月18日

如何用Python处理单元格内连续出现的重复词语？

15条回答 默认 最新

使用 Python 处理单元格内连续出现的重复词语

问题事件

15条回答默认最新