码字小白菜努力中 2024-03-11 23:03 采纳率: 88%
浏览 19
已结题

Python中怎么清洗csv文件中的符号和表情?

麻烦在jupyter中接着以下代码继续编写


import pandas as pd
# 读取原始csv文件
df = pd.read_csv('sf_data.csv')
df.head(5)
# 观察后发现sf_location列含有需要清理的换行符和引号
# 首先去除引号,然后合并换行符
df['sf_location'] = df['sf_location'].str.replace('"', '').str.replace('\n', '')
df.head(5)
df1 = df.isnull()
df1
df1 = df.dropna()  # 去除缺失值
df1
df2 = df1.duplicated()  #查看重复值
df2
df2 = df1.drop_duplicates(keep = 'first')  #保留重复数据的第一条,其他重复值去除
df2

部分数据和截图如下:

sf_guid,sf_nickname,sf_content,sf_creationTime,sf_productColor,sf_score,sf_userClient,sf_days,sf_imageCount,sf_location
79dc24f4671602528a3cbe37a8025df8,鬼***鑫,京东物流发货速度快!已经买了好多次了,质量没问题有保障!护舒宝大品牌值得信赖!舒适度高,透气性好,耐用性强,性价比很高。,2024-02-18 23:08:37,超熟睡裸感肌 290mm 8片,5,4,31,4,"北京
"
37c34f6e2e36f5fb81937c99ab84f2ce,s***7,这款卫生巾老牌子了,一直是我信赖的品牌。京东太方便了,每次都是家里没用的了,直接在京东自营店购买,去超市的时间都省下来了。太幸福了。,2024-02-02 07:32:16,超熟睡柔棉感 350mm 8片,5,4,5,4,"北京
"
5d31f15927f0d90cbf68704e76d47ec7,淡***n,平常都是用的护舒宝,这次换个牌子试试,一次性买了好几包,多买就有优惠,简直是太划算了,而且比超市还便宜些,特别喜欢京东的物流,真是神速,这么冷的天,还下着雨,还送来了,真是喜欢啊!,2024-02-21 23:27:39,超熟睡裸感肌 350mm 8片,5,4,1,3,"湖北
"
0512fb700742a611c8d5c55da701a0cc,n***k,包装好,物流快,价格实惠,比超市便宜多了实用性和颜值都非常的赞,我很喜欢,还会再来买的宝贝收到了,质量很不错,包装精致,材质优秀,比想象中好,送礼自用非常合适,下次继续购买,2024-02-18 22:09:36,超熟睡柔棉感 350mm 8片,5,4,34,3,"天津
"
a295a342b228d68c3b6161970b3dadd5,古***3,好用,一直买的品牌,质量不错,非常好。长期回购,很好,很不错。姨妈期量大,苏菲不侧漏,舒服实用,用完再接着买,一次囤好多了……,2024-01-28 17:13:35,柔棉纤巧 420mm 8片,5,4,11,2,"贵州
"
4e69e0f487c719ea067a9952cdcaa0c1,小***a,夜用卫生巾,首选苏菲,350的长度很有安全感,一整夜不怕侧漏,睡的安心,用的放心,推荐给大家,有活动价格一定要多囤几包,,2024-01-28 13:46:06,超熟睡裸感肌 350mm 8片,5,2,5,2,"广东
"
b071977aa0cbef0663bcfcccda86afcd,爱***E,自己一直用这个品牌,透气性很好,薄厚适中,价格也合理,是一款物美价廉,值得信赖的大众品牌。自认为性价比还算比较高,值得信赖的产品,2024-01-28 09:20:02,柔棉纤巧 420mm 8片,5,4,24,2,"河北
"
0b58f5e5e56683c1797c56a434992019,j***6,苏菲大品牌,质量有保障,就认准这个牌子了!绵柔材质的,很舒适,质量很好,用着放心,很透气,赶上活动买很合适,送货也快,值得购买!,2024-02-01 23:31:11,超熟睡裸感肌 350mm 8片,5,4,4,2,"北京
"
a5845d93f9d448426b84787b5aa47031,j***9,一直都用这个品牌。还是很喜欢这款卫生巾的,好用还不贵。赶上京东搞活动更是很优惠,很赞👍每次赶上京东搞活动都会购买一些。京东的到货速度也是很快的,一般当天下单转天就到货了。,2024-02-06 23:29:08,超熟睡柔棉感 350mm 8片,5,2,1,3,"天津
"
df1af82c1f874dac09ad6d85a98b370b,j***9,非常好用的卫生巾,安睡一整晚。赶上京东搞活动立刻下单购买,很赞。而且物流也是很快的,一般当天下单转天就到货了,还是很赞的👍不错的购物体验。,2024-02-06 23:35:55,超熟睡柔棉感 290mm 10片,5,2,2,3,"天津
"
bc7f361fd38f9994abf389eec0ae75ad,y***8,苏菲卫生巾,国际大品牌,质量非常好,非常舒适,而且不会侧漏,价廉物美,物流及时,一次很好的购物体验,还会再买。,2024-02-09 17:32:24,柔棉纤巧 420mm 8片,5,4,1,2,"上海
"
4b5afcd6da160fd3c277508b5df85894,晨***8,宝贝已经收到,很满意,质量很好,包装精细,日期很好,价格实惠。谢谢卖家,谢谢物流,谢谢快递员,赞赞赞,2024-02-06 14:07:26,超熟睡裸感肌 420mm 8片,5,4,2,3,"辽宁

img

  • 写回答

4条回答 默认 最新

  • Kwan的解忧杂货铺 2024-03-11 23:05
    关注

    qq_58531721 晚上好🌙🌙🌙
    本答案参考ChatGPT-3.5

    解决方案:

    1. 导入re库,使用正则表达式清除所有的符号和表情。可以使用re.sub()函数来实现替换。
    2. 使用Python的字符串处理函数replace()去除引号和换行符。
    3. 使用pandas的str.strip()函数去除字符串首尾的空格。
    4. 可以将处理后的数据保存为一个新的csv文件。

    修改后的代码如下所示:

    import pandas as pd
    import re
    
    # 读取原始csv文件
    df = pd.read_csv('sf_data.csv')
    
    # 清洗sf_location列中的引号和换行符
    df['sf_location'] = df['sf_location'].str.replace('"', '').str.replace('\n', '')
    
    # 清洗sf_content列中的符号和表情
    df['sf_content'] = df['sf_content'].apply(lambda x: re.sub(r'[^\w\s]+', '', x))
    
    # 去除空格
    df['sf_content'] = df['sf_content'].str.strip()
    
    # 保存为新的csv文件
    df.to_csv('cleaned_data.csv', index=False)
    

    执行以上代码后,将会得到一个清洗后的csv文件"cleaned_data.csv",其中sf_location列中的引号和换行符以及sf_content列中的符号和表情都已经清理干净。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 3月13日
  • 已采纳回答 3月13日
  • 修改了问题 3月11日
  • 创建了问题 3月11日

悬赏问题

  • ¥30 为什么会失败呢,该如何调整
  • ¥50 如何在不能联网影子模式下的电脑解决usb锁
  • ¥20 服务器redhat5.8网络问题
  • ¥15 如何利用c++ MFC绘制复杂网络多层图
  • ¥20 要做柴油机燃烧室优化 需要保持压缩比不变 请问怎么用AVL fire ESE软件里面的 compensation volume 来使用补偿体积来保持压缩比不变
  • ¥15 python螺旋图像
  • ¥15 算能的sail库的运用
  • ¥15 'Content-Type': 'application/x-www-form-urlencoded' 请教 这种post请求参数,该如何填写??重点是下面那个冒号啊
  • ¥15 找代写python里的jango设计在线书店
  • ¥15 请教如何关于Msg文件解析