python数据集异常符号的处理和缺失值填补的问题

大家好！我在尝试使用df.replace函数进行数据集中异常符号的替换和，但是出现了以下几个问题。

首先我创建一个简单的数据集如下：

example_data = {'A':  ['1', '-', '<0.9'],
        'B': ['3', '19/20','$25']
        }

example_df = pd.DataFrame (example_data, columns = ['A','B'])

接下来使用replace函数进行特殊符号的去除。即把 - / < $ 等特殊符号去除只保留数字。

example_df = example_df.replace('/','', regex=True)
example_df = example_df.replace('$','', regex=True)#只有符号$无法去除？
example_df = example_df.replace('<','', regex=True)
example_df = example_df.replace('-','', regex=True)
example_df

问题1：使用replace函数无法去除符号“$”。请问这种情况应该怎么解决？

而且这种办法只适合知道异常符号是什么且异常符号种类很少的情况，如果想一次性替换掉所有特殊符号呢？我查询了很多方法，以下这种方法最接近，但是它一次性去掉了包含特殊符号的单元格的值。

for col in example_df.columns:
    example_df[col].replace(regex=True, inplace=True, to_replace=r'[-@#&$%+/\*<>=]', value=np.nan)

问题2: 请问如何一次性将所有特殊符号去除，并保留其所在单元格内的其他内容？

经过处理得到如下数据集：

我想把缺失值使用列中位数进行填补，但是却报错“could not convert string to float: '' ”。好像是因为我把特殊符号替换成了空字符串？

for col in example_df.columns[0:]:
    fill_val = example_df[col].dropna().astype(float).median()
    example_df[col].fillna(fill_val,inplace=True)

问题3: 请问大家这种没有办法转换成数值型的情况下应该怎么用中位数或者平均数填补缺失值？是不是我替换特殊符号的方法还是有问题的？

还有一个小问题～我发现如果一个单元格内只有特殊符号，那么使用None进行替换后，他们不会变成空，反而会自动填补上一行的值。请问这个是为什么呢？

#如果一个变量中只有一个特殊符号，填补成为空白之后会自动填补上一行的值？
example_df = example_df.replace('-',None, regex=True)

多谢各位大神！感激不尽！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-天际的海浪 2021-03-29 17:20
关注
这个是正则表达式，$在正则表达式中表示一行或整个文本的结尾。

要替换 $ 应该写成 r'\$'

example_df = example_df.replace(r'\$','', regex=True)#只有符号$无法去除？

如果想一次性替换掉所有特殊符号

example_df = example_df.replace(r'[\-@#&\$%+/\\*<>=]','', regex=True)

# 第3个问题要把空字符串替换成pd.NA

example_df = example_df.replace(r'^\s*$',pd.NA, regex=True)

import pandas as pd example_data = {'A': ['1', '-', '<0.9'], 'B': ['3', '19/20','$25'] } example_df = pd.DataFrame (example_data, columns = ['A','B']) example_df = example_df.replace(r'[\-@#&\$%+/\\*<>=]','', regex=True) example_df = example_df.replace(r'^\s*$',pd.NA, regex=True) print(example_df) for col in example_df.columns[0:]: fill_val = example_df[col].dropna().astype(float).median() example_df[col].fillna(fill_val,inplace=True) print(example_df)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

python数据集异常符号的处理和缺失值填补的问题 python 其他数据挖掘有问必答
2021-03-29 17:06

回答 4 已采纳这个是正则表达式，$在正则表达式中表示一行或整个文本的结尾。要替换 $ 应该写成 r'\$' example_df = example_df.replace(r'\$','', regex=T
python数据缺失值处理报错, python 有问必答
2022-10-19 21:37

回答 3 已采纳最好发完整代码 Python中缺失值的填充fillna()函数_刘经纬老师的博客-CSDN博客_fillna 【小白从小学Python、C、
【Python】数据清洗：如何去重处理各列行中异常缺失值提取有效数据？ python
2022-02-25 13:56

回答 1 已采纳 df=df.replace('.',np.NAN).bfill().groupby('index').first() df=df.replace('.',np.NAN).astype('object
[Python] 数据预处理(缺失值、异常值、重复值) [相关方法参数说明、代码示例、相关概念]
2022-08-02 08:04

小炜1128的博客 1. 缺失值处理 1.1 缺失值删除 1.2 缺失值填补 2. 异常值处理 2.1 异常值的检测 2.2 异常值的处理
如何用python数据处理，使缺失值替换为上一行的值呢？ python
2021-10-09 10:38

回答 1 已采纳 df.fillna(method='ffill',inplace=True) 类似上述代码,method='ffill' 如果对你有帮助，帮忙采纳下，多谢！
数据分析中，性别一列的缺失值怎么处理比较好 python 数据分析有问必答线性回归
2022-01-30 13:35

回答 2 已采纳 缺失值处理要根据具体情况，通常的方法：1）删除该样本，2）补0或预置值，3）补平均值，4）用上一个样本值或滑动平均值代替具体到你提出的问题，性别只有男/女（忽略其它）相当于 0/1，估计相邻样本不
机器学习数据缺失值处理 python 机器学习
2022-04-13 21:24

回答 1 已采纳 import pandas as pd import numpy as np data = pd.DataFrame({ 'a': [np.nan, 1, np.nan, 2, 3, np.
python 线性回归回归 缺失值 忽略_机器学习第3篇：数据预处理（使用插补法处理缺失值）...
2021-03-05 16:29

夏天的紫薇花的博客多重插补(MCMC法)，是在高缺失率下的首选插补方法，优点是考虑了缺失值的不确定性。一，热卡插补热卡填充(Hot deck imputation)也叫就近补齐，对于一个包含空值的对象，热卡填充法在完整数据中找到一个与它最相似的...
Python用异常处理编写猜数问题 python 有问必答
2021-10-13 11:07

回答 2 已采纳你好同学，你已经有i in range(1,goal):了，循环里面就不需要i+=1这句了有帮助望题主给个采纳支持答主哦
Python用linregress时，我有缺失值，改怎么处理 python 线性回归
2023-04-12 02:15

回答 1 已采纳以下内容部分参考ChatGPT模型：在使用Python中linregress函数做线性回归时，可以使用pandas库中的fillna()函数将缺失值填充为0或者均值、中位数等统计量。在进行线性回归
Python实现导入文件和数据处理 python 有问必答
2022-06-13 18:21

回答 3 已采纳将原文本数据另存"utf-8"格式，读取时使用编码‘utf-8-sig'，用pandas对数据进行类型转换，参考代码： import numpy as np import pandas as pd #
python处理缺失值高级方法_R in action读书笔记（20）第十五章处理缺失数据的高级方法...
2021-02-03 20:23

意博思诺教育的博客处理缺失数据的高级方法15.1 处理缺失值的步骤一个完整的处理方法通常包含以下几个步骤：(1) 识别缺失数据；(2) 检查导致数据缺失的原因；(3) 删除包含缺失值的实例或用合理的数值代替(插补)缺失值。缺失数据的分类...
python数据处理出现问题 python 有问必答
2022-10-22 18:42

回答 4 已采纳 def boxLine(ser): if ser.count()<2:#只有一条返回空数组，要不下面的那句ser切片会返回空数组调用median返回nan return
python均值插补法填补缺失值_R语言笔记（四）：特殊值处理
2020-11-22 04:26

weixin_39728544的博客但现实获得的第一手数据往往都是不完整、不整齐的，比如存在数据本身缺失值、离群值，数据框存在冗余行或列，抑或数据需要进一步加工才能获取有意义的变量等。因此，分析数据前对的数据处理工作极为重要。本文介绍的...
Pandas数据分析17——pandas数据清洗(缺失值、重复值处理)
2022-08-08 11:53

阡之尘埃的博客 pandas处理数据的中缺失值，重复值。数据的插值计算，异常点裁剪处理等等等
没有解决我的问题, 去提问

悬赏问题

¥15 matlab中使用gurobi时报错
¥15 WPF 大屏看板表格背景图片设置
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂

python数据集异常符号的处理和缺失值填补的问题

4条回答 默认 最新

悬赏问题

4条回答默认最新