用爬虫爬出了一堆数据,数据处理的时候,薪资这一列格式比较混乱
基本是 1-2万/月。 部分是10-20万/年。还有200/天,
要做数据分析的话需要统一成纯数字
有无什么pandas可以把薪资这一列,带有万/月的行全部提取出来,然后统一调整格式
具体做法是怎样呢?
有些数据错误的将其他无关的信息放在了薪资这一栏,会不会对数据分析产生影响,是否可以找到并删除?
用爬虫爬出了一堆数据,数据处理的时候,薪资这一列格式比较混乱
基本是 1-2万/月。 部分是10-20万/年。还有200/天,
要做数据分析的话需要统一成纯数字
有无什么pandas可以把薪资这一列,带有万/月的行全部提取出来,然后统一调整格式
具体做法是怎样呢?
有些数据错误的将其他无关的信息放在了薪资这一栏,会不会对数据分析产生影响,是否可以找到并删除?
可以的,先提取出月薪这一列数据,然后遍历这些数据,使用replace(“万/月”,“0000/月”)替换掉就行。