秃秃噜噜 2021-04-01 13:42 采纳率: 50%
浏览 92
已采纳

请教下python 提取身份证号或者卡号如何实现

各位大佬们,我有一堆数据CSV EXCEL的都有  并且标题列可能存在不一样的情况  请问如何利用循环从不同的文件中提取 身份证号和卡号 并且合并到一个EXCEL中!! 跪谢大佬们

  • 写回答

1条回答 默认 最新

  • 关注

    解题下思路供参考:

    1. 文件分csv和excel, 你可以用pd.read_csv() 和pd.read_excel() 分别读取

    2. 获取文件夹内的excel文件列表和csv文件列表,分别用上面的方法读取, 下面这段代码可参考

    3.标题可能存在不一样的. 那先看看文件,找找列名有没有什么规律, 根据规律看读取的时候文件是纵向或者横向合并

    4. 汇总完的数据再根据字符串长度或者只有数字和字母等条件筛选,清洗

    # 导入工具包
    import pandas as pd
    import numpy as np
    import os
    # 路径
    path = '文件路径'
    # 文件列表
    files = []
    for file in os.listdir(path):
        if file.endswith(".csv"):
            files.append(path+file)
    # 定义一个空的dataframe
    data = pd.DataFrame()  
    # 遍历所有文件
    for file in files:
        datai = pd.read_csv(file,encoding='gbk')
        datai_len = len(datai)
        data = data.append(datai)   # 添加到总的数据中
        print('读取%i行数据,合并后文件%i列, 名称:%s'%(datai_len,len(data.columns),file.split('/')[-1]))     
        # 查看是否全部读取,格式是否出错
    # 重置索引    
    data.reset_index(drop=True,inplace=True)
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 #MATLAB仿真#车辆换道路径规划
  • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建
  • ¥15 数据可视化Python
  • ¥15 要给毕业设计添加扫码登录的功能!!有偿
  • ¥15 kafka 分区副本增加会导致消息丢失或者不可用吗?
  • ¥15 微信公众号自制会员卡没有收款渠道啊
  • ¥100 Jenkins自动化部署—悬赏100元
  • ¥15 关于#python#的问题:求帮写python代码
  • ¥20 MATLAB画图图形出现上下震荡的线条
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘