斯丢彼得 2023-04-10 16:03 采纳率: 100%

已结题

python 对csv 文件进行批处理

Python 批量处理csv 文件问题求帮助！@
ShowMeAI@ 带脑子的程序猿

如图所示,在同一个文件夹下有下列csv文件,其文件名构成为:“SN_”+“测试时间_”+“_Defect_CMreport.csv”, 部分文件SN相同,测试时间不同.
打开CSV 后,每一个csv 第七列第二行信息为测试结果信息.

目标：

测试时间部分为24小时制计数,10点之前的0-9点为1位字符,10-24点为2位字符,请统一至 “00,01,02,03 等” 对齐文件名字符数.
根据SN部分,筛选重复部分,若该SN只出现过一次,复制到target 文件夹,若出现过多次,按文件名中的测试时间排序,仅将最后一次测试时间对应的SN 复制到target 文件夹.
同一SN,至多只测试5次,只少测试过一次,将测试结果根据文件名中的时间先后顺序排序,生成如图3统计,并生成 summary.csv 文件,存至target 文件.

感谢各位关注,初学统计,面对大数据量的处理,寻求高效能方法.

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

8条回答默认最新

独处东汉 2023-04-10 22:58

关注

占坑答题，先答复你的第一个小目标，每天搞一个小目标，按照统一的时间的格式来对文件名进行操作，假设source文件夹下有几个csv的文件，以下是代码片段：

import os

folder_path = '..\source'  # 文件夹路径 可以使用相对路径也可以使用绝对路径
for filename in os.listdir(folder_path):
    name, ext = os.path.splitext(filename)
    if ext == '.csv':
        time_str = name.split('_')[2]  # 获取时间字符串
        h, m, s = time_str.split('-')  # 分割小时、分钟和秒
        new_time_str = f'{h.zfill(2)}-{m.zfill(2)}-{s.zfill(2)}'  # 构造新的时间字符串
        new_name = name.replace(time_str, new_time_str) + ext  # 构造新的文件名
        os.rename(os.path.join(folder_path, filename), os.path.join(folder_path, new_name))

向第二个目标进发：
假设你的python的工程文件夹下有两个文件夹，一个是source，一个target，其中target的文件夹是什么都没有的，source文件夹下的内容如下：

现在要实现你的第二需求，代码片段如下：

import os
import shutil
from datetime import datetime

source_folder = 'source'  # 源文件夹
target_folder = 'target'  # 目标文件夹

latest_files = {}  # 每个 SN 对应的最新文件

# 实现目标1，统一格式
for filename in os.listdir(source_folder): # 文件夹路径,使用相对路径
    name, ext = os.path.splitext(filename)
    if ext == '.csv':
        time_str = name.split('_')[2]  # 获取时间字符串
        h, m, s = time_str.split('-')  # 分割小时、分钟和秒
        new_time_str = f'{h.zfill(2)}-{m.zfill(2)}-{s.zfill(2)}'  # 构造新的时间字符串
        new_name = name.replace(time_str, new_time_str) + ext  # 构造新的文件名
        os.rename(os.path.join(source_folder, filename), os.path.join(source_folder, new_name))

# 实现目标2,文件搬运        
# 遍历源文件夹中的所有文件
for file_name in os.listdir(source_folder):
    sn = file_name.split('_')[0]  # 获取文件名中的 SN
    time_str = file_name.split('_')[1] + '_' + file_name.split('_')[2]  # 获取文件名中的时间字符串
    time = datetime.strptime(time_str, '%Y%m%d_%H-%M-%S')  # 将时间字符串转换为 datetime 对象
    if sn not in latest_files or time > latest_files[sn][1]:  # 如果当前 SN 还没有对应的最新文件，或者当前文件的时间比已知的最新时间更晚
        latest_files[sn] = (file_name, time)  # 更新最新文件和最新时间

# 遍历每个 SN 对应的最新文件
for sn, (latest_file, latest_time) in latest_files.items():
    shutil.copy(f'{source_folder}/{latest_file}', f'{target_folder}/{latest_file}')  # 拷贝最新文件到目标文件夹中

运行之后：

第三天来实现需求3，全部代码如下：

import os
import shutil
import csv

from datetime import datetime
from collections import defaultdict

source_folder = 'source'  # 源文件夹
target_folder = 'target'  # 目标文件夹
 
latest_files = {}  # 每个 SN 对应的最新文件
 
# 实现目标1，统一格式
for filename in os.listdir(source_folder): # 文件夹路径,使用相对路径
    name, ext = os.path.splitext(filename)
    if ext == '.csv':
        time_str = name.split('_')[2]  # 获取时间字符串
        h, m, s = time_str.split('-')  # 分割小时、分钟和秒
        new_time_str = f'{h.zfill(2)}-{m.zfill(2)}-{s.zfill(2)}'  # 构造新的时间字符串
        new_name = name.replace(time_str, new_time_str) + ext  # 构造新的文件名
        os.rename(os.path.join(source_folder, filename), os.path.join(source_folder, new_name))
 
# 实现目标2,文件搬运        
# 遍历源文件夹中的所有文件
for file_name in os.listdir(source_folder):
    sn = file_name.split('_')[0]  # 获取文件名中的 SN
    time_str = file_name.split('_')[1] + '_' + file_name.split('_')[2]  # 获取文件名中的时间字符串
    time = datetime.strptime(time_str, '%Y%m%d_%H-%M-%S')  # 将时间字符串转换为 datetime 对象
    if sn not in latest_files or time > latest_files[sn][1]:  # 如果当前 SN 还没有对应的最新文件，或者当前文件的时间比已知的最新时间更晚
        latest_files[sn] = (file_name, time)  # 更新最新文件和最新时间
 
# 遍历每个 SN 对应的最新文件
for sn, (latest_file, latest_time) in latest_files.items():
    shutil.copy(f'{source_folder}/{latest_file}', f'{target_folder}/{latest_file}')  # 拷贝最新文件到目标文件夹中
    
# 实现目标3,实现文件内容摘取  
# 创建一个字典来存储每个SerialNumber的Panel_Grade值
serialnumber_panelgrade = defaultdict(list)

# 获取文件夹中的所有文件名
filenames = os.listdir(target_folder)

# 遍历文件夹中的每个csv文件
for filename in filenames:
    if filename.endswith('.csv'):
        with open(os.path.join(target_folder, filename), newline='') as csvfile:
            reader = csv.DictReader(csvfile)
            for row in reader:
                serialnumber = row['SerialNumber']
                panel_grade = row['Panel_Grade']
                if panel_grade:
                    serialnumber_panelgrade[serialnumber].append(panel_grade)

# 创建一个新的csv文件
with open('./target/summary.csv', 'w', newline='') as csvfile:
    fieldnames = ['SerialNumber', 'Panel_Grade_test1', 'Panel_Grade_test2', 'Panel_Grade_test3', 'Panel_Grade_test4']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    for serialnumber, panel_grades in serialnumber_panelgrade.items():
        row = {'SerialNumber': serialnumber}
        for i in range(1, 5):
            if i <= len(panel_grades):
                row[f'Panel_Grade_test{i}'] = panel_grades[i-1]
            else:
                row[f'Panel_Grade_test{i}'] = 0
        writer.writerow(row)

target文件夹：

运行结果：

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(7条)

报告相同问题？

关注问题

合并所有csv文件并去除表头的python代码.zip
2019-09-20 12:47

在Python编程语言中，处理CSV数据是一项常见的任务，特别是在数据分析和数据清洗的场景下。本教程将详细讲解如何使用Python3来合并多个CSV文件，并在过程中去除表头。以下是你需要了解的关键知识点： 1. **Python ...
Python利用pandas计算多个CSV文件数据值的实例
2020-09-20 14:21

在Python编程中，pandas库是一个非常强大的数据分析...通过这个过程，我们可以对大量数据进行批处理分析，从而提高工作效率。对于类似的任务，如计算其他统计量或处理其他类型的数据，只需适当修改计算部分的代码即可。
【Python进阶】5步轻松掌握Python CSV文件处理，你还在手动整理数据吗？
2024-11-13 01:00

墨瑾轩的博客通过今天的分享，相信小伙伴们已经掌握了如何使用Python进行CSV文件的数据处理。无论是读取、写入、清洗、分析，还是可视化，都能帮助你在数据处理中更加得心应手。如果你还有其他关于CSV文件处理的问题，欢迎在评论...
python分区统计批处理_python分区统计批处理_python_
2021-10-03 10:30

在IT行业中，Python是一种强大的编程语言，尤其在数据分析、科学计算和地理信息系统（GIS）等领域广泛应用。本主题聚焦于“Python分区统计批处理”，这是一个利用Python进行地理空间数据处理的重要技术，常用于对...
python写入csv文件两列_python怎么实现CSV批处理，并把文件名和文件夹名添加到后两列...
2020-11-29 19:51

weixin_39942191的博客匿名用户1级2017-11-23 回答#encoding: utf-8__author__ = 'DELL'import csvimport globimport datetimeimport sysimport osreload(sys)#中文错误sys.setdefaultencoding( "utf-8" )'''@author likehua CSV批处理'''...
【python编程快速上手-让繁琐的工作自动化】项目练习资料
2022-06-08 20:26

Python编程语言以其简洁明了的语法和强大的功能，已经成为许多初学者和专业人士首选的工具，尤其是在自动化任务领域。"Python编程快速上手-让繁琐的工作自动化"是一份旨在帮助学习者掌握Python自动化技能的项目练习...
读取csv文件中指定行列的数据
2018-04-16 10:50

在Eclipse中，你可以创建一个新的Java项目，将CSV文件放入项目的资源目录下，然后编写上述代码进行测试。记得在运行前检查CSV文件的编码格式，确保与Java程序的编码设置一致，以防止乱码问题。通过这种方式，你...
基于Python的数据批处理探讨与应用.docx
2023-06-13 19:15

Python是一种强大的编程语言，尤其在数据处理领域，其丰富的库和简洁的语法使得它成为处理大批量数据的理想选择。在本文中，作者牛常领和毕德贇深入探讨了如何利用Python进行数据批处理，并结合实际工作场景，展示了...
根据1个csv文件，批量对应重命名所有文件
2024-09-26 10:21

脚本将读取CSV文件中的对应关系，并对A文件夹中的jpg文件进行重命名。脚本的编写分为两个主要步骤：第一步是读取CSV文件并提取文件名对应关系。首先，脚本尝试使用不同的编码（如utf-8, gbk, utf-16）打开CSV...
change-csv-file-name.rar_示波器 CSV文件
2022-09-24 05:28

这个程序可能采用了批处理脚本或者编程语言（如Python、Bash等），通过读取一个包含新文件名规则的列表，自动遍历并修改指定目录下的CSV文件名。用户可以根据实际需求调整程序逻辑，比如添加日期、实验编号或其他...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月10日

python 对csv 文件进行批处理

8条回答 默认 最新

问题事件

8条回答默认最新