python批量处理文件和数据


path ='.../data0ape'
def get_filelist(dir):
    Filelist = []
    for home, dirs, files in os.walk(path):
        for filename in files:
            # 文件名列表，包含完整路径
            Filelist.append(os.path.join(home, filename))
            # # 文件名列表，只包含文件名
            # Filelist.append( filename)
    return Filelist
Filelist = get_filelist(dir)
print(len( Filelist))
for file in  Filelist :
        #print(file)
        txtfile = open(file, "r")
        lineStr1 = txtfile.readline()
        word = lineStr1[13:].split(" ")[0]
        #df
        files = pd.read_csv(file,sep='\s+',header = None, skiprows= 8,keep_default_na=False)
        data = pd.DataFrame(files)
        data['time'] = data[1].apply(lambda x:x[0:8])
        data_new = data
        data_new[1] = data_new['time']
        data_new = data_new.groupby(by = 'time').mean()
        data_new = data_new.reset_index(drop=False)
        df1 = data_new.iloc[:,:2 ]
        dftest = pd.DataFrame({'time': pd.date_range(start= df1['time'][0], end=df1['time'].iloc[-1], freq='S')})
        df1['time'] = df1['time'].astype('str')
        start = df1['time'][0]
        end = df1['time'][(len(df1) - 1)]
        time = pd.date_range(start=start, end=end, freq='S')
        str1 = time.strftime("%Y-%m-%d %H:%M:%S").to_list()
        time2 = [x.split(' ')[1] for x in str1]
        df2 = pd.DataFrame({'time': time2})
        df3 = pd.merge(df1, df2, on='time', how="right")
        df4 = df3.drop('time', axis = 1)
        #add id
        df4.loc[-1] = word
        df4.index = df4.index + 1
        df4 = df4.sort_index()

本人想使用上述代码块实现————从某文件夹子文件夹的.txt提取要素作为数据文件，在运行时“lineStr1 = txtfile.readline()”报错，'utf-8' codec can't decode byte 0x88 in position 296: invalid start byte，修改‘r’为‘encoding='ISO-8859-1'后，files = pd.read_csv(file,sep='\s+',header = None, skiprows= 8,keep_default_na=False)又报错Error tokenizing data. C error: Expected 3 fields in line 10, saw 9。源代码在单步调试时是可以运行的，最后我想实现所有从file提取的df整合到一个df文件里面。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

8条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
MarkHan_ 2023-02-21 09:30
关注
该回答引用GPTᴼᴾᴱᴺᴬᴵ

关于第一个问题，'utf-8' codec can't decode byte 0x88 in position 296: invalid start byte，这个错误可能是因为文本文件的编码格式不是utf-8，可以尝试使用其他编码格式打开文件，比如'ISO-8859-1'，使用如下代码：

txtfile = open(file, "r", encoding='ISO-8859-1')

关于第二个问题，Error tokenizing data. C error: Expected 3 fields in line 10, saw 9，这个错误是因为在读取txt文件时，某一行的字段数目与指定的分隔符sep='\s+'不符合。可以尝试使用pandas的error_bad_lines参数跳过错误行，如下：

files = pd.read_csv(file, sep='\s+', header=None, skiprows=8, keep_default_na=False, error_bad_lines=False)

最后关于整合到一个df文件里面，可以先定义一个空的DataFrame，然后在每次循环读取到的文件中，将df4追加到这个空DataFrame中，如下：

result_df = pd.DataFrame() # 定义一个空的DataFrame用于存放结果 for file in Filelist: # 读取文件、处理数据 ... # 将df4追加到结果DataFrame中 result_df = result_df.append(df4, ignore_index=True) # 保存结果到文件 result_df.to_csv("result.csv", index=False)

最后将结果保存到result.csv文件中。
解决
无用 1
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于python批量处理dat文件及科学计算方法详解
2020-09-20 12:37

Python是一种强大的编程语言，尤其在数据处理和科学计算领域，它拥有丰富的库支持。这篇教程主要介绍了如何使用Python批量处理`.dat`文件以及进行科学计算的方法。首先，处理`.dat`文件通常涉及到读取、修改和保存...
Python 批量重命名文件脚本
2025-04-18 22:35

Python批量重命名文件脚本是一个适合开发者和数据处理人员使用的工具，它不仅优化了文件管理的流程，还提高了数据处理的效率和准确性。随着对自动化操作需求的日益增长，这类工具的应用前景十分广阔。
Python在批量处理GIS数据中的应用.pdf
2021-06-29 12:47

1. 遍历和数据存储：Python可以通过OS模块中的walk()函数轻松实现对所有要处理数据的遍历，将遍历的目录、子目录、文件以列表形式存储起来，方便后续的批量处理。此外，Python中的列表和字典等数据结构便于存储遍历...
Python解析cdd 文件和批量删除CANoe工程cbf文件
2022-06-05 12:59

接下来，我们讨论如何使用Python批量删除CANoe工程的CBF文件。CANoe工程可能包含多个CBF文件，这些文件通常存储在工程目录下。批量删除这些文件可以借助Python的os库，它提供了文件和目录操作的功能。 1. 导入os库...
Python处理NC降水数据[可运行源码]
2025-11-15 07:32

Python编程语言已经成为数据科学和工程领域中应用最广泛的语言之一，尤其是在处理气象数据如降水数据的场景中。本文提供了使用Python处理NC（NetCDF）格式降水数据的详细步骤，NetCDF（网络通用数据格式）是一种用于...
Python图像批量处理工具
2025-11-17 19:15

Python作为一门高级编程语言，近年来在图像处理领域扮演着越来越重要的角色。Python图像批量处理工具为开发者提供了一个高效的平台，用以处理图像文件。通过这个工具，用户可以轻松进行图像的裁剪、旋转、调整大小等...
Python 项目实践：文件批量处理
2024-09-18 10:02

敲代码不忘补水的博客本项目旨在通过 Python 编程实现对大量文件的批量处理。假设我们有 1000 个文件需要修改特定字段，例如将 `yourpython.github.io` 替换为 `yourpython.com` 。通过结合 Python 的文件管理、循环控制、正则表达式等...
【Python编程】字符串、列表与文件操作：序列数据类型的处理及应用
2025-04-16 08:39

适合人群：具备基础编程知识，正在学习或使用Python编程语言的初学者和中级开发者。使用场景及目标：①理解并掌握Python中字符串的各种操作，如索引、切片、拼接等；②学会使用字符串方法进行常见文本处理任务；③...
Python实现DRG分组器：CHS-DRG数据提取与线性化处理系统
2025-10-18 19:50

该DRG分组工具采用Python编程语言开发，其核心功能是对CHS-DRG标准中的医疗数据进行系统化处理。具体而言，该程序能够对主要诊断类别（MDC）的对应关系、基础诊断相关组（ADRG）的判定规则，以及严重并发症与合并症...
Python处理Excel数据[项目代码]
2025-11-14 06:21

Python作为一种功能强大的编程语言，在数据处理方面具有广泛的应用，特别是在处理Excel表格数据时，它提供了强大的库支持，大大简化了自动化数据操作的复杂性。首先，要进行Excel数据的读取，通常需要用到pandas库，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 2月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月21日

python批量处理文件和数据

8条回答 默认 最新

该回答引用GPTᴼᴾᴱᴺᴬᴵ

问题事件

8条回答默认最新