大家好,我刚学习python不久,现遇到一个python问题想请教一下是否可以实现,以及实现的步骤。
问题:我需要基于一个excel表中的信息,从13万个企业年报txt文件中提取出想要的那一部分文件。想请教一下是否可以实现,以及实现的步骤。
详细描述:这些文件按时间分别位于20个文件夹中,每个文件夹下设4个子文件夹。每个文件的文件名是这样的“20060403_10-K_edgar_data_790708_0001193125-06-071338_1”,其中,“0001193125”是企业的cik代码,也就是识别码。我有一个excel表,里面有所需样本企业的全部cik代码,大概8000个。
想问一下可否根据将这些代码输入进python,让python循环读取每个文件夹中,文件名内包括所需cik代码的txt文件,并把它们都提取出来放入一个新的文件夹中。而且,不知道python可否从一长串文件名中读取特定的字符串,比如从20060403_10-K_edgar_data_790708_0001193125-06-071338_1里面找有没有0001193125字样。通过在论坛内的搜索,暂未发现类似问题,搜索结果大多是提取文件名到excel,提取所有文件。因此我对步骤的猜测是,先提取文件名到excel,再通过excel中剩下的文件名通过python去和文件夹中的文件匹配和提取,但是还是绕不过循环读取和匹配的问题,而且感觉这种猜测属于冗余的步骤。
因此想请教上述过程如果可以实现,大概每个步骤都需要做什么?我可以按照每一步所需要做的事情挨个搜索代码自行改动,知道论坛中不允许直接要源代码。
谢谢大家,辛苦了!