请问如何用python批量提取年报pdf中发某一章节的内容,如:如何提取其中管理层讨论与分析部分
类似这是其中一个报告的目录 我只想要第四节的内容
第四节长这样,每一节开头都是新的一页
请问如何用python批量提取年报pdf中发某一章节的内容,如:如何提取其中管理层讨论与分析部分
类似这是其中一个报告的目录 我只想要第四节的内容
输出文本内某段的内容
输入匹配样式获取匹配内容
获取范围内容,用正则进行匹配
举个例子
import re
import numpy as np
# import csv
x=int(input("输入起始行:"))
y=int(input("输入结束行:"))
z=input("输入匹配模式:")
file_path='filename'
data = []
# #读取
with open(file_path,encoding='utf-8',) as txtfile:
line=txtfile.readlines()
for i,rows in enumerate(line):
if i in range(x,y) : #指定数据哪几行
print(rows)
data.append(rows)
# print("length",len(data))
for j in data:
a=re.findall(z,j)
if a:
print(a)