如何提取文本中某一章的内容

请问如何用python批量提取年报pdf中发某一章节的内容，如：如何提取其中管理层讨论与分析部分
类似这是其中一个报告的目录我只想要第四节的内容

第四节长这样，每一节开头都是新的一页

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

爱笑的陈sir 2022-07-26 13:10

关注

输出文本内某段的内容
输入匹配样式获取匹配内容
获取范围内容，用正则进行匹配
举个例子

import re
import numpy as np
# import csv
x=int(input("输入起始行:"))
y=int(input("输入结束行:"))
z=input("输入匹配模式：")
file_path='filename'
data = []
# #读取
with open(file_path,encoding='utf-8',) as txtfile:
    line=txtfile.readlines()
    for i,rows in enumerate(line):
        if i in range(x,y) :  #指定数据哪几行
            print(rows)
            data.append(rows)
# print("length",len(data))
for j in data:
    a=re.findall(z,j)
    if a:
        print(a)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

如何提取文本中某一章的内容 python
2022-07-26 09:42

回答 5 已采纳输出文本内某段的内容输入匹配样式获取匹配内容获取范围内容，用正则进行匹配举个例子 import re import numpy as np # import csv x=int(input("输入起始
如何提取出一段文本中的特定内容。 python 数据挖掘机器学习正则表达式
2019-07-15 10:03

回答 2 已采纳 ``` # -*- coding: utf-8 -*- """ * for csdn issue * https://ask.csdn.net/questions/769177 ""
想使用正则表达式匹配，提取文本中特定的内容。 python 正则表达式
2022-01-19 16:23

回答 2 已采纳这应该就是你想要的功能： import os, re def GetMiddleStr(content,startStr,endStr): '''提取字符串content当中，startStr
如何设计一门计算机编程语言
2022-06-02 18:06

内核工匠的博客本文中，将主要关注设计开发一种计算机编程语言，对于其他类似的语言，比如MarkDown、数据查询语言、数据交换语言等不涉及。计算机编程语言自从诞生以来，不断发展，很多已经逐渐消失在历史的长河中，当前(2022年)最...
批量提取多个TXT 文本中指定内容导出为一个TXT python 有问必答
2022-02-26 01:51

回答 3 已采纳 os.listdir(path)遍历文件夹中多个TXT 用正则提取文本中的指定内容你题目的解答代码如下： #-*- coding:utf-8 -*- import os import re rs =
r语言找出两个文本中的重复内容 r语言
2022-11-13 17:04

回答 3 已采纳如果都是单列数据其实就是简单的交集，我做了两个范例数据，要画venn图再用VennDiagram即可 > drugA [1] 16 20 27 40 60 > drugB [1] 15 1
python3如何提取以下代码中的文本内容？ python
2021-05-03 14:44

回答 1 已采纳题主获取到的这个应答，是一个json字符串，可以直接转成python的字典的。比如： >>> import json >>> resp = '{"returnP
【入门必备】如何学习一门编程语言——这些你一定要知道
2021-11-13 15:48

MAX在码字的博客今天就不发项目了，来和大家分享一下对于刚接触编程培训学习的小白来说，常常会问到一个问题：如何学习一门新的编程语言，关于学习编程语言这个主题，可能每个人都有不同的看法和做法，下面给初次接触编程语言学习...
Java语言怎么从多个文本文件的内容中提取所有重复的数据并且一次性删除呢开发语言
2020-07-22 11:00

回答 2 已采纳可以用arraylist或者hashset，参考 https://blog.csdn.net/qq_37939251/article/details/90713643
如何抽取TXT中的特定格式文本内容？ python 数据挖掘正则表达式自然语言处理
2020-04-08 14:54

回答 2 已采纳 ``` str1='卷之一治诸风透冰丹内容：治一切风毒……卷之一治诸风龙脑天麻煎内容：治……' import re txt1=re.findall('(.*?)(.*?)内容',str1)
Java语言高分悬赏：用正则表达式怎么样将一段小说文本中所有的人名全部提取出来呢？开发语言
2020-05-04 15:13

回答 1 已采纳这里的核心就是写一个匹配汉字的正则： ``` public static void regxChinese(){ // 要匹配的字符串 String
自然语言处理入门（何晗）：第一章
2021-12-06 12:20

xiao52x的博客第一章新手上路 **自然语言处理（NLP）**是一门融合了计算机科学、人工智能以及语言学的交叉学科， ...自然语言中的词汇比编程语言中的关键词丰富，我们还可以随时创造各种类型的新词自然语言中的词汇比编程语
正则表达式提取文本信息 java 自然语言处理
2022-07-26 11:31

回答 2 已采纳 jdbc:mysql://[.:\w]+/(.*?)(\?.*)
文本小说章回目录及内容提取(Python之list、dict试炼)
2022-06-05 13:04

梦幻精灵_cq的博客文本小说章回目录及内容提取(Python之list、dict试炼)
【编程实践】第一章 C++入门《C++程序设计语言》 / By 禅与计算机程序设计艺术&ChatGPT
2023-03-24 02:37

禅与计算机程序设计艺术的博客本书是一本全面介绍C++编程语言的经典著作，包含了C++语言的基本语法和数据类型，面向对象编程的相关知识，以及高级应用和实际应用实例等内容。本书还包含了C++的标准库函数和常用工具，以及编程规范和最佳实践等...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月26日

悬赏问题

¥15 安卓adb backup备份应用数据失败
¥15 eclipse运行项目时遇到的问题
¥15 关于#c##的问题：最近需要用CAT工具Trados进行一些开发
¥15 南大pa1 小游戏没有界面，并且报了如下错误，尝试过换显卡驱动，但是好像不行
¥15 没有证书，nginx怎么反向代理到只能接受https的公网网站
¥50 成都蓉城足球俱乐部小程序抢票
¥15 yolov7训练自己的数据集
¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)（相关搜索：51单片机|单片机|测试代码）
¥15 电力市场出清matlab yalmip kkt 双层优化问题
¥30 ros小车路径规划实现不了，如何解决？(操作系统-ubuntu)

如何提取文本中某一章的内容

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新