从pdf转成的文本抽取段落和信息过滤

#文本过滤
我有从pdf转成的txt的文本，这些都是一些学术论文。里面有好多公式，还有很多figure.
我想对文本中的那些无关信息进行过滤，附图如下。同时还想请教有没有做过相关的pdf上面段落抽取工作的大神，希望能指点一二，不胜感激。
图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
大河行脚 2015-03-31 09:27
关注
你有txt版本的话就下载一个超级记事本,然后用超级记事本打开,把不想要的删除就行了,最后在超级记事本上有个打印机,你点击一下打印机,然后跟着提示走,
就能打印出一份你改后的PDF文件了；

如果回答对您有帮助,请采纳

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

有什么文本中关键信息抽取的算法吗？ python 有问必答
2023-01-03 10:41

回答 9 已采纳可以看下这个文本关键信息抽取整体综述，各种算法和代码都有https://blog.csdn.net/qq_25618315/article/details/108516749
正则表达式抽取文本。 python
2021-09-10 10:58

回答 2 已采纳 import re a="...id=1234&" s=re.search(r'id=(.*)&',a) printf(s.group(1)) #1234
如何抽取TXT中的特定格式文本内容？ python 数据挖掘正则表达式自然语言处理
2020-04-08 14:54

回答 2 已采纳 ``` str1='卷之一治诸风透冰丹内容：治一切风毒……卷之一治诸风龙脑天麻煎内容：治……' import re txt1=re.findall('(.*?)(.*?)内容',str1)
怎样通过python从Excel题库中随机抽取题？ python 有问必答
2022-05-09 13:16

回答 2 已采纳先将excel文件中题库读取到列表中，然后通过随机选择列表中的元素。使用random.choice(list)可以每次从列表中随机抽取一个元素。
事件抽取和命名实体抽取有什么关系吗？自然语言处理
2020-03-13 14:58

回答 2 已采纳命名实体抽取，指的是抽取某一类客观实例的词语，比如手机、张三、李四等事件抽取只得是抽取某一类动作，比如爆炸、开会、开车等命名实体抽取是事件抽取的基础，因为事件中都必须有至少一个主体，比如手机爆
pho实现从数据库抽取题进行组卷 php
2022-05-10 04:08

回答 4 已采纳 PHP在这里面，主要是获取题目以及判断答案是否正确。获取题目主要用random函数来生成随机数，作为表达ID获取数据。判断答案是否正确，主要看前端传递过来的字符串和预设的字符串是否正确。如果有分值
从pdf中提取文本数据清洗
2022-04-07 00:08

生信小博士的博客从pdf中提取文本数据清洗 getwd() path=“G:/papers/papers/SCRNASEQ AND SPATIAL/codes” dir.create(path) setwd(path) library(pdftools) file=“G:/papers/papers/SCRNASEQ AND SPATIAL/A spatially restricted...
从多个矩阵中抽取随机数构造新矩阵 python
2022-11-10 10:05

回答 1 已采纳 import random import numpy as np data = np.random.randint(0, 100, size=(20, 50, 7)) result = [] fo
kettle从一张表抽取数据分别插入到多张表中
2018-06-20 07:47

回答 5 已采纳写java代码吧，选择java代码选项，做分表插入操作 1.直接用java代码处理 2.使用sql语句的视图做处理
java随机抽取幸运观众数组和字符串练习 eclipse java 算法
2022-05-19 15:37

回答 1 已采纳望采纳，谢谢，代码： package Test10; import java.util.HashSet; import java.util.Random; import java.util.Set;
java分离pdf的段落内容和表格内容
2022-06-23 09:26

文艺女程序员的博客 Java分离pdf文件的文字内容和表格内容
python PDF2TXT，提取到TXT的字序混乱，请教怎么修改？ python
2022-10-26 12:56

回答 1 已采纳这个问题解决了，聚合器的值取大一点，laparams = LAParams(char_margin=20.0)
从HTML文件中抽取正文的简单方案.pdf
2011-05-25 23:16

为了高效地从HTML文档中提取有价值的信息，一种简单而有效的方法被提出，这种方法不仅适用于多种类型的HTML文件，还能智能地过滤掉不相关的部分。 #### 方法概述该方法的核心是利用统计学原理和机器学习技术来区分...
PDF文档解析，公司公告信息抽取(附数据集)
2020-12-15 19:00

datayx的博客向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayx目前，PDF已成为电子文档发行和数字化信息传播的一个标准，其广泛应用于学术界的交流以...
没有解决我的问题, 去提问

悬赏问题

¥15 爬虫爬取网站的一些信息
¥15 关于vue2中methods使用call修改this指向的问题
¥15 idea自动补全键位冲突
¥15 请教一下写代码，代码好难
¥15 iis10中如何阻止别人网站重定向到我的网站
¥15 滑块验证码移动速度不一致问题
¥15 Utunbu中vscode下cern root工作台中写的程序root的头文件无法包含
¥15 麒麟V10桌面版SP1如何配置bonding
¥15 Marscode IDE 如何预览新建的 HTML 文件
¥15 K8S部署二进制集群过程中calico一直报错

从pdf转成的文本抽取段落和信息过滤

3条回答 默认 最新

悬赏问题

3条回答默认最新