使用pdfplumber提取pdf表格内容时，得到的全是cid:xxxx,怎么解决？

import pdfplumber
import pandas as pd

path="./2017数据.pdf"
with pdfplumber.open(path) as pdf:
    page = pdf.pages[0]
    text = page.extract_text()
    print(text)
    table = page.extract_tables(table_settings={})
    for t in table:
        df = pd.DataFrame(t[1:], columns=t[0])
        print(df)

图片说明

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-11-30 16:48
关注
建议你换一个思路，用pdf2txt或者类似的工具，转换成文本文件，然后再稍微调整转换成csv
最后再用pandas的readcsv去读取

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

pdfplumber读取PDF文本内容时出现cid字符
2022-10-25 09:58

liyuanjunfrank的博客 pdfplumber读取pdf内容出现cid字符
Python使用pdfplumber读取pdf内容
2024-01-24 16:26

杭州小哥哥的博客【代码】Python使用pdfplumber读取pdf内容。
python 读取pdf cid,如何处理PDFMiner提取的文本中的CID？
2020-12-16 21:11

好食捷的博客 I've some PDFs which are in Hindi, and have extractable ... I used pdfminer.six for python 3.6, to do the extraction. The output looks like:As one can see, there are a number of characters that are ...
python 读取pdf cid_如何处理PDFMiner提取的文本中的CID？
2021-02-09 14:07

weixin_39847556的博客基本上，PDF查看器如何使用此映射显示字形？在PDF内容流中找到的字符代码不需要以任何明显的方式与Unicode值相关。特别是，PDF查看器根本不需要Unicode代码点来显示字符代码以显示匹配的字形。在PDF中，字体在字体...
Python使用pdfminer库解析pdf得到的一大堆CID和数字如何处理
2022-05-26 16:08

美美打不死的博客 python识别pdf
py-cid:自我描述的内容寻址标识符，用于Python中的分布式系统实现
2021-05-08 15:30

CID（内容标识符）什么是CID？是一种格式，用于引用类的分布式信息系统中的内容。它利用了，和。它是和使用的核心标识符。 CID是一个自我描述的内容寻址标识符。它使用加密哈希来实现内容寻址。它使用了几个...
pdfplumber:插入PDF以获取有关每个字符，矩形，直线等的详细信息-并轻松提取文本和表格
2021-05-10 16:03

pdf水暖工插入PDF以获取有关每个文本字符，矩形和行的详细信息。加：表提取和可视调试。在机器生成的而非扫描的PDF上效果最佳。建立在。目前已在上。要报告错误或请求功能，请。要提出问题或请求特定PDF...
python 读取pdf cid_记一次为解决Python读取PDF文件的Shell操作
2021-02-03 05:11

weixin_39800331的博客一、背景本想将 PDF 文件转换为 Word 文档，然后网上搜索了一下发现有挺多转换的软件。有的是免费的、收费，咱也不知哪个...使用环境(python3.6+pdfminer3k)，代码这里就不放出来了。二、问题运气不好，这一试就报错...
python 读取pdf cid_繁体Pdf不能正常显示而是像(cid:152)(cid:618)(cid:825)(cid:2..._慕课问答...
2020-12-16 21:11

weixin_39666496的博客 /usr/bin/env python# -*- coding:utf-8 -*-from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParamsfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pd...
pdfplumber-master_Pdfplumber_pdfplumberPython_python_
2021-09-28 22:08

PDFPLUMBER是Python编程语言中用于解析PDF文档的一个库，尤其适合提取PDF中的文本、图像和表格数据。这个"pdfplumber-master"压缩包很可能包含了一个完整的PDFPLUMMER库的源代码，以及可能的示例和文档，用于帮助...
python 读取pdf cid_python使用pdfminer解析pdf文件的方法示例
2021-02-03 05:11

Demeyi-邓子的博客最近要做个从 pdf 文件中抽取文本内容的工具，大概查了一下 python 里可以使用 pdfminer 来实现。下面就看看怎样使用吧。PDFMiner是一个可以从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它注重的完全是...
用Python从PDF中提取文字
2025-02-07 22:06

Yvonne978的博客从PDF中提取文字
【Python源码】PDFMiner：一个用于从 PDF 文档中抽取信息的工具
2024-09-03 10:22

PDFMiner：一个用于从 PDF 文档中抽取信息的工具。【功能】纯 Python（3.6 或更高版本）。支持 PDF-1.7。（嗯，差不多）获取文本的确切位置以及其他布局信息（字体等）。执行自动布局分析。可以将 PDF 转换为...
Python使用pdfplumber获取PDF所需信息
2022-12-19 16:45

大米2H的博客首先需要安装两个模块，第一个是pdfplumber，在命令行使用pip安装即可。第二个是fitz, 它是pymupdf中的一个模块，同样可以使用pip轻松安装...使用python提取PDF中文字代码思路如下。2、获取指定的页，或者遍历每一页。
Python使用PDFMiner解析PDF代码实例
2020-09-21 09:46

下面是一个简单的Python脚本示例，展示如何使用PDFMiner读取PDF文件并提取文本内容： ```python from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfpage ...
python解析pdf中文乱码_使用Python第三方库pdfminer提取PDF内容，并解决中文编码不支持的问题...
2020-12-04 02:34

weixin_39857792的博客这两天刚好完成一个提取人行简版征信报告PDF所有数据的小项目，中间踩了很多坑，尤其是对于汉字编码问题度娘也不太灵。为了方便后人，在这里记录下在这个过程中我遇到的问题以及我的解决方法。我用的是mac系统，...
python爬取pdf内容_如何利用Python抓取PDF中的某些内容？
2020-11-25 19:45

weixin_39997173的博客专注Python、AI、大数据 @七步编程PDF（Portable Document Format），中文名称便携文档格式是我们经常会接触到的一种文件格式，文献、文档...很多都是PDF格式。它以格式稳定的优势，使得我们在打印、分享、传输...
在Python中使用PDF：阅读和拆分_fpdf库分割pdf文件
2024-04-26 19:28

2401_84140485的博客不知道你们用的什么环境，我...Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
没有解决我的问题, 去提问

使用pdfplumber提取pdf表格内容时，得到的全是cid:xxxx,怎么解决？

2条回答 默认 最新

2条回答默认最新