pdfplumber提取PDF中的数据，由于一个表格中一行话分成了两行，导致第一行和右边的数据拼接到一起了

问题遇到的现象和发生背景

问题相关代码

import pdfplumber

with pdfplumber.open('1.pdf') as p:
    page_count = len(p.pages)
    for i in range(0,page_count):
        page = p.pages[i]
        textdata = page.extract_text()
        print(textdata)

运行结果

PDF中实际的数据为

请求各位帮忙看看，怎么处理，多谢了

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2022-01-04 17:45
关注
如果原pdf中是表格数据，使用extract_table()试试，参考：
https://zhuanlan.zhihu.com/p/353397002

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

多模态数据处理系统：用AI读PDF的智能助手系统分析
2025-07-24 17:07

Debroon的博客多模态PDF识别子解法（因为PDF包含图文混合特征） + 锚点文本辅助子解法（因为需要位置信息辅助理解特征） + 文档结构化解析子解法（因为文档存在层级标题结构特征） + 知识图谱三元组抽取子解法（因为需要提取原子...
中文文档处理表现如何？测试anything-llm对CN文本的支持
2025-12-24 03:27

xiaohu wang的博客深入评测anything-llm在中文文档处理中的实际表现，涵盖多格式解析、语义检索与本地模型集成。系统依托BGE-M3等中文优化嵌入模型，结合RAG架构实现精准问答，支持私有化部署与细粒度权限控制，适合企业级知识管理...
RAG知识库问答LangChain+LLM的二次开发：商用时的典型问题及其改进方案
2023-12-27 23:14

v_JULY_v的博客从企业单文档问答到批量文档问答》中详细介绍了langchain、以及langchain-ChatGLM项目的源码剖析，本文重点则阐述如何通过基于langchain-chatchat二次开发一个知识库问答系统，包括其商用时的典型问题
开发智能体：PDF自动拆分为图片，生成小红书文案并自动发布
2026-03-14 21:39

pk_xz123456的博客本文介绍了一个智能体开发项目，旨在自动化完成PDF文档到小红书图文笔记的转换流程。该系统通过PyMuPDF库将PDF拆分为5-10页的分组并转换为高清图片，结合文本提取和OCR识别获取内容，利用大语言模型生成小红书风格的...
LangFlow能否实现PDF文档自动解析与摘要生成？
2025-12-22 08:38

就念的博客借助LangFlow可视化工具，非程序员也能通过拖拽组件搭建PDF自动摘要系统。从文本加载、智能分块到Map-Reduce摘要生成，整个流程无需写代码。结合LangChain组件链，用户可快速构建高效文档处理工作流，同时需注意数据...
如何将PDF、Word文档变成可对话的知识源？试试Anything-LLM
2025-12-24 01:23

张阿拉撕裤的博客通过Anything-LLM，用户能将PDF、Word等文档转化为可问答的知识源，无需编程即可实现基于RAG的智能检索...系统自动完成文本提取、向量化和语义匹配，支持本地或云端大模型，兼顾隐私与性能，大幅提升企业知识利用效率。
扣子空间 LinkReaderPlugin 实战：从网页抓取到 RAG 应用的全链路解析
2025-10-18 03:35

我的白月光404的博客本文深入解析了如何在扣子空间中使用LinkReaderPlugin插件，实现从网页内容抓取、清洗到构建RAG（检索增强生成）应用的全流程。通过实战案例，详细展示了该插件如何解决网页抓取的常见难题，并高效整合向量数据库与...
多模态大模型学习笔记（十七）——基于 BGE+DeepSeek+Qdrant 的 RAG 文档问答系统实战与优化
2026-02-09 16:38

小陈phd的博客 RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合检索和生成的 AI 技术架构。它的核心思想是：为什么需要 RAG？RAG 的工作流程：什么是嵌入模型（Embedding Model）？嵌入模型的作用是将文本转换为...
Python自动化：批量提取PDF关键信息并高效整理至Excel
2025-11-01 06:59

sre5engineer的博客通过pdfplumber和openpyxl等核心库，构建从遍历文件夹、解析PDF文本、定位关键信息到高效写入Excel的完整流程，并提供了健壮的脚本示例与正则表达式定制方法，旨在帮助用户彻底告别手动处理的低效，大幅提升办公自动...
一文带你了解RAG(检索增强生成) | 概念理论介绍+ 代码实操，大模型入门到精通，收藏这篇就足够了！
2025-08-27 15:22

AI大模型教程的博客一文带你了解RAG(检索增强生成) | 概念理论介绍+ 代码实操，大模型入门到精通，收藏这篇就足够了！
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月4日

pdfplumber提取PDF中的数据，由于一个表格中一行话分成了两行，导致第一行和右边的数据拼接到一起了

问题遇到的现象和发生背景

问题相关代码

运行结果

1条回答 默认 最新

问题事件

1条回答默认最新