PDF可选中的表格在word里变成图片了

PDF文件里有表格及数据，用Adobe打开PDF时候表格里的数据可以选中（看起来不是图片），然后想借助用word打开PDF再把word里的数据内容复制到Excel里，现在发现用word打开PDF之后原来PDF里数据可以选中的表格在word文档里变成了图片。
我本来想用VBA调用word打开PDF文件，然后将word里的内容再复制到excel里。
不知道为什么说word文档里的表格变成了图片。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-26 09:35
关注
引自免费微信小程序：皆我百晓生

要解决这个问题，我们需要分两步走：首先从PDF中提取文本，然后将这些文本粘贴到Excel中。由于Word在处理PDF时可能将表格转换为图片，我们不依赖Word，而是使用一个名为PDFBox的Java库来读取PDF中的文本。这里是一个Python脚本示例，它使用Pyjnius库与Java交互，因为PDFBox是Java库。确保已经安装了pyjnius和jupyter-java-talk库：

!pip install pyjnius jupyter-java-talk

接下来，我们将编写一个函数来执行所需的操作。注意，你需要提供PDF文件的路径，并且需要在本地环境中安装PDFBox库。如果你没有安装，可以在项目的src/main/resources目录下创建一个名为META-INF/services的目录，并在这个目录下创建一个名为org.apache.pdfbox.pdmodel.PDDocumentFactory的文件，内容为net.sf.jasperreports.engine.util.JRApachePdfBoxParser\n。

import os from jnius import autoclass, cast from io import StringIO # 加载必要的Java类 JString = autoclass('java.lang.String') PDDocument = autoclass('org.apache.pdfbox.pdmodel.PDDocument') PDFTextStripper = autoclass('org.apache.pdfbox.text.PDFTextStripper') def extract_text_from_pdf(pdf_path): # 打开PDF文件 document = PDDocument.load(JString(pdf_path)) # 创建PDFTextStripper实例 pdfStripper = PDFTextStripper() # 设置一些选项，使文本更易解析 pdfStripper.setSortByPosition(True) pdfStripper.setStartPage(1) pdfStripper.setEndPage(document.getNumberOfPages()) # 提取所有文本并将其存储在一个字符串中 text = pdfStripper.getText(document) # 关闭PDF文档 document.close() return text def copy_to_excel(extracted_text): # 假设你已经有了一个活跃的Excel应用实例 excel_app 和一个工作簿 workbook # 例如，你可以使用 win32com.client 来实现这一步 # excel_app = win32com.client.Dispatch("Excel.Application") # workbook = excel_app.Workbooks.Add() # 将提取的文本分割成行 lines = extracted_text.split("\n") # 在工作表的第一列开始写入 row_num = 1 col_num = 1 for line in lines: # 写入每一行 workbook.Sheets[1].Cells(row_num, col_num).Value = line row_num += 1 # 如果你想自动调整列宽以适应内容 workbook.Sheets[1].Columns.AutoFit() # 可选：保存并关闭Excel # workbook.SaveAs("output.xlsx") # excel_app.Quit() # 使用提供的PDF路径 pdf_path = "your_pdf_file_path_here.pdf" extracted_text = extract_text_from_pdf(pdf_path) copy_to_excel(extracted_text)

这个脚本会从PDF中提取文本，并将其写入新的Excel工作表。请确保替换 your_pdf_file_path_here.pdf 为你的PDF文件的实际路径。为了运行这段代码，你可能需要配置Java环境变量，以便Pyjnius能找到Java。另外，如果使用Windows，还需要安装Microsoft Office和相应的COM接口支持。

注意：此方法不会保留原始表格的结构，而是简单地将文本按行分开。如果你需要保持表格的结构，你可能需要使用更复杂的方法，比如识别PDF中的表格布局，这通常涉及到OCR技术，这超出了当前问题的范围。在这种情况下，你可能需要查找专门处理PDF表格的第三方库，如tabula-py等。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

PHP+LibreOffice+Centos实现Word转PDF页面样式设置 centos php
2022-04-21 10:06

回答 1 已采纳 LibreOffice 没有配置样式代码的？
itextpdf怎么给文档添加图片在最上层？ java 后端
2022-04-21 15:18

回答 1 已采纳意思是在PDF里创建图层吗？ spire.pdf for java倒是支持创建多个图层，文字放在下面图层，图片绘制到上面图层 //创建PDF文档 PdfDocument pdf = new PdfDo
提取pdf文件里的表格，并计数 python
2022-03-24 14:35

回答 1 已采纳你的程序对不对，你自己跑一下就知道了哈。下面是我写的，供参考 import pdfplumber path = r"filename.pdf" tabcount = 0 with pdfplumb
Word快捷键大全.pdf
2021-10-26 17:11

大多数快捷键都是在长期使用过程中形成的约定俗成的操作方式，微软的Office系列产品对于快捷键的支持也基本保持一致，所以一旦熟练掌握后，用户在不同版本的Word甚至其他Office软件中都可以方便地使用。此外，...
LibreOffice将PDF转换为Word作为文本框而不是普通文档 php
2018-12-13 13:46

回答 1 已采纳 Your problem lies with the software used to create the PDF; output in the form of textboxes in a P
Java使用PDFbox读取PDF文件时表格内出现换行导致数据混乱 java 有问必答
2021-09-01 15:49

回答 1 已采纳读取的时候去掉换行符。
在编写PDF转图片的代码时遇到问题 python 人工智能有问必答
2023-04-06 09:36

回答 3 已采纳 AI支持什么格式的图片数据？支持2进制数据可以用pypdfium2将pdf每页内容处理成2进制数据后传递给AI。 from flask import Flask, request,render_tem
计算机WORD操作题.pdf
2021-10-02 22:34

Word 2003是微软公司开发的一款文字处理软件，广泛应用于办公领域。这款软件提供了丰富的文本编辑、格式设置和文档处理功能。以下是对题目中涉及的一些知识点的详细解释： 1. **窗口控制按钮**：在Word 2003的主...
word和pdf文件如何恢复其他
2022-11-21 09:47

回答 5 已采纳有可能是这个文件携带病毒，先杀毒然后再试试
前端可以实现word流转pdf流吗 java vue.js 前端
2023-02-09 16:43

回答 1 已采纳纯前端word转换pdf没有合适通用的解决方案，建议还是通过后端处理，后端有很多开源的库可以使用，比如使用libre office将word转换成pdf。或者直接生成pdf就完事了
vue+elementui的项目表格怎么导出为pdf文件呀 elementui javascript vue.js
2021-07-19 14:20

回答 2 已采纳让后端处理，他还给你一个url，你直接window.location.href = url就直接打开下载就好了，给个采纳吧
word2007快捷键大全.pdf
2021-10-08 19:36

Microsoft Word 2007是微软Office办公软件套件中的一款文字处理应用程序。它被广泛应用于文档编写、编辑、排版以及打印等办公活动中。为了提高工作效率，快捷键的使用是不可或缺的。快捷键允许用户通过键盘操作完成...
用pdfplumber爬取pdf里面的表格，结果没报错，但是出现了很多的None，该怎么办 python 有问必答爬虫
2021-12-02 12:13

回答 2 已采纳你加个判断，如 if table[i][j] != None: pass
计算机基础知识WORD模拟题库.pdf
2021-10-12 22:54

5. 操作系统和Office组件的知识：文件内容还涉及到了Windows2000（一种操作系统）、Office2000（Microsoft Office办公软件套件）、Excel2000（电子表格软件）、Powerpoint2000（演示文稿软件），这些都是微软公司...
Word快捷键大全(20211008074921).pdf
2021-10-08 19:40

掌握这些快捷键，可以让用户在使用Word软件进行文档编辑、格式排版、表格制作等活动时，提升效率，减少鼠标操作，直接通过键盘快捷键来完成各种操作。以下将详细列举和解释本文档中涉及的一些Word快捷键。 1. 文本...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月26日

悬赏问题

¥15 代码在keil5里变成了这样怎么办啊，文件图像也变了，
¥20 Ue4.26打包win64bit报错，如何解决？(语言-c++)
¥15 clousx6整点报时指令怎么写
¥30 远程帮我安装软件及库文件
¥15 关于#自动化#的问题：如何通过电脑控制多相机同步拍照或摄影（相机或者摄影模组数量大于60），并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
¥20 深信服vpn-2050这台设备如何配置才能成功联网？
¥15 Arduino的wifi连接，如何关闭低功耗模式？
¥15 Android studio 无法定位adb是什么问题？
¥15 C#连接不上服务器，
¥15 angular项目错误

PDF可选中的表格在word里变成图片了

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新