LibreOffice将PDF转换为Word作为文本框而不是普通文档

我想使用LibreOffice 6.1.3.2 10（Build：2）从Ubuntu 18终端将PDF转换为Microsoft Word（doc，docx）（实际上我使用PHP执行LibreOffice）。但是我装满了文本框文档，而不是普通的Word文档。首先了解我的问题，我建议在这里下载我的文件: https://nofile.io/f/DKvQYFRdYZg/pdf2word.rar

我有4个文件:

1.original.doc
2.original-to-pdf.pdf
3.pdf-to-word.doc
4.expected.doc

首先我转换 original.pdf 到original-to-pdf.pdf然后我尝试转换回Word使用以下命令:

soffice --infilter="writer_pdf_import" --convert-to docx a.pdf

文件创建成功，但所有内容转换为文本框不作为正常的文件。然后我尝试了几个PDF到Word的转换器，如ilovepdf.com和我得到的expected.doc

你可以通过上方的链接下载我的文件来查看不同的内容，也可以查看下面的图片

自定义查询结果:

ilovepdf 输出:

我尝试了几个过滤器，包括pdf到odt，然后odt到word，但所有命令下面没有给我预期的结果

soffice --infilter="writer_pdf_import" --convert-to docx a.pdf
soffice --infilter="writer_pdf_import" --convert-to docx:"Microsoft Word 2007/2010/2013 XML" a.pdf
soffice --infilter="writer_pdf_import" --convert-to doc:"MS 2003 XML" a.pdf
soffice --infilter="writer_pdf_import" --convert-to doc a.pdf
soffice --infilter="writer_pdf_import" --convert-to odf:"writer8" a.pdf
soffice --infilter="writer8" --convert-to doc a.odf
soffice --infilter="writer_pdf_import" --convert-to doc:"MS Word 95" a.pdf
soffice --infilter="writer_pdf_import" --convert-to doc:"MS Word 97" a.pdf
soffice --infilter="writer_pdf_import" --convert-to doc:"StarOffice XML (Writer)" a.pdf
soffice --infilter="writer_pdf_import" --convert-to doc:"MS Word 2003 XML" a.pdf
soffice --infilter="writer_pdf_import" --convert-to docx:"MS Word 2003 XML" a.pdf
soffice --infilter="writer_pdf_import" --convert-to doc:"MS Word 2007 XML" a.pdf
soffice --infilter="writer_pdf_import" --convert-to doc:"MS Word 2003 XML" a.pdf
soffice --infilter="writer_pdf_import" --convert-to docx:"MS Word 2007 XML Template" a.pdf
soffice --infilter="writer_pdf_import" --convert-to docx:"MS Word 2007 XML" a.pdf
soffice --infilter="Microsoft Word 2007/2010/2013 XML" --convert-to doc a.pdf

我知道一些高级软件 abbyy cloud 或者 adobe cloud, 但我不认为像ilovepdf这样的网站会使用付费服务来提供免费服务。我的问题是，我是否遗漏了LibreOffice依赖中的一些东西，以便能够将PDF转换为正常的word文档?

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douying6206 2018-12-15 03:42
关注
Your problem lies with the software used to create the PDF; output in the form of textboxes in a PDF is a characteristic of certain low-end PDF-creation software. There is nothing Word can do about that during the import process; you would need to clean it up afterwards.

A Word macro you could use for the clean-up is:

Sub EraseTextBoxes() Dim RngDoc As Range, RngShp As Range, i As Long With ActiveDocument For i = .Shapes.Count To 1 Step -1 With .Shapes(i) If .Type = msoTextBox Then Set RngShp = .TextFrame.TextRange RngShp.End = RngShp.End - 1 Set RngDoc = .Anchor RngDoc.Collapse wdCollapseEnd RngDoc.FormattedText = RngShp.FormattedText .Delete End If End With Next End With End Sub

Do note that whether the macro positions the output correctly depends on where the textboxes are anchored; if the anchor positions are unrelated to the textbox locations, you'll end up with a dog's breakfast. You'll probably still also end up with each line as its own paragraph. To clean up such content, see http://www.msofficeforums.com/word/29880-cleaning-up-text-pasted-websites-e-mails.html
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用LibreOffice在线word转换pdf
2021-06-09 16:26

954L的博客安装完成后，后续将使用java代码调用软件服务来提供word格式转换安装 windows安装：双击，点下一步…（安装路径不要含有中文） Linux安装解压上面资料的zip，得到两个tar压缩文件，上传至Linux 安装 # 解压 ...
Web前端导入Word文档带图片自动上传组件
2025-12-31 11:32

2501_90646449的博客通过结合UEditor的扩展能力、PhpOffice的文档解析库和阿里云OSS的图片存储，成功实现了客户需求。后续计划将文档解析服务拆分为独立微服务，提升系统可扩展性。
libreoffice_如何在LibreOffice Writer中轻松更改文本大小写
2020-09-10 15:58

culingluan4376的博客 libreofficeWe’ve all done it before. We’re typing fast and then realize that we had the Caps Lock key on and the case on our text is ... That’s easy to change in Microsoft Word, but what if you...
用ueditor导入word，图片和文字如何实现图文混排？
2025-07-30 12:10

全武凌(荆门泽优)的博客通过结合UEditor的扩展能力、PhpOffice的文档解析库和阿里云OSS的图片存储，成功实现了客户需求。后续计划将文档解析服务拆分为独立微服务，提升系统可扩展性。
军工系统怎样用HTML5编辑器完成PDF图文混排？
2025-09-13 14:35

M_Snow的博客通过结合UEditor的扩展能力、PhpOffice的文档解析库和阿里云OSS的图片存储，成功实现了客户需求。后续计划将文档解析服务拆分为独立微服务，提升系统可扩展性。
汽车制造企业站群如何同步Word中的三维设计图？
2025-12-02 13:13

2501_90646449的博客通过结合UEditor的扩展能力、PhpOffice的文档解析库和阿里云OSS的图片存储，成功实现了客户需求。后续计划将文档解析服务拆分为独立微服务，提升系统可扩展性。
网页编辑器支持Word上传的具体操作步骤是什么？
2025-09-10 10:49

全武凌(荆门泽优)的博客通过结合UEditor的扩展能力、PhpOffice的文档解析库和阿里云OSS的图片存储，成功实现了客户需求。后续计划将文档解析服务拆分为独立微服务，提升系统可扩展性。
教育行业BLOG如何兼容PPT公式粘贴后的图片上传？
2025-09-19 10:49

全武凌(荆门泽优)的博客通过结合UEditor的扩展能力、PhpOffice的文档解析库和阿里云OSS的图片存储，成功实现了客户需求。后续计划将文档解析服务拆分为独立微服务，提升系统可扩展性。
跨平台BLOG编辑器如何解决图片粘贴的兼容性问题？
2025-09-18 12:23

全武凌(荆门泽优)的博客通过结合UEditor的扩展能力、PhpOffice的文档解析库和阿里云OSS的图片存储，成功实现了客户需求。后续计划将文档解析服务拆分为独立微服务，提升系统可扩展性。
HTML富文本编辑器如何实现PDF文档的导入与自动上传？
2025-07-29 12:08

M_Snow的博客通过结合UEditor的扩展能力、PhpOffice的文档解析库和阿里云OSS的图片存储，成功实现了客户需求。后续计划将文档解析服务拆分为独立微服务，提升系统可扩展性。
前端富文本编辑器如何实现WORD文档的转存功能？
2025-08-16 11:18

全武凌(荆门泽优)的博客通过结合UEditor的扩展能力、PhpOffice的文档解析库和阿里云OSS的图片存储，成功实现了客户需求。后续计划将文档解析服务拆分为独立微服务，提升系统可扩展性。
农业大数据平台如何配置支持Excel数据可视化的网页编辑器？
2025-11-02 13:17

全武凌(荆门泽优)的博客通过结合UEditor的扩展能力、PhpOffice的文档解析库和阿里云OSS的图片存储，成功实现了客户需求。后续计划将文档解析服务拆分为独立微服务，提升系统可扩展性。
医院网页编辑器中粘贴Word文档图片不显示？
2025-08-29 10:34

M_Snow的博客通过结合UEditor的扩展能力、PhpOffice的文档解析库和阿里云OSS的图片存储，成功实现了客户需求。后续计划将文档解析服务拆分为独立微服务，提升系统可扩展性。
没有解决我的问题, 去提问

LibreOffice将PDF转换为Word作为文本框而不是普通文档

1条回答 默认 最新

1条回答默认最新