竖版PDF如何识别，有什么开源工具或者解决思路吗？

我需要从一本杂志类PDF文件中，提取所有文章（标题及内容），杂志内容如图：

我需要对这种类型的页面进行批量识别，尽量做到能提取出所有文章，但是传统PDF文字识别都是横向识别，无法确定竖向排版
如果我想完成此工作,有什么开源工具或者解决思路吗?

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
砻谷踏碓 2021-07-15 11:41
关注
这不叫竖排，叫分栏排版，给你思路：
1、用工具将pdf导出为一张张的图片
2、用ps打开任一图片，然后开始录制action
3、编辑图片，调整高度为原高度3倍，将中栏及右栏内容分别移至左下方，裁切图片宽度到合适，保存图片
4、停止录制action
5、ps中运行批处理指定刚才录制action，源文件夹指定你导出的存放图片的文件夹
6、执行完成后，所有图片已变成单栏排方式
7、将所有图片拼成一个新的pdf
8、将pdf导入你的识别工具……

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

黑丝还是白丝？AI绘画工具 ComfyUI局部重绘助你实现丝袜自由！想看什么直接生成~
2024-10-08 13:51

灵魂黑客向阳的博客这篇文章的主题和美女有关，不过并不是教大家生产美女视频，而是讲解如何使用 AI绘画工具 ComfyUI 的图生图局部重绘，其中将会以美女图片为例，通过更改大长腿上的黑丝、白丝，来展示局部重绘的强大威力。
小白也能懂：快速搭建OCR文字识别环境，实现PDF转Word的高效工作流
2026-01-16 04:01

OrangeWind56的博客本文介绍了如何在星图GPU平台自动化部署PaddleOCR镜像，快速搭建本地OCR文字识别环境。该方案支持扫描件PDF一键转Word，特别适用于处理客户手写批注、合同等中文文档，实现高效、安全的文本提取与编辑，助力个人创作...
PPT Master 开源AI生成原生可编辑PPTX全攻略，零代码实现文档一键转演示文稿
2026-04-26 10:59

断弦承露的博客本文介绍开源AI工具PPT Master，可一键将PDF/DOCX/网页等文档转换为原生可编辑的PPTX文件。该项目基于Python 3.10+运行，支持20+模板风格，输出内容完全可编辑，数据本地处理保障安全。相比同类工具，PPT Master开源...
PaddleOCR3.0震撼发布：最强高精度文档解析神器，PDF一秒变身Markdown！
2025-06-17 16:03

程序员辣条的博客该工具支持高精度文档图像/PDF转换，可输出Markdown和JSON结构化数据，在OmniDocBench基准测试中表现优异。核心优势包括：印章识别、图表解析、竖排文本解析等专精能力；升级版OCR和表格识别技术；创新的阅读顺序...
龙泉寺贤超法师：用AI为古籍经书识别、断句、翻译
2021-01-25 13:00

Amusi（CVer）的博客本文转载自：HyperAI超神经内容提要：来自最强科研寺庙龙泉寺的贤超法师，近年来一直在研究人工智能与文献古籍的融合，目前，他已带领的《大藏经》团队实现 AI 自动标点、文白翻译、古籍文...
国产神级开源 OCR 神器，再次起飞。
2025-06-05 15:12

逛逛GitHub的博客 PP-ChatOCRv4在上一代基础上，结合文心大模型4.5 Turbo强大的理解优势，并支持离线使用多模态文档理解模型PP-DocBee2，实现了更高效的文本图像信息抽取，一站式解决版面分析、生僻字、多页pdf、表格、印章识别等常见...
高考作文热议人工智能；Qwen 2 登顶 Hugging Face | AI 头条
2024-06-07 21:30

AI科技大本营的博客高考作文聚焦人工智能，引发教育与科技融合新思考阿里云 Qwen2 正式开源，登顶 Hugging Face 榜首！快手 AI 视频生成模型“可灵”震撼发布Chrome 要更卡了？谷歌在 Chrome 浏览器内置 Gemini Nano 大模型微软、Open...
AI音效生成与自动剪辑工具完全指南
2026-02-17 20:09

一头老黄牛@的博客音画一体化：即梦3.5 Pro等工具实现了生成阶段的音画同步，而非后期叠加开源生态繁荣：腾讯混元、Stable Audio Open等开源模型降低了专业门槛工作流整合：剪映、InVideo等工具将分散的AI能力串联成闭环文本驱动：...
PaddleOCR-VL竖排文本识别：云端GPU免调试，新手上路指南
2026-01-15 00:34

IronwoodStag78的博客本文介绍了基于星图GPU平台自动化部署PaddleOCR-VL-WEB镜像的完整流程，该镜像专为竖排文本识别优化，...用户无需配置环境，通过云端GPU即可实现高效、准确的OCR识别，特别适合AI初学者快速开展模型微调与应用开发。
普通人如何零门槛打造自己的AI智库？揭秘DeepSeek-R1三大核心玩法
2025-05-04 08:23

人工智能我来了的博客这个被技术圈称为"地表最强个人AI解决方案"的DeepSeek-R1，正在掀起一场静悄悄的技术革命。我们用三天时间拆解了全网128个实操案例，为你提炼出三大核心玩法。
GLM-4.6V大模型深度评测：国产多模态AI新突破，工具使用与实际应用场景全解析！
2025-12-09 16:42

AI劳模的博客 GLM-4.6V推出106B(MoE架构)和9B(Dense架构)两个版本，在多模态理解能力上相比前版本有所提升，特别是在工具使用、图片搜索和购物搜索方面表现突出。模型在图文并茂输出、好物比价等实际应用场景展现出色，但时钟问题...
WorkBuddy从入门到精通：一句话让AI帮你搞定所有繁琐工作
2026-03-25 15:33

小虎AI生活的博客腾讯推出全场景AI智能体工作台WorkBuddy，可直接在用户电脑上执行任务，实现真正的自动化办公。该工具区别于传统聊天式AI，能够理解用户意图后自主拆解任务步骤并执行，支持文件整理、数据分析、报告生成等常见办公...
国产OCR双雄对决？PaddleOCR-VL与DeepSeek-OCR全面解析
2025-10-22 22:12

浪里行舟的博客 PaddleOCR-VL：工业级...DeepSeek-OCR：性能锐利的实力新星优势：基础文本识别能力极强，社区热度高，是一个非常优秀的开源基座模型。适合：以标准文档识别为主，或需要进行二次开发和学术研究的开发者。一句话总结。
使用微信免费的图像处理接口，来开发图片智能裁剪和二维码/条码识别功能，爽歪歪
2025-07-13 08:58

悟空码字的博客图片智能裁剪技术通过AI算法自动识别图像核心内容并优化构图，在效率、质量、创意等多维度为工作场景提供了显著价值。其核心价值在于，节省时间成本、保障视觉质量即避免人工失误、适配多场景需求即跨平台一键优化...
混合检索+多阶段优化：揭秘RAG系统实战全流程，提升智能问答效果
2026-03-26 21:44

程序员辣条的博客本文针对大语言模型存在的知识截止和事实幻觉问题，提出了一种融合混合检索架构的RAG系统解决方案。该系统通过外挂动态知识库，结合稀疏检索（BM25）和密集检索（向量嵌入）的优势，并引入多阶段优化和全链路评估...
当DeepSeek遇上Xmind：重新定义你的思考版图
2025-03-15 01:38

安全瞭望Sec的博客在当今信息爆炸的时代中AI已经成为时代潮流，高效整理思维、激发创意已成为职场与学术领域的核心竞争力
Github 热点项目 Meetily 录音实时转文字太省心本地免联网AI助手
2025-04-14 19:53

opentrending的博客内置AI不仅能精准识别语音生成字幕，还能用专业级翻译保持语句自然流畅，支持56种语言互译。它像“数字克隆机”一样，只需输入你的照片和声音样本，就能生成会说话、有表情的虚拟人视频，整个过程完全离线，适合需要...
PaddleOCR-VL发票识别教程：云端按需付费，比外包便宜10倍
2026-01-20 00:04

MorganiteEagle55的博客本文介绍了如何在星图GPU平台自动化部署PaddleOCR-VL-WEB镜像，实现发票信息的智能识别与结构化提取。该方案无需技术基础，5分钟即可完成部署，适用于小微企业财务自动化场景，支持批量处理增值税发票、报销单等文档...
Github 热点项目 Krillin AI一键横转竖+AI配音+AI精准字幕，短视频创作者必备神器，效率翻倍
2025-04-10 20:33

opentrending的博客开发者使用Rust等语言编写模块，客户端支持多语言接入，大幅简化了实时系统的开发复杂度。...Dify 支持多种模型提供商，包括 GPT、Mistral 和 Llama3 等，并提供即插即用的工具，如文档提取和代理工具。
百度飞桨PaddleOCR 3.0开源发布 OCR精度跃升13%
2025-05-23 06:58

吴脑的键客的博客百度飞桨团队于2025年5月20日发布了PaddleOCR 3.0版本，该版本在文字识别、多语种支持、手写体识别及文档解析等方面取得显著进展。核心亮点包括全场景文字识别模型PP-OCRv5，提高了识别精度和速度；通用文档解析方案...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月15日

竖版PDF如何识别，有什么开源工具或者解决思路吗？

1条回答 默认 最新

问题事件

1条回答默认最新