统计PDF文件指定词语的出现的页码

统计PDF文件指定词语的出现的次数，并输出该词语所 python3.12.3在页码

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

35条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-07-07 22:27

关注

获得0.40元问题酬金

引自免费微信小程序：皆我百晓生

为了统计PDF文件中指定词语出现的次数及其在文档中的页码，你可以使用Python中的库如PyPDF2和PyMuPDF来读取PDF内容，再结合字符串操作来实现这个功能。下面是一个简单的示例代码，展示如何实现这个功能：

首先确保安装了必要的库（如果尚未安装）：

pip install PyMuPDF

以下是使用Python实现统计PDF文件中指定词语出现的次数及其在页码的代码示例：

import fitz  # PyMuPDF库用于处理PDF文件
import re  # 正则表达式库用于搜索文本

def count_word_in_pdf(pdf_path, search_word):
    # 打开PDF文件
    pdf_doc = fitz.open(pdf_path)
    total_pages = len(pdf_doc)  # 获取PDF的总页数
    word_count = 0  # 用于统计指定词语出现的次数
    word_pages = []  # 用于存储包含指定词语的页码列表
    
    for page_num in range(total_pages):  # 遍历每一页
        page = pdf_doc[page_num]  # 获取当前页的内容
        text = page.extractText()  # 提取页面的文本内容
        if text:  # 检查是否有文本内容，防止处理空白页时出现错误
            # 使用正则表达式搜索文本中的指定词语，并计算出现次数和页码信息
            matches = re.findall(search_word, text)  # 这里直接使用词语作为搜索模式，无需正则表达式模式转换（因为假设是单个词）
            word_count += len(matches)  # 更新总出现次数
            if matches:  # 如果找到匹配项，记录该页码到列表中
                word_pages.append(page_num + 1)  # 页码从1开始计数，所以加1调整计数方式符合实际页码数显示要求（通常是从第一页开始）
    return word_count, word_pages  # 返回词语出现次数和包含该词语的页码列表

# 使用函数进行统计指定词语在PDF中的出现情况示例
pdf_file = 'example.pdf'  # 你的PDF文件路径
search_phrase = 'Python'  # 需要搜索的词语或短语（注意可能需要引号包围以便正确处理空格）
word_count, word_pages = count_word_in_pdf(pdf_file, search_phrase)
print(f"词语 '{search_phrase}' 在PDF中出现了 {word_count} 次。")
print("出现该词语的页码为:", word_pages)  # 输出包含指定词语的页码列表，这里会输出页码索引而非实际的页面编号（需要自己转换为实际页码编号）

这段代码定义了一个函数 count_word_in_pdf，它会打开一个PDF文件，然后逐页读取并查找指定词出现的次数以及出现的页码。在找到指定词后，会将其出现的次数累加，并记录这些词出现在哪些页面上。需要注意的是这里的页码是基于页面索引的计数方式，实际使用时可能需要根据文档的具体情况转换为实际的页码编号。此外，对于包含复杂格式或布局的PDF文档，文本提取可能并不完美，这取决于PDF的制作方式和内容复杂性。如果处理大型或复杂的PDF文件时遇到问题，可能需要考虑使用更高级的文本提取方法或工具。

编辑记录

报告相同问题？

关注问题

E-GT 50V47UF 6.3×11 TU.pdf
2025-11-25 08:36

另外，文档中还出现了一些可能由OCR扫描识别错误导致的不完整或误读的词语，但通过上下文可以推断出其意图。例如，供应商名称被识别为“SAMXON MAN YUE ELECTRONICS CAPACITOR COMPANY LIMITED”，其中“MAN YUE”很...
法律界的AI新突破：自然语言处理应用架构解读
2025-08-28 02:53

AI Python 编程的博客法律行业正经历着前所未有的数字化变革，而自然语言处理(NLP)技术正是这场变革的核心驱动力。本文深入剖析了法律领域NLP应用的技术架构，从基础概念到复杂系统实现，全面解读了如何将先进的语言理解能力注入传统法律...
【办公自动化】使用Python一键提取PDF中的表格到Excel
2023-08-05 13:34

艾派森的博客从PDF文件获取表格中的数据，也是日常办公容易涉及到的一项工作。一个一个复制吧，效率确实太低了。用Python从PDF文档中提取表格数据，并写入Excel文件，灰常灰常高效。上市公司的年报往往包含几百张表格，用它作为...
DeepSeek详解：探索下一代语言模型
2025-03-27 14:57

野生AI侠的博客随着深入，教程涵盖提问技巧，如清晰表达需求和背景以获得最佳结果，并探讨文件处理策略，例如解析PDF和Excel文件以提取关键信息。高级功能部分讲解如何利用多模态处理能力整合文本、图像等数据，以及开发记忆功能与...
【论文阅读14】-推进多模态诊断：将工业文本数据与领域知识和大语言模型相结合
2025-11-03 15:01

Ma040713的博客本文提出了一种创新方法，将大型语言模型（LLM）与工业领域知识相结合，用于多模态故障诊断。研究团队通过三阶段框架：1）使用工业文本微调LLM成为领域专家；2）将检查笔记转化为语义向量；3）采用注意力机制加权...
DeepSeek-OCR多语言支持：外贸合同识别，小语种也不怕
2026-01-16 06:09

starfallowl89的博客本文介绍了基于星图GPU平台自动化部署DeepSeek-OCR-WEBUI镜像的完整方案，助力用户高效处理多语言外贸合同识别任务。通过该平台，无需编程即可一键启动可视化OCR系统，支持法语、阿拉伯语等小语种文本提取，适用于跨...
【AI模型】——RAG技术简介与实战示例
2026-04-16 21:34

庄小焱的博客从本质上讲，RAG（Retrieval-Augmented Generation）是一种旨在解决大语言模型（LLM）“知其然不知其所以然”问题的技术范式。它的核心是将模型内部学到的“参数化知识”（模型权重中固化的、模糊的“记忆”），与...
Python+PDF
2023-05-10 15:59

圆弧创意的博客切分汉语词语并统计个数代码如下： # -*- coding: utf-8 -*- """ Created on Mon Jul 1 10:49:20 2019 切分文本，统计词频 @author: 圆弧 """ import codecs#输入《红楼梦》文本 with codecs.open('HLMnovel.txt',...
Java面试：深度解析AI RAG、Git版本控制与自然语言处理实践
2025-12-23 21:02

日拱一卒的博客本文以互联网大厂Java开发工程师面试为背景，通过面试官与“小润龙”的生动对话，深度解析了AI领域的RAG技术、Git版本控制以及Spring AI框架在自然语言处理业务中的应用。文章循序渐进地探讨了Embedding模型、向量...
SpringBoot+ElasticSearch 实现文档内容抽取、高亮分词、全文检索！
2024-04-29 10:51

民工哥技术之路的博客需求产品希望我们这边能够实现用户上传PDF、WORD、TXT之内得文本内容，然后用户可以根据附件名称或文件内容模糊查询文件信息，并可以在线查看文件内容。一、环境项目开发环境：后台管理系统springboot+mybatis_plus+...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月7日

统计PDF文件指定词语的出现的页码

35条回答 默认 最新

问题事件

35条回答默认最新