无敌的前任 2021-12-22 21:59 采纳率: 0%
浏览 515

Python的Mupdf模块报错,读取pdf文件失败

问题遇到的现象和发生背景

遍历文件夹,输出包含“媒体质疑”的文件,输出名称
中途报错跳过几个,最后出现大量报错停止

问题相关代码,请勿粘贴截图
import os
import openpyxl
import fitz
import re
path=r'D:\下载\数据3 - 副本'
os.chdir(path)
my = openpyxl.Workbook()
mywb=my["Sheet"]
row=0
count=0
for d1 in os.listdir():
    check1=d1+r'\信息披露\注册稿'
    check2=d1+r'\问询与回复'
    tmpcount=0
    for file in os.listdir(check1):
        doc = fitz.open(check1+'\\'+file)
        for page in doc:
            text = page.get_text()
            if text.find('媒体质疑')!=-1:
                tmpcount = tmpcount + 1
                print(check1+'\\'+file)
    for file in os.listdir(check2):
        doc = fitz.open(check2+'\\'+file)
        for page in doc:
            text = page.get_text()
            if text.find('媒体质疑') != -1:
                tmpcount = tmpcount + 1
                print(check2 + '\\' + file)
    row = row + 1
    mywb.cell(row, 1, d1)
    if tmpcount>=1:
        count=count+1
        mywb.cell(row, 2, 1)
    else:
        mywb.cell(row, 2, 0)
print("被质疑的公司一共有",count,"家")
my.save(r'C:\Users\huang\Desktop'+"\\媒体质疑.xlsx")
运行结果及报错内容

mupdf: xref generation number missing
mupdf: expected object number
mupdf: cannot find startxref
mupdf: object out of range (1358 0 R); xref size 1353
mupdf: object is not a stream
mupdf: invalid ICC colorspace
mupdf: realloc (257379 bytes) failed
mupdf: malloc of 332758 bytes failed
RuntimeError: malloc of 115172 bytes failed

我的解答思路和尝试过的方法

不明所以

我想要达到的结果

所有文件全部成功读取

  • 写回答

2条回答 默认 最新

  • lmw0320 2022-03-10 14:58
    关注

    请问下,问题解决了么? 我也是遇到类似情况。。我想捕捉这个错误,结果没法捕捉到。。进入源码,居然都找不到这个提示是哪里冒出来的。。。

    评论

报告相同问题?

问题事件

  • 创建了问题 12月22日

悬赏问题

  • ¥15 求一下解题思路,完全不懂
  • ¥15 tensorflow
  • ¥15 densenet网络结构中,特征以cat方式复用后是怎么进行误差回传的
  • ¥15 STM32G471芯片spi设置了8位,总是发送16位
  • ¥15 R语言并行计算beta-NTI中tree文件的类型
  • ¥15 如何解读marsbar导出的ROI数据?
  • ¥20 求友友协助弄一下基于STC89C52单片机的声光控制灯原理图
  • ¥15 arduino双向交通灯设计
  • ¥15 有没有会粒子群算法的大能(○゜ε^○)求带不会出收敛图😭
  • ¥15 Matlab读取根元素出错