Y322056 2025-08-08 08:26 采纳率: 0%
浏览 31

mineru使用教程

目前部署MinerU出现了一些问题,问题如下
1.我部署的是最新的MinerU,之前并没有部署过其他版本的,网上的大多数教程都提到了一个问题,就是在下载完modles之后,在目录下(对于我来说就是C:\Users\admin)会出现一个magic-pdf.json的文件,但是从现在gitee的代码仓库里只有magic-pdf.template.json文档,根据操作

img


(第一张图片)
我现在的文件夹下

img


(第二张图片)
而且打开文档来看,跟以前版本的的json文档内容上有很大不同(这里不懂文档里面各种模型的参数细节什么的)

img

img


第一张图片是之前版本的json(文件内容(网上其他博主截图显示),第二张图片是目前的json文件内容
这个是我目前更改的文件的地址(不确定是否正确,我会附上截图)
C:/Users/admin/.cache/moelscope/hub/models/opendatalab/PDF-Extract-Kit/models/

img

2.出现报错

img

img


不明白怎么报错的,MFR下没有这个文档,这是怎么回事

img

  • 写回答

3条回答 默认 最新

  • 檀越@新空间 2025-08-08 08:27
    关注

    上午好☀️☀️☀️️
    本答案参考通义千问

    根据你描述的问题,我们可以逐步分析并解决MinerU部署中遇到的两个主要问题:


    一、关于 magic-pdf.json 文件缺失或配置不正确

    1.1 问题说明

    • 你提到在部署最新版本的 MinerU 后,发现目录下(如 C:\Users\admin)没有 magic-pdf.json 文件。
    • 而 Gitee 上只有 magic-pdf.template.json 文件,这可能意味着新版本的配置文件命名或路径发生了变化。

    1.2 原因分析

    • 在旧版本中,magic-pdf.json 是一个配置文件,用于指定模型路径和参数。
    • 新版本可能将该文件改名为 magic-pdf.template.json,并要求用户手动复制并重命名magic-pdf.json
    • 如果你未执行此操作,系统会找不到配置文件,导致后续流程失败。

    二、关于报错:MFR 下没有这个文档

    2.1 问题说明

    • 报错提示“MFR 下没有这个文档”,可能是由于模型路径配置错误或模型未下载成功。
    • 你提供的路径是:C:/Users/admin/.cache/moelscope/hub/models/opendatalab/PDF-Extract-Kit/models/,但该路径下可能缺少必要的模型文件。

    三、解决方案

    3.1 正确处理 magic-pdf.json 配置文件

    步骤如下:

    1. 查找模板文件

      • 打开你的项目目录,找到 magic-pdf.template.json 文件。
      • 通常它位于项目的根目录或 config 目录下。
    2. 复制并重命名文件

      • magic-pdf.template.json 复制一份,并将其重命名为 magic-pdf.json
    3. 修改配置文件内容

      • 打开 magic-pdf.json,确保其中的模型路径指向正确的模型文件。
      • 示例内容如下(请根据你的实际路径进行调整):
        {
          "model_path": "C:/Users/admin/.cache/moelscope/hub/models/opendatalab/PDF-Extract-Kit/models/magic-pdf.pth",
          "device": "cuda",
          "batch_size": 8,
          "max_length": 512
        }
        
    4. 保存并运行程序

      • 确保所有路径正确后,重新运行 MinerU。

    3.2 解决 MFR 模型路径错误问题

    步骤如下:

    1. 确认模型是否已下载

      • 检查路径 C:/Users/admin/.cache/moelscope/hub/models/opendatalab/PDF-Extract-Kit/models/ 是否存在模型文件(如 .pth.pt 文件)。
      • 如果没有,请尝试重新下载模型。
    2. 使用命令行下载模型(如果支持)

      • 如果项目支持自动下载模型,可以运行以下命令(示例):
        python download_models.py
        
      • 或者根据项目文档中的说明下载模型。
    3. 手动下载模型

      • 如果自动下载失败,你可以从官方仓库或 Hugging Face 下载模型文件。
      • 将下载的模型文件放置到上述路径中。
    4. 检查代码中的模型加载逻辑

      • 如果你有自定义代码,确保在加载模型时使用的路径与 magic-pdf.json 中一致。

    四、代码示例(修改后的配置)

    如果你使用的是 Python 脚本加载模型,可以参考以下代码片段:

    import json
    
    # 加载配置文件
    with open('magic-pdf.json', 'r') as f:
        config = json.load(f)
    
    # 获取模型路径
    model_path = config['model_path']
    
    # 加载模型
    model = torch.load(model_path)
    model.eval()
    

    注意: 请确保 magic-pdf.json 文件存在于脚本的当前工作目录中,或者提供完整路径。


    五、总结

    | 问题 | 解决方案 | |------|----------| | 缺少 magic-pdf.json | 重命名 magic-pdf.template.jsonmagic-pdf.json,并修改路径 | | MFR 下无文档 | 检查模型是否下载,手动下载并放置到正确路径 | | 配置文件内容差异 | 根据新版本的 JSON 结构调整配置项 |


    如果你能提供具体的错误信息或截图,我可以进一步帮助你定位问题。希望以上步骤能帮你顺利部署 MinerU!

    评论

报告相同问题?

问题事件

  • 创建了问题 8月8日