No module named 'paddleocr.tools'; 'paddleocr' is not a package

我的环境是没有问题的，在不使用多进程的情况下可以正常导入包，导入代码如下

from paddleocr.tools.infer.utility import get_rotate_crop_image
from paddleocr.tools.infer.predict_system import sorted_boxes
from paddleocr.ppstructure.table.predict_table import to_excel

但是问题在于，一旦我尝试使用multiprocessing开启多进程，就会出现如下报错

Traceback (most recent call last):
  File "", line 1, in 
  File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\multiprocessing\spawn.py", line 116, in spawn_main
    exitcode = _main(fd, parent_sentinel)
  File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\multiprocessing\spawn.py", line 125, in _main
    prepare(preparation_data)
  File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\multiprocessing\spawn.py", line 236, in prepare
    _fixup_main_from_path(data['init_main_from_path'])
  File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\multiprocessing\spawn.py", line 288, in _fixup_main_from_path
    main_content = runpy.run_path(main_path,
  File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\runpy.py", line 265, in run_path
    return _run_module_code(code, init_globals, run_name,
  File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\runpy.py", line 97, in _run_module_code
    _run_code(code, mod_globals, init_globals,
  File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\runpy.py", line 87, in _run_code
    exec(code, run_globals)
  File "E:\project\OCR\10-18\DocExtraction\OCRProcessor\OCRProcessor.py", line 35, in 
    from paddleocr.tools.infer.utility import get_rotate_crop_image
ModuleNotFoundError: No module named 'paddleocr.tools'; 'paddleocr' is not a package

只要我使用multiprocessing开启这个paddleocr处理的类的相关进程，就会出现这个报错

我想知道有没有什么办法可以解决这个问题，或者完全放弃这一思路，提供给我一个使用利用多GPU进行OCR识别以加快效率的方法

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-11-01 11:39
关注
【以下回答由 GPT 生成】

问题标题: No module named 'paddleocr.tools'; 'paddleocr' is not a package

问题描述: 我的环境正常，可以成功导入paddleocr包。导入代码如下:

from paddleocr.tools.infer.utility import get_rotate_crop_image from paddleocr.tools.infer.predict_system import sorted_boxes from paddleocr.ppstructure.table.predict_table import to_excel

但是，当我尝试使用multiprocessing开启多进程时，就会出现以下错误:

Traceback (most recent call last): File "", line 1, in File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\multiprocessing\spawn.py", line 116, in spawn_main exitcode = _main(fd, parent_sentinel) File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\multiprocessing\spawn.py", line 125, in _main prepare(preparation_data) File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\multiprocessing\spawn.py", line 236, in prepare _fixup_main_from_path(data['init_main_from_path']) File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\multiprocessing\spawn.py", line 288, in _fixup_main_from_path main_content = runpy.run_path(main_path, File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\runpy.py", line 265, in run_path return _run_module_code(code, init_globals, run_name, File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\runpy.py", line 97, in _run_module_code _run_code(code, mod_globals, init_globals, File "E:\software\Anaconda-5.3.1\anaconda\envs\OCRPy38\lib\runpy.py", line 87, in _run_code exec(code, run_globals) File "E:\project\OCR\10-18\DocExtraction\OCRProcessor\OCRProcessor.py", line 35, in from paddleocr.tools.infer.utility import get_rotate_crop_image ModuleNotFoundError: No module named 'paddleocr.tools'; 'paddleocr' is not a package 只要我使用`multiprocessing`开启与`paddleocr`相关的进程，就会出现这个错误。我想知道有没有什么方法可以解决这个问题，或者是否有其他方法可以使用多个GPU加速OCR识别，以提高效率？解决方案: 1. 第一个问题是由于多进程时`paddleocr.tools`被错误地认为是一个包，解决方法是使用`import paddleocr`而不是`from paddleocr.tools...`。你可以在多进程任务中使用`import paddleocr`导入整个`paddleocr`模块，然后使用`paddleocr.tools.infer.utility.get_rotate_crop_image`等来访问对应的函数。例如: ```python import paddleocr def worker_function(): # 在这里使用paddleocr.tools.infer.utility.get_rotate_crop_image等 # 创建一个多进程任务 p = Process(target=worker_function) # 启动进程 p.start() # 等待进程结束 p.join()

关于使用多个GPU加速OCR识别的方法，你可以考虑使用PaddlePaddle的paddle.distributed模块来进行分布式学习。这可以让你在多个GPU上并行地进行OCR识别任务，从而提高识别效率。具体步骤如下:

首先，安装PaddlePaddle 2.x版本:

bash pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

然后，导入相关依赖:

python import paddle from paddle.io import DataLoader from paddle.distributed import fleet from paddle.io import Dataset from paddle.io import BatchSampler from paddle.static import InputSpec

接下来，定义OCR识别模型:

```python import paddleocr

class OCRModel(paddle.nn.Layer): def init(self): super(OCRModel, self).init() self.ocr = paddleocr.OCR()

def forward(self, image): return self.ocr.ocr(image)

```

然后，实现一个自定义的Dataset类来加载数据:

```python class CustomDataset(Dataset): def init(self, data_path): # 在这里加载数据

def __getitem__(self, index): # 返回数据 def __len__(self): # 返回数据集大小

```

然后，创建一个DataLoader实例和一个BatchSampler实例:

python dataset = CustomDataset(data_path) batch_sampler = BatchSampler(dataset, batch_size=32, shuffle=True) data_loader = DataLoader(dataset, batch_sampler=batch_sampler)

最后，使用fleet.init初始化分布式环境，并使用fleet.distributed_optimizer和fleet.distributed_dataloader来分别对优化器和数据加载器进行分布式包装:

```python paddle.distributed.init_parallel_env()

model = OCRModel() optimizer = paddle.optimizer.Adam(learning_rate=0.001, parameters=model.parameters())

optimizer = fleet.distributed_optimizer(optimizer) optimizer.minimize(model)

data_loader = fleet.distributed_dataloader(data_loader)

for epoch in range(num_epochs): for data in data_loader(): image, label = data output = model(image) loss = paddle.nn.functional.cross_entropy(output, label) loss.backward() optimizer.step() optimizer.clear_grad()

```

在以上代码中，我们使用了paddle.distributed模块来启用分布式学习。通过初始化分布式环境以及使用fleet.distributed_optimizer和fleet.distributed_dataloader对优化器和数据加载器进行包装，我们可以在多个GPU上并行地进行OCR识别任务。

请注意，上述的代码片段仅供参考，具体的实现可能依赖于你的数据集和模型结构。

以上是针对你提供的问题的解决方案。希望能对你有所帮助。如果你有任何疑问，请随时向我提问。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

报错：no module named tensorflow.python；tensorflow is not a package；
2020-10-20 17:54

我肚子好饿的博客解决：纯属乌龙了，自己新建了一个py文件，文件名就叫tensorflow.py，然后程序运行的时候就首先读取的同目录下的这个py文件，就报错了。想想自己疯狂删了重新安装，真的是笑死。
ModuleNotFoundError: No module named ‘serial.tools‘
2024-03-12 13:56

漂泊的小森的博客 'serial' is not a package 这个时候我们应该先安装serial 然后再安装pyserial 即： pip install serial pip install pyserial 顺序不能错，如果安装错了的，可以重新卸载在按顺序安装！最后在运行pycharm里面的...
python使用pyserial获取串口列表，No module named ‘serial.tools‘； ‘serial‘ is not a package
2021-09-16 18:31

Evil eye的博客 import serial.tools.list_ports if __name__ == '__main__': port_list = list(serial.tools.list_ports.comports()) if len(port_list) == 0: print('找不到串口') else: for i in range(0, len(port_list))...
ModuleNotFoundError: No module named ‘utils.tools‘； ‘utils‘ is not a package import用法
2021-09-02 10:35

创不了浩的博客 import报错解决办法import 红线但是还是能正常运行improt的使用方法解决办法右键目录设置为Source Root 踩过的坑 ...ModuleNotFoundError: No module named ‘utils.data_augment’; ‘utils’ is not
ModuleNotFoundError: No module named ‘tensorflow.python.tools‘； ‘tensorflow.python‘ is not a package
2021-02-01 20:41

kilua_5的博客问题描述：在cmd中显示安装成功，pycharm中失败：失败的方法：更改文件的名字升级tensorflow 解决方法：参考这个链接不适用conda命令安装，改用pip3 install tensorflow 国内镜像源选择阿里云。...
成功解决PaddleOCR推理时，出错“No module named ‘tools.infer‘ “
2022-02-26 10:57

~啥也不会~的博客 python tools/train.py或者python tools/infer_det.py 时，出现了如下问题：原因分析：这个并非是官方的一个依赖项，故pip install 无法解决问题。这个问题出现的原因还是路径的问题，根据以下方法可解决...
No module named ‘tensorflow.python.tools‘； ‘tensorflow.python‘ is not a pack
2021-07-06 18:40

傅华涛Fu的博客出现该错误No module named 'tensorflow.python.tools'; 'tensorflow.python' is not a pack，我的解决方法是降低tensorflow的版本
程序报错：ModuleNotFoundError: No module named ‘code.utils‘； ‘code‘ is not a package
2024-10-16 17:44

啾啾啾666的博客【代码】程序报错：ModuleNotFoundError: No module named ‘code.utils‘；
python项目：运行时报错ModuleNotFoundError: No module named ‘abc.cbd‘； ‘abc‘ is not a package
2025-01-29 20:34

落墨画雪的博客从图中很明显能够看到，每个使用的python文件都在package中，标志是含有__init__.py文件，因此本文讨论的就是非package缺少__init__.py文件的问题。从项目结构上也能看出，在项目目录下的project_test以及abc都是一...
已解决ModuleNotFoundError: No module named ‘paddle‘
2022-08-22 07:13

袁袁袁袁满的博客已解决ModuleNotFoundError: No module named ‘paddle
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月31日

No module named 'paddleocr.tools'; 'paddleocr' is not a package

1条回答 默认 最新

问题事件

1条回答默认最新