微凉的衣柜 2023-07-15 14:03 采纳率: 63.9%
浏览 412
已结题

每次推理都Loading checkpoint shards:

语言模型推理代码为:

hf_generator = pipeline("text2text-generation", model="aaa"
output = hf_generator(prompt, max_length=len(prompt)+128, do_sample=True)

每次推理都会显示:

Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.62s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.62s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.64s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.74s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:08<00:00,  4.17s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.67s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.69s/it]

导致十分占用时间,如何解决?

  • 写回答

1条回答 默认 最新

  • 故事不长丨 2023-07-20 14:12
    关注
    1. 缩减模型大小:考虑使用更小的模型或模型子集来减少加载时间。您可以尝试使用经过压缩或剪枝的模型,或使用具有较少参数的模型。

    2. 持久化加载:将模型加载到内存中,以避免在每次推理时重新加载模型。您可以将加载模型代码放置在循环外部,并在每次推理时重用已加载的模型。这样可以减少重复加载的时间消耗。

    下面是示例代码,展示了如何在循环外加载模型并重复使用:

    hf_generator = pipeline("text2text-generation", model="aaa")
    # 在循环之前加载模型
    
    for i in range(num_iterations):
        output = hf_generator(prompt, max_length=len(prompt)+128, do_sample=True)
        # 进行推理操作
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 7月30日
  • 已采纳回答 7月22日
  • 创建了问题 7月15日

悬赏问题

  • ¥15 岛津txt格式文件转nirs格式
  • ¥15 石墨烯磁表面等离子体
  • ¥15 angular 项目无法启动
  • ¥15 安装wampserver,图标绿色,但是无法进入软件
  • ¥15 C++ MFC 标准库 加密解密解惑
  • ¥15 两条数据合并成一条数据
  • ¥15 Ubuntu虚拟机设置
  • ¥15 comsol三维模型中磁场为什么没有“速度(洛伦兹项)”这一选项
  • ¥15 electron 如何实现自定义安装界面
  • ¥15 关于#linux#的问题:子进程C运行“ls –l”命令,且显示“C运行ls-l命令”(语言-c语言)