微凉的衣柜 2023-07-15 06:03 采纳率: 63.9%
浏览 1143
已结题

每次推理都Loading checkpoint shards:

语言模型推理代码为:

hf_generator = pipeline("text2text-generation", model="aaa"
output = hf_generator(prompt, max_length=len(prompt)+128, do_sample=True)

每次推理都会显示:

Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.62s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.62s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.64s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.74s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:08<00:00,  4.17s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.67s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:09<00:00,  4.69s/it]

导致十分占用时间,如何解决?

  • 写回答

1条回答 默认 最新

  • 故事不长丨 2023-07-20 06:12
    关注
    1. 缩减模型大小:考虑使用更小的模型或模型子集来减少加载时间。您可以尝试使用经过压缩或剪枝的模型,或使用具有较少参数的模型。

    2. 持久化加载:将模型加载到内存中,以避免在每次推理时重新加载模型。您可以将加载模型代码放置在循环外部,并在每次推理时重用已加载的模型。这样可以减少重复加载的时间消耗。

    下面是示例代码,展示了如何在循环外加载模型并重复使用:

    hf_generator = pipeline("text2text-generation", model="aaa")
    # 在循环之前加载模型
    
    for i in range(num_iterations):
        output = hf_generator(prompt, max_length=len(prompt)+128, do_sample=True)
        # 进行推理操作
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
编辑
预览

报告相同问题?

问题事件

  • 系统已结题 7月29日
  • 已采纳回答 7月22日
  • 创建了问题 7月15日
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部