模型转换中遇到的问题.ckpt转trt格式

我首先利用train.py程序训练得到.model.ckpt格式的模型文件；
然后利用GraphDef.py程序将.model.ckpt格式的模型文件转换成.pb格式的模型文件；
然后再利用指将文件转换成onnx格式；
最后在jetson开发板中转换得到trt格式。
但是二者推理得到结果不一致，利用tensorflow的.model.ckp模型进行下属下述推理

def test(infrareds, images, global_layers, local_layers, scaling_factor, is_training):
    with tf.Graph().as_default():
        logits = model.inference(infrareds, images, global_layers,local_layers,scaling_factor,is_training)
        
    # dim = logits.get_shape()[3].value
        true_labels = tf.reshape(depthtest, [-1])
        true_labels = tf.cast(true_labels, tf.float32)
        #true_labels = tf.identity(true_labels)

        mask = (true_labels < 192) & (true_labels > 0)
        mask = tf.cast(mask, tf.float32)
        #mask = tf.identity(mask)

        pre_dep = tf.reshape(logits , [-1])
        pre_dep = tf.cast(pre_dep, tf.float32)

        cross_entropy = tf.reduce_mean(mask * tf.square(true_labels - pre_dep))

        saver = tf.compat.v1.train.Saver()
        with tf.Session() as sess:
            saver.restore(sess, 'saver/4.3/model.ckpt-83999')
            labels = sess.run(logits)
            loss = sess.run(cross_entropy)

得到的输出格式是(8, 448, 512, 1)
但是利用trt推理，利用下述代码：

def main():
    trt_model = "/home/nvidia/zza/IVFuseNet/IVFusion_model_fp16.trt"
    device = torch.device("cuda:0")

    left_images = sorted(glob.glob('/home/nvidia/zza/04-20_IGEV-main/IGEV-Stereo/kaist_test/thermal/*.jpg', recursive=True))
    #right_images = sorted(glob.glob('/home/nvidia/zza/04-20_IGEV-main/IGEV-Stereo/kaist_test/right/*.jpg', recursive=True))
    #print(f"Found {len(left_images)} images.")

    #print('deserializing trt engine')
    engine = None
    logger = trt.Logger(trt.Logger.INFO)
    
    # 这是一个上下文管理器，它同时打开一个文件和一个 TensorRT 运行时对象。trt_model 是序列化的 TensorRT 引擎文件的路径。
    # "rb" 指定以二进制只读模式打开文件。
    # f 是文件对象，runtime 是 TensorRT 运行时对象。
    # logger 是一个用于记录日志的 trt.Logger 对象，它在之前的代码中已经被定义了。
    with open(trt_model, "rb") as f, trt.Runtime(logger) as runtime:
        engine = runtime.deserialize_cuda_engine(f.read())

    model_all_names = []
    #print("engine bindings message: ")
    # 这段代码的作用是遍历 TensorRT 引擎中的所有绑定，对于每个绑定，获取其是否为输入、名称、数据类型和形状，并将名称添加到名为 model_all_names 的列表中
    for idx in range(engine.num_bindings):
        is_input = engine.binding_is_input(idx)
        name = engine.get_binding_name(idx)
        op_type = engine.get_binding_dtype(idx)
        model_all_names.append(name)
        shape = engine.get_binding_shape(idx)
        # 检查当前绑定是否为输入绑定且其形状是否为动态形状
        if is_input and is_dynamic(shape):
            profile_shapes = engine.get_profile_shape(0, idx)
            # print(profile_shapes)
     #   print('input id:', idx, '   is input: ', is_input, '  binding name:', name, '  shape:', shape, 'type: ', op_type)

    output_directory = Path("./output_trt_fp16/")
    output_directory.mkdir(exist_ok=True)
    # 设置模型 输入输出名称
    trt_model = TRTModule(engine, [model_all_names[0], model_all_names[1]], model_all_names[2:])

    start_time = time.time()
    batch_size = 1
    num_batches = len(left_images) // batch_size
    print(num_batches)
    j = 0
    
    for batch_idx in tqdm(range(num_batches)):
    
        batch_left_images = infrareds[batch_idx * batch_size: (batch_idx + 1) * batch_size]
        batch_right_images = images[batch_idx * batch_size: (batch_idx + 1) * batch_size]
        
        print(batch_left_images.shape)
        print(batch_right_images.shape)
        
        batch_left_images_torch = torch.from_numpy(batch_left_images).float().to("cuda:0")
        batch_right_images_torch = torch.from_numpy(batch_right_images).float().to("cuda:0")
    
        print(batch_left_images_torch.shape)
        print(batch_right_images_torch.shape)
        
        #images1 = load_image1(batch_left_images)
        #mages2 = load_image2(batch_right_images)

        # 处理整个批次的图像
        #padder = InputPadder(images1.shape[1:], divis_by=32)
        #images1_padded, images2_padded = padder.pad(images1, images2)
        trt_results = trt_model(batch_left_images_torch, batch_right_images_torch)
        print("************************")
        print("trt_results.shape:", trt_results.shape)

得到的结果是torch([1834208]),即将8448512相乘得到，并且reshape后图片显示不正确，
和直接使用.ckpt模型得到的输出不同，应该说直接是错的怎么办

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

17条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Kwan的解忧杂货铺@新空间代码工作室 2024-04-04 15:31
关注
下午好🌅🌅🌅
本答案参考ChatGPT-3.5

根据你提供的信息，你在模型转换过程中遇到了推理结果不一致的问题。推理结果不一致可能是由于多个原因造成的，下面是一些可能的解决方案：

确保模型转换的每个阶段都正确无误:

确保训练过程中得到的 .model.ckpt 格式的模型文件是正确的。
确保使用 GraphDef.py 将 .model.ckpt 格式的模型文件转换成 .pb 格式的模型文件时没有出错。
确保使用指令将 .pb 格式的模型文件转换成 .onnx 格式时没有出错。
确保在 jetson 开发板中将 .onnx 格式的模型文件转换成 trt 格式时没有出错。

检查推理过程中的代码逻辑:

确保在 TensorFlow 中加载模型时采用了正确的代码逻辑，如加载模型和运行推理的顺序。
确保输入数据的维度、类型和范围与模型要求的一致。

比较推理结果的差异:

使用相同的输入数据在 TensorFlow 和 TensorRT 中运行推理，并比较输出结果的差异。可以通过打印输出结果或计算差异度量值来进行比较。

检查模型转换过程中的参数设置:

确保模型转换过程中的参数设置和配置文件的正确性。例如，TensorRT 中的精度模式（fp16或int8）是否与 TensorFlow 中的模型一致。

调试和日志记录:

在转换和推理过程中添加适当的调试和日志记录语句，以便更详细地了解问题所在。可以输出中间结果、打印变量的值等。

修改后的代码：

请提供 train.py 程序的代码，以便更好地理解模型训练过程。
请提供 GraphDef.py 和模型转换为 .pb 文件的代码，以便更好地理解模型转换过程。
请提供将 .pb 文件转换为 .onnx 文件的代码，以便更好地理解模型转换过程。
请提供将 .onnx 文件转换为 trt 文件的代码，以便更好地理解模型转换过程。
请提供 TensorRT 推理部分的完整代码，以便更好地理解问题所在。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在转换模型输出的内容时遇到问题 python 有问必答深度学习
2023-04-13 14:12

回答 2 已采纳引用chatGPT作答，您需要将输出的图片信息转换为base64编码格式以及可供其他模型使用的图像，可以尝试使用以下代码进行转换： import cv2 import base64 import nu
如何选择DeepLung代码测试时的权重文件（.ckpt）？ python 图像处理
2023-01-04 15:33

回答 4 已采纳在测试模型时，通常只使用一个权重文件，并且是在训练过程中最优的权重文件。如果要选择最优的权重文件，可以在训练时保存不同迭代次数的权重文件，然后在验证集上评估这些权重文件，选择性能最好的权重文件进行测试
YOLOv5(PyTorch)实战：训练自己的数据集课程中遇到的问题 pytorch
2022-04-05 21:57

回答 1 已采纳 in "models/yolov5s_ball.yaml", line 5, column 1检查以下这个文件，这里出现的错误
轻松入门模型转换和可视化
2021-08-03 07:00

3Ｄ视觉工坊的博客点击上方“3D视觉工坊”，选择“星标”干货第一时间送达本文给大家介绍一个模型转换格式ONNX和可视化工具Netron。ONNX是微软设计的一种多平台的通用文件格式，帮助算法人员进行模型部署...
pth转onnx报错：AttributeError: 'collections.OrderedDict' object has no attribute 'shape' python pytorch 有问必答深度学习
2022-03-19 12:41

回答 2 已采纳从报错看，是因为utl_param.values()和own_state.values()这些变量是odict类型，无shape属性，检查这两个变量，将其转换成np的ndarray或pd的Series
使用tensorflow时在 '__init__.py' 中找不到引用 python tensorflow 机器学习
2021-05-03 17:32

回答 1 已采纳我把你的代码拿到本地跑了，首先你的代码的API是TF1.x版本的，我本地用的是tf1.15，所以第一步是把TF切换到1.15(我测试通过了，看你用Anaconda，那么安装就很简单了conda ins
yolov5模型保存时报错 python
2023-03-02 17:18

回答 2 已采纳权限问题，用管理员权限试下。使用绝对路径而且保证路径正确。如果后台有什么一直在运行要先关掉才能save。
ONNX模型转换及可视化
2024-07-16 03:00

whaosoft143的博客目前开源的深度学习框架有很多，当我们在Github上搜索一个通用...然后调用TensorRT的SDK转换成uff格式，看上去好像也很顺畅没什么问题，它们的区别就在于训练生成的权重文件格式不同，不过反正最终都转换成uff格式。
.\final_datasets/trainA" is not a valid directory. python 深度学习
2022-04-26 21:29

回答 1 已采纳你的数据集位置不对，你可以看我博客
torch问题-（stable diffusion2.0） linux python pytorch
2023-01-13 10:10

回答 1 已采纳输入 nvcc -V看下，你截图的这个的cuda根本不是你安装的cuda，而是你目前的驱动支持到cuda11.4。总共有三个东西，一个是显卡驱动，这个会显示你目前显卡的驱动可以支持到最高的cuda版本
transformsers的pipeline函数支持自定义模型输入么 python
2023-03-09 09:58

回答 1 已采纳 1、从代码上看，没有明显的问题。pipeline函数支持自定义模型，只要满足输入和输出格式的要求即可。2、pipeline函数的模型输入支持多种格式，不仅仅限于官方的BERT模型格式（例如.pt、.b
4个顶级的大模型推理引擎
2024-10-02 09:42

新缸中之脑的博客 LLM 在文本生成应用中表现出色，例如具有高理解度和流畅度的聊天和代码完成模型。然而，它们的庞大规模也给推理带来了挑战。基本推理速度很慢，因为 LLM 会逐个生成文本标记，需要对每个下一个标记进行重复调用。...
Not found: Failed to c reate a NewWriteableFile: python 有问必答深度学习
2021-06-23 22:07

回答 1 已采纳把原始数据转为utf-8格式就行了。现在应该是GB2312国标码
yoloX模型部署-tensorrt配置
2022-08-04 16:39

视觉AI的博客 unknown command ".\setup.py" 3，转换模型 python tools/trt.py -n yolox-s -c yolox_s.pth python3 tools/trt.py -f lx/drone.py python tools/trt.py -n yolox-tiny -c best_ckpt.pth 这个过程大约需要10分钟，...
TensorRT学习笔记 1 - 概述
2022-12-22 14:32

GFward的博客 trt是什么？如何发挥加速作用的？我们如何使用他？
opencv dnn模块示例(25) 目标检测 object_detection 之 yolov9
2024-03-11 07:30

aworkholic的博客 YOLOv9 在设计上旨在解决深度学习中信息瓶颈问题，并提高模型在不同任务上的准确性和参数效率。：YOLOv9 引入了可编程梯度信息（PGI）的概念，这是一种新的辅助监督框架，用于生成可靠的梯度信息，以便在训练过程中...
(含源码notebook和环境配置)加速Pytorch SSD 目标检测模型推理
2022-06-20 12:55

扫地的小何尚的博客在开发机器学习模型的实践中，很少有工具能像 PyTorch 那样用于开发和试验机器学习模型的设计。 PyTorch 的强大之处在于它与 Python 的深度集成、它的灵活性以及它的自动微分和执行方法（急切执行）。然而，当从研究...
Triton Inference Serve框架学习
2024-09-09 18:50

WILLIX的博客定义模型的输入输出，然后在ensemble_scheduling中定义不同的步骤，其中step中的key是本身的input/output tensor的名字；max_batch_size为一个大于0的常数，Input和output指定名字，数据类型，数据形状。max_batch_...
Jetson Orin NX 刷机、配置与使用
2024-05-06 16:34

czafrost的博客是英伟达为jetson设备提供的C++开发SDK，使用C++和CUDA实现了许多功能，方便开发者直接调用，具体包括以下功能：其中camera、cuda、display、image、threads下的函数都是软件开发中经常需要使用的。从图像流的获取到...
ONNX和Netron
2024-08-03 03:31

不押仄的博客这里说下模型转换格式ONNX和可视化工具Netron。ONNX是微软设计的一种多平台的通用文件格式，帮助算法人员进行模型部署和框架之间相互转换。而Netron是一款老牌的轻量化模型可视化工具，支持多种开源框架，使用上比...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 4月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月4日

悬赏问题

¥15 非科班怎么跑代码？如何导数据和调参
¥15 福州市的全人群死因监测点死亡原因报表
¥15 打开powerpont询问是否安装officeplus不小心点了不安装以后再也不提示是否安装了
¥15 Altair EDEM中生成一个颗粒，并且各个方向没有初始速度
¥15 系统2008r2 装机配置推荐一下
¥500 服务器搭建cisco AnyConnect vpn
¥15 悬赏Python-playwright部署在centos7上
¥15 psoc creator软件有没有人能远程安装啊
¥15 快速扫描算法求解Eikonal方程咨询
¥20 我的是道格手机，重置后屏幕右上角出现红色字的未写入tee key 和未写入google key请问怎么去掉啊

模型转换中遇到的问题.ckpt转trt格式

17条回答 默认 最新

问题事件

悬赏问题

17条回答默认最新