alexnet网络训练报错

报错，已将num-class改成了100
报错如下

Traceback (most recent call last):
  File "E:\data\all\train.py", line 151, in <module>
    main()
  File "E:\data\all\train.py", line 100, in main
    model.load_weights(pre_weights_path)
  File "C:\Users\ASUS\AppData\Roaming\Python\Python39\site-packages\keras\utils\traceback_utils.py", line 70, in error_handler
    raise e.with_traceback(filtered_tb) from None
  File "E:\python\lib\site-packages\tensorflow\python\training\saving\saveable_object_util.py", line 139, in restore
    raise ValueError(
ValueError: Received incompatible tensor with shape (4096, 5) when attempting to restore variable with shape (4096, 100) and name dense_2/kernel.

代码如下

from keras.preprocessing.image import ImageDataGenerator
import matplotlib.pyplot as plt
plt.ion()
import numpy as np
import tensorflow as tf
import json
import os
import glob
from keras import layers, models


def AlexNet_pytorch(im_height=224, im_width=224, num_classes=1000):
    # tensorflow中的tensor通道排序是NHWC
    input_image = layers.Input(shape=(im_height, im_width, 3), dtype="float32")  # output(None, 224, 224, 3)
    x = layers.ZeroPadding2D(((2, 1), (2, 1)))(input_image)                      # output(None, 227, 227, 3)
    x = layers.Conv2D(64, kernel_size=11, strides=4, activation="relu")(x)       # output(None, 55, 55, 64)
    x = layers.MaxPool2D(pool_size=3, strides=2)(x)                              # output(None, 27, 27, 64)
    x = layers.Conv2D(192, kernel_size=5, padding="same", activation="relu")(x)  # output(None, 27, 27, 192)
    x = layers.MaxPool2D(pool_size=3, strides=2)(x)                              # output(None, 13, 13, 128)
    x = layers.Conv2D(384, kernel_size=3, padding="same", activation="relu")(x)  # output(None, 13, 13, 384)
    x = layers.Conv2D(256, kernel_size=3, padding="same", activation="relu")(x)  # output(None, 13, 13, 256)
    x = layers.Conv2D(256, kernel_size=3, padding="same", activation="relu")(x)  # output(None, 13, 13, 256)
    x = layers.MaxPool2D(pool_size=3, strides=2)(x)                              # output(None, 6, 6, 256)

    x = layers.Flatten()(x)                         # output(None, 6*6*256)
    x = layers.Dropout(0.5)(x)
    x = layers.Dense(4096, activation="relu")(x)    # output(None, 4096)
    x = layers.Dropout(0.5)(x)
    x = layers.Dense(4096, activation="relu")(x)    # output(None, 4096)
    x = layers.Dense(num_classes)(x)                  # output(None, 100)
    predict = layers.Softmax()(x)

    model = models.Model(inputs=input_image, outputs=predict)
    return model


def main():
    data_root = os.path.abspath(os.path.join(os.getcwd(), "../.."))  # get data root path
    image_path = os.path.join(data_root, "amini", "D:/amini/images-ok/")  # flower data set path
    train_dir = os.path.join(image_path, "train")
    validation_dir = os.path.join(image_path, "val")
    assert os.path.exists(train_dir), "cannot find {}".format(train_dir)
    assert os.path.exists(validation_dir), "cannot find {}".format(validation_dir)

    # create direction for saving weights
    if not os.path.exists("save_weights"):
        os.makedirs("save_weights")

    im_height = 224
    im_width = 224
    batch_size = 60
    epochs = 10

    def pre_function(img: np.ndarray):
        # from PIL import Image as im
        # import numpy as np
        # img = im.open('test.jpg')
        # img = np.array(img).astype(np.float32) 图像归一化
        img = img / 225.
        img = img - [0.485, 0.456, 0.406]  #均值
        img = img / [0.229, 0.224, 0.225]  #方差

        return img

    # data generator with data augmentation
    train_image_generator = ImageDataGenerator(horizontal_flip=True,
                                               preprocessing_function=pre_function)
    validation_image_generator = ImageDataGenerator(preprocessing_function=pre_function)

    train_data_gen = train_image_generator.flow_from_directory(directory=train_dir,
                                                               batch_size=batch_size,
                                                               shuffle=True,
                                                               target_size=(im_height, im_width),
                                                               class_mode='categorical')
    total_train = train_data_gen.n

    # get class dict
    class_indices = train_data_gen.class_indices

    # transform value and key of dict
    inverse_dict = dict((val, key) for key, val in class_indices.items())
    # write dict into json file
    json_str = json.dumps(inverse_dict, indent=4)
    with open('class_indices.json', 'w') as json_file:
        json_file.write(json_str)

    val_data_gen = validation_image_generator.flow_from_directory(directory=validation_dir,
                                                                  batch_size=batch_size,
                                                                  shuffle=False,
                                                                  target_size=(im_height, im_width),
                                                                  class_mode='categorical')
    total_val = val_data_gen.n
    print("using {} images for training, {} images for validation.".format(total_train,
                                                                           total_val))

    model = AlexNet_pytorch(im_height=im_height, im_width=im_width, num_classes=100)

    pre_weights_path = 'D:/amini/ckpt/pretrain_weights.ckpt'
    assert len(glob.glob(pre_weights_path+"*")), "cannot find {}".format(pre_weights_path)
    model.load_weights(pre_weights_path)
    for layer_t in model.layers:
        if 'conv2d' in layer_t.name:
            layer_t.trainable = False

    model.summary()

    # using keras high level api for training
    model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.0005),
                  loss=tf.keras.losses.CategoricalCrossentropy(from_logits=False),
                  metrics=["accuracy"])

    callbacks = [tf.keras.callbacks.ModelCheckpoint(filepath='./save_weights/myAlex.h5',
                                                    save_best_only=True,
                                                    save_weights_only=True,
                                                    monitor='val_loss')]

    # tensorflow2.1 recommend to using fit
    history = model.fit(x=train_data_gen,
                        steps_per_epoch=total_train // batch_size,
                        epochs=epochs,
                        validation_data=val_data_gen,
                        validation_steps=total_val // batch_size,
                        callbacks=callbacks)

    # plot loss and accuracy image
    history_dict = history.history
    train_loss = history_dict["loss"]
    train_accuracy = history_dict["accuracy"]
    val_loss = history_dict["val_loss"]
    val_accuracy = history_dict["val_accuracy"]

    # figure 1
    plt.figure()
    plt.plot(range(epochs), train_loss, label='train_loss')
    plt.plot(range(epochs), val_loss, label='val_loss')
    plt.legend()
    plt.xlabel('epochs')
    plt.ylabel('loss')

    # figure 2
    plt.figure()
    plt.plot(range(epochs), train_accuracy, label='train_accuracy')
    plt.plot(range(epochs), val_accuracy, label='val_accuracy')
    plt.legend()
    plt.xlabel('epochs')
    plt.ylabel('accuracy')
    plt.show()


if __name__ == '__main__':
    main()

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
shifenglv 2023-03-13 12:27
关注
用于初始化的权重，它的类别是6，而你新创建的模型类别数是100，两个网络结构不匹配所导致。你把用于初始化网络的代码屏蔽掉就行了。

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-03-13 14:04
关注
看下这篇博客，也许你就懂了，链接：AlexNet网络实现
解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

【DL】网络搭建及训练
2022-10-05 01:42

Sonhhxg_柒的博客 Caffe的全称应该是Convolutional Architecture for Fast Feature Embedding，它是一个清晰、高效的深度学习框架，它是开源的，核心语言是C++，它支持命令行、Python和Matlab接口，它既可以在CPU上运行也可以在GPU上...
TPU究竟是什么，它的优点有哪些，如何实现对深度学习模型的训练？如何在TPU上运行tensorflow或pytorch模型？有什么限制？
2023-08-10 19:00

AI天才研究院的博客在这篇博文中，我将阐述Google的Cloud TPUs (Tensor Processing Unit)的用途、特性、性能、适应性以及如何利用Cloud TPUs来训练大规模的深度卷积神经网络(CNN)。通过本篇博文，读者可以了解到TPU究竟是什么，它的...
CUDA 编程简介
2024-04-29 11:05

JarodYv的博客本文用尽量通俗的语言为大家讲解 GPU 的工作原理和 CUDA 异构编程。并用向量相加、矩阵相乘为例，演示了如何在 GPU 上用 CUDA 进行异构编程。
Python领域Gradio的错误处理与调试技巧
2025-04-13 06:40

Python编程之道的博客加载预训练模型：使用MobileNetV2加载预训练的ImageNet模型。定义分类函数：classify_image函数接收一个图像作为输入，首先对图像进行预处理，将其调整为模型所需的大小并进行归一化处理。然后使用模型进行预测，...
用deepseek学大模型04-模型与网络
2025-02-14 11:24

wyg_031113的博客目前已经学完深度学习的数学基础，开始学习各种模型和网络阶段，给出一个从简单到入门的，层层递进的学习路线。并给出学习每种模型需要的前置知识。增加注意力机制，bert, 大模型，gpt, transformer， MOE等流行的...
利用Ray在Python中加速深度学习训练
2025-05-10 04:56

Python编程之道的博客在深度学习领域，训练模型往往需要大量的计算资源和时间。随着数据集的不断增大和模型复杂度的提升，传统的单机训练方式已经难以满足需求。本文章的目的是介绍如何利用Ray这个强大的分布式计算框架在Python中加速...
第十二章_网络搭建及训练
2021-06-13 09:17

让我中个100万的博客文章目录第十二章网络搭建及训练12.1 TensorFlow12.1.1 TensorFlow是什么？12.1.2 TensorFlow的设计理念是什么？12.1.3 TensorFlow特点有哪些？1.高度的灵活性2.真正的可移植性3.多语言支持4.丰富的算法库5.完善的...
PyTorch搭建CNN网络之Pytorch
2020-07-25 03:36

小鱼丸细面~的博客 Pytorch是torch的python版本，是由Facebook开源的神经网络框架，专门针对 GPU 加速的深度神经网络（DNN）编程。Torch 是一个经典的对多维矩阵数据进行操作的张量（tensor ）库，在机器学习和其他
第十二章网络搭建及训练
2019-03-23 15:33

ljtyxl的博客目录常用框架介绍常用框架对比(表格展示) 16个最棒的深度...wfr=spider&for=pc 基于tensorfolw网络搭建实例 CNN训练注意事项训练技巧深度学习模型训练痛点及解决方法https://blog.csdn.net/weixin_405816...
C. PYTORCH 101 AN INTRODUCTION TO DEEP LEARNING USING PyTorch
2023-08-03 16:50

AI天才研究院的博客它使用 Cross-entropy loss 和 SGD optimization 来训练网络。 2.4.2 模型参数模型参数就是模型学习过程中自动更新的参数，它们是通过反向传播算法自动调整的。在第一次运行模型前，所有的模型参数都初始化为随机值...
超详细，搭建网络代码解析，使用PyTorch手动搭建AlexNet网络进行图像分类实践
2024-11-21 13:33

小郎君。的博客操作系统：Ubuntu 18.04 / Windows 10编程语言：Python 3.7+深度学习框架：PyTorch 1.6+编译器：IDE（如PyCharm）或Jupyter Notebook计算机硬件配置：NVIDIA GPU（如CUDA兼容的显卡）推荐，但CPU也可运行相关库：...
AI 系统全栈架构什么是 AI 系统 CPU、GPU、FPGA、ASIC PyTorch、MindSpore 系统设计目标高效编程语言、开发框架和工具链系统设计、实现和演化
2024-04-20 03:45

EwenWanW的博客它涵盖了从数据收集、预处理、模型训练、推理到最终应用部署的整个过程。AI系统的核心在于通过机器学习算法和深度学习模型，使计算机能够模拟人类的智能行为，从而实现自主决策、推理和识别等任务。硬件层包括高性能...
一文讲解：模型微调（fine-tune）
2025-04-12 14:57

AI大模型-海文的博客一、关于模型微调的一些基础知识1、模型微调（fine-tune）微调(fine-tune)通过使用在大数据上得到的预训练好的模型来初始化自己的模型权重，从而提升精度。这就要求预训练模型质量要有保证。微调通常速度更快、精度...
大白话5分钟带你走进人工智能-神经网络之tensorflow的前世今生和DAG原理图解
2019-10-20 15:31

蔚1的博客而 tensorflow是深度学习的重要语言，DAG原理图有助于更好的理解tensorflow的设计思想。我们的愿景是打造全网 AI 最通俗博客，赠人玫瑰，手有余香，在人工智能前行的路上一起前行。以通俗简介的方式，让每一位热爱....
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 5月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月13日

alexnet网络训练报错

2条回答 默认 最新

问题事件

2条回答默认最新