tf.keras 关于胶囊网络 capsule的问题

from tensorflow.keras import backend as K
from tensorflow.keras.layers import Layer
from tensorflow.keras import activations
from tensorflow.keras import utils
from tensorflow.keras.models import Model
from tensorflow.keras.layers import *
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.callbacks import TensorBoard
import mnist
import tensorflow

batch_size = 128
num_classes = 10
epochs = 20

"""
压缩函数,我们使用0.5替代hinton论文中的1,如果是1，所有的向量的范数都将被缩小。
如果是0.5，小于0.5的范数将缩小，大于0.5的将被放大
"""
def squash(x, axis=-1):
    s_quared_norm = K.sum(K.square(x), axis, keepdims=True) + K.epsilon()
    scale = K.sqrt(s_quared_norm) / (0.5 + s_quared_norm)
    result = scale * x
    return result


# 定义我们自己的softmax函数，而不是K.softmax.因为K.softmax不能指定轴
def softmax(x, axis=-1):
    ex = K.exp(x - K.max(x, axis=axis, keepdims=True))
    result = ex / K.sum(ex, axis=axis, keepdims=True)
    return result


# 定义边缘损失，输入y_true, p_pred，返回分数，传入即可fit时候即可
def margin_loss(y_true, y_pred):
    lamb, margin = 0.5, 0.1
    result = K.sum(y_true * K.square(K.relu(1 - margin -y_pred))
    + lamb * (1-y_true) * K.square(K.relu(y_pred - margin)), axis=-1)
    return result


class Capsule(Layer):
    """编写自己的Keras层需要重写3个方法以及初始化方法
    1.build(input_shape):这是你定义权重的地方。
    这个方法必须设self.built = True，可以通过调用super([Layer], self).build()完成。
    2.call(x):这里是编写层的功能逻辑的地方。
    你只需要关注传入call的第一个参数：输入张量，除非你希望你的层支持masking。
    3.compute_output_shape(input_shape):
     如果你的层更改了输入张量的形状，你应该在这里定义形状变化的逻辑，这让Keras能够自动推断各层的形状。
    4.初始化方法,你的神经层需要接受的参数
    """
    def __init__(self,
                 num_capsule,
                 dim_capsule,
                 routings=3,
                 share_weights=True,
                 activation='squash',
                 **kwargs):
        super(Capsule, self).__init__(**kwargs)  # Capsule继承**kwargs参数
        self.num_capsule = num_capsule
        self.dim_capsule = dim_capsule
        self.routings = routings
        self.share_weights = share_weights
        if activation == 'squash':
            self.activation = squash
        else:
            self.activation = activation.get(activation)  # 得到激活函数

    # 定义权重
    def build(self, input_shape):
        input_dim_capsule = input_shape[-1]
        if self.share_weights:
            # 自定义权重
            self.kernel = self.add_weight(
                name='capsule_kernel',
                shape=(1, input_dim_capsule,
                       self.num_capsule * self.dim_capsule),
                initializer='glorot_uniform',
                trainable=True)
        else:
            input_num_capsule = input_shape[-2]
            self.kernel = self.add_weight(
                name='capsule_kernel',
                shape=(input_num_capsule, input_dim_capsule,
                       self.num_capsule * self.dim_capsule),
                initializer='glorot_uniform',
                trainable=True)
        super(Capsule, self).build(input_shape)  # 必须继承Layer的build方法

    # 层的功能逻辑(核心)
    def call(self, inputs):
        if self.share_weights:
            hat_inputs = K.conv1d(inputs, self.kernel)
        else:
            hat_inputs = K.local_conv1d(inputs, self.kernel, [1], [1])

        batch_size = K.shape(inputs)[0]
        input_num_capsule = K.shape(inputs)[1]
        hat_inputs = K.reshape(hat_inputs,
                               (batch_size, input_num_capsule,
                                self.num_capsule, self.dim_capsule))
        hat_inputs = K.permute_dimensions(hat_inputs, (0, 2, 1, 3))

        b = K.zeros_like(hat_inputs[:, :, :, 0])
        for i in range(self.routings):
            c = softmax(b, 1)
            o = self.activation(K.batch_dot(c, hat_inputs, [2, 2]))
            if K.backend() == 'theano':
                o = K.sum(o, axis=1)
            if i < self.routings-1:
                b += K.batch_dot(o, hat_inputs, [2, 3])
                if K.backend() == 'theano':
                    o = K.sum(o, axis=1)
        return o

    def compute_output_shape(self, input_shape):  # 自动推断shape
        return (None, self.num_capsule, self.dim_capsule)


def MODEL():
    input_image = Input(shape=(32, 32, 3))
    x = Conv2D(64, (3, 3), activation='relu')(input_image)
    x = Conv2D(64, (3, 3), activation='relu')(x)
    x = AveragePooling2D((2, 2))(x)
    x = Conv2D(128, (3, 3), activation='relu')(x)
    x = Conv2D(128, (3, 3), activation='relu')(x)
    """
    现在我们将它转换为(batch_size, input_num_capsule, input_dim_capsule)，然后连接一个胶囊神经层。模型的最后输出是10个维度为16的胶囊网络的长度
    """
    x = Reshape((-1, 128))(x)  # (None, 100, 128) 相当于前一层胶囊(None, input_num, input_dim)
    capsule = Capsule(num_capsule=10, dim_capsule=16, routings=3, share_weights=True)(x)  # capsule-（None,10, 16)
    output = Lambda(lambda z: K.sqrt(K.sum(K.square(z), axis=2)))(capsule)  # 最后输出变成了10个概率值
    model = Model(inputs=input_image, output=output)
    return model


if __name__ == '__main__':
    # 加载数据
    (x_train, y_train), (x_test, y_test) = mnist.load_data()
    x_train = x_train.astype('float32')
    x_test = x_test.astype('float32')
    x_train /= 255
    x_test /= 255
    y_train = tensorflow.keras.utils.to_categorical(y_train, num_classes)
    y_test = tensorflow.keras.utils.to_categorical(y_test, num_classes)

    # 加载模型
    model = MODEL()
    model.compile(loss=margin_loss, optimizer='adam', metrics=['accuracy'])
    model.summary()
    tfck = TensorBoard(log_dir='capsule')

    # 训练
    data_augmentation = True
    if not data_augmentation:
        print('Not using data augmentation.')
        model.fit(
            x_train,
            y_train,
            batch_size=batch_size,
            epochs=epochs,
            validation_data=(x_test, y_test),
            callbacks=[tfck],
            shuffle=True)
    else:
        print('Using real-time data augmentation.')
        # This will do preprocessing and realtime data augmentation:
        datagen = ImageDataGenerator(
            featurewise_center=False,  # set input mean to 0 over the dataset
            samplewise_center=False,  # set each sample mean to 0
            featurewise_std_normalization=False,  # divide inputs by dataset std
            samplewise_std_normalization=False,  # divide each input by its std
            zca_whitening=False,  # apply ZCA whitening
            rotation_range=0,  # randomly rotate images in 0 to 180 degrees
            width_shift_range=0.1,  # randomly shift images horizontally
            height_shift_range=0.1,  # randomly shift images vertically
            horizontal_flip=True,  # randomly flip images
            vertical_flip=False)  # randomly flip images

        # Compute quantities required for feature-wise normalization
        # (std, mean, and principal components if ZCA whitening is applied).
        datagen.fit(x_train)

        # Fit the model on the batches generated by datagen.flow().
        model.fit_generator(
            datagen.flow(x_train, y_train, batch_size=batch_size),
            epochs=epochs,
            validation_data=(x_test, y_test),
            callbacks=[tfck],
            workers=4)

以上为代码
运行后出现该问题
图片说明

用官方的胶囊网络keras实现更改为tf下的keras实现仍出现该错误。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-10-25 19:25
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
可以查看手册：tf.keras 中的内容

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

请问tensorflow中的tf.keras.models.Model和tf.keras.Model有什么区别啊？ keras tensorflow 深度学习
2022-10-27 20:21

回答 2 已采纳没有看过源码，但是我的使用经验告诉我这两个是一样的，很有可能是同一个代码封装了两个入口。
做mnist识别时出现错误 AttributeError: module 'keras.api._v2.keras' has no attribute 'train' keras tensorflow 神经网络
2022-09-19 20:31

回答 1 已采纳现在用的是tf2吧，那应该要这样子写tf.keras.optimizers.Adam
tensorflow.keras打开SGD的问题，如何解决？ keras python tensorflow 有问必答
2022-03-19 21:27

回答 3 已采纳是不是安装的模块版本不对
动态路由胶囊网络的tensorflow2实现
2021-12-29 16:42

Conitx的博客 胶囊网络是由Hiton在2017年提出，原文名为Dynamic Routing Between Capsules。该论文具体的内容和理解就不多说了，我最初也是从两个链接学习后，再看论文了解细节。不知道是不是我太菜了，Hiton的论文读起来比较费劲...
module 'tensorflow.keras.layers' has no attribute 'Normalization keras tensorflow 深度学习
2022-08-09 16:15

回答 2 已采纳你是tensorflow哪个版本？keras哪个版本？不说版本很难查问题。可以试下把Normalization改为normalization试下可以试下把tensorflow.keras.layers
tensorflow.keras训练模型预测问题 keras python tensorflow
2023-03-04 11:08

回答 2 已采纳这种情况可能是由于模型在训练过程中出现了过拟合的现象。过拟合通常是指模型在训练集上表现很好，但在测试集上表现不佳的情况。在训练过程中，模型过度适应了训练集的噪声和特定的样本，从而导致了 val_los
tensorflow.keras训练问题 keras python tensorflow
2023-03-05 18:39

回答 2 已采纳尝试一下调整参数吧，或者加层数试试
关于胶囊之间的动态路由的理解（基于Hinton的胶囊网络）
2018-02-28 21:02

Grant_Ward的博客在这篇文章中，我们将描述胶囊的基本概念，并应用胶囊网络（capsnet）检测MNIST数据集中的数字。在本文最后的第三部分中，我们对其做一个具体的实现。代码实现来源于xifengguo，基于Tensorflow的Keras。 CNN所...
tensorflow.keras训练周期所需时间增加 keras python tensorflow
2023-03-06 13:59

回答 2 已采纳这种情况有时也会遇到，可能是开的程序太多，后台程序对内存和磁盘资源的占用。
tensorflow.keras训练预测模型输出一直都是直线 keras python tensorflow
2023-03-06 22:21

回答 3 已采纳可能是因为模型训练不充分或者数据集不够多造成的，可以尝试增加训练次数或者增加数据集来提高模型的准确性。同时，也可以检查一下模型的结构和参数是否设置合理。
关于#python#的问题：data.files python 神经网络
2022-11-29 17:16

回答 1 已采纳没有查到对应的files方法，不知你要的是不是tofile()方法
python实现胶囊网络_在TensorFlow中实现胶囊网络
2021-02-10 08:52

emi0wb的博客点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达我们都知道，在许多计算机视觉任务中，卷积神经网络(CNN)的性能均优于人类。所有基于CNN的模型都具有与卷积层相同的基本体系结构，其后是...
keras model.predict_classes() 问题机器学习深度学习神经网络
2018-12-25 14:24

回答 1 已采纳好吧我自己解答吧，用model.predict（）然后用np.argmax ()转一下就好了
人工智能|各名称与概念之介绍
2024-03-04 07:00

严振杰的博客总的来说，我个人比较推荐TensorFlow和PyTorch，它们都是完整的深度学习框架，支持广泛的应用，并且它们的社区和工具都在不断...而Keras提供了一个用户友好的接口，使得深度学习更加容易上手，是学习和快速开发的首选。
在流中抛出张量_在张量流中实现胶囊网络
2020-09-20 17:07

weixin_26714375的博客为了解决该问题，Hinton提出了胶囊网络的思想和一种称为“ 胶囊之间动态路由 ”的算法。许多资源已经说明了模型的直觉和体系结构。您可以在此处的一系列博客文章中查看它们。 In this post, I have explained ...
没有解决我的问题, 去提问

悬赏问题

¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler
¥15 关于#python#的问题：自动化测试

tf.keras 关于 胶囊网络 capsule的问题

1条回答 默认 最新

悬赏问题

tf.keras 关于胶囊网络 capsule的问题

1条回答默认最新