使用softmax二分类，正确率过低，将0，1互换后竟然是比较好的预测结果。

用softmax 做一个二分类，预测正确率为0.2左右，将预测结果的0，1互换后感觉才是比较理想的预测结果。可能是哪里出了问题？

这个神经网络（5层左右，隐藏层是reLU）的输出层用sigmoid的时候挺正常的。我只是把输出层改成了softmax，梯度下降的时候cost也在减小。

我试着将原始数据的0，1标签对换，没有用，正确率还是0.2左右。

代码有点长。下面是类代码

import numpy as np
from function_set.activate_functions import sigmoid, reLU, tanh, softmax  # eval()会用到，不删
from function_set.activate_differential import sigmoid_d, reLU_d, tanh_d  # eval（）会用到，不删


class neural_network:
    def __init__(self,
                 layer_num=3,
                 dim_num_list=None,
                 funct_list=None,
                 a_functs=("tanh", "sigmoid"),
                 reg="L2",
                 lambda_reg=0.0,
                 beta_momentum=0.9,
                 batch_size=-1,
                 keep_prob=1.0
                 ):
        self.funct_list = funct_list  # 激活函数列表，记录每一层的激活函数
        self.layer_num = layer_num  # 层数
        self.dim_num_list = dim_num_list  # 每一层的结点数
        self.a_functs = a_functs  # 激活函数名
        self.paras = dict()  # 保存参数 W,b
        self.cache = dict()  # 存储前向传播的数据，供反向传播使用
        self.reg = reg.upper()
        self.epsilon = 1e-8  # 精度，防止除0或log
        self.lambda_reg = lambda_reg  # L2正则化的lambda
        self.beta_momentum = beta_momentum  # 动量梯度下降法的超参数
        self.iter_cnt = 0  # 迭代计数, 用于momentum等优化
        self.batch_size = batch_size  # mini-batch的大小
        self.keep_prob = keep_prob  # dropout中的保持概率

    def init(self, X, Y):
        if not self.dim_num_list:
            self.dim_num_list = np.random.randint(30, 31, self.layer_num + 1)  # 默认维度为30
        else:
            self.layer_num = len(self.dim_num_list) - 1
        if not self.funct_list:
            self.funct_list = list()
            for i in range(0, self.layer_num):
                self.funct_list.append(self.a_functs[0])
            self.funct_list.append(self.a_functs[1])
        self.dim_num_list[0] = X.shape[0]
        self.dim_num_list[self.layer_num] = Y.shape[0]
        for i in range(1, self.layer_num + 1):
            self.cache["v_dW" + str(i)] = np.zeros((self.dim_num_list[i], self.dim_num_list[i - 1]))
            self.cache["v_db" + str(i)] = np.zeros((self.dim_num_list[i], 1))
        self.init_paras()

    def init_paras(self):
        for i in range(1, self.layer_num + 1):
            self.paras["W" + str(i)] = np.random.randn(self.dim_num_list[i], self.dim_num_list[i - 1])
            self.paras["b" + str(i)] = np.zeros(self.dim_num_list[i], float).reshape(-1, 1)

    def forward_propagate(self, X):
        self.cache["A0"] = X
        for i in range(1, self.layer_num + 1):
            self.cache["Z" + str(i)] = np.dot(self.paras["W" + str(i)], self.cache["A" + str(i - 1)])
            self.cache["A" + str(i)] = eval(self.funct_list[i])(self.cache["Z" + str(i)])
            if self.keep_prob < 1:  # dropout
                D = np.random.rand(self.cache["A" + str(i)].shape[0], self.cache["A" + str(i)].shape[1])
                D = (D < self.keep_prob) * 1
                self.cache["D" + str(i)] = D
                self.cache["A" + str(i)] = self.cache["A" + str(i)] * D / self.keep_prob

    def get_cost(self, Y):
        m = self.cache["A0"].shape[1]
        A = self.cache["A" + str(self.layer_num)]
        Z = self.cache["A" + str(self.layer_num)]
        cost1 = 0  # cost1为交叉熵
        loss_matrix = None
        if self.funct_list[self.layer_num] == "sigmoid":
            # loss_matrix = -Y * (np.maximum(Z, 0) - np.log(1 + np.exp(-np.abs(Z))))
            loss_matrix = np.maximum(Z, 0) - Z * Y + np.log(1 + np.exp(-np.abs(Z)))
        elif self.funct_list[self.layer_num] == "softmax":
            max_Z = np.max(Z, axis=0)
            loss_matrix = Y * (max_Z - Z + np.log(np.sum(np.exp(Z - max_Z), axis=0)))
        cost1 += (1 / m) * np.sum(np.sum(loss_matrix, axis=0), axis=0)
        cost2 = 0  # cost2 为正则项
        if self.reg == "L2":
            for i in range(1, self.layer_num + 1):
                cost2 += self.lambda_reg * np.sum(np.sum(self.paras["W" + str(i)] * self.paras["W" + str(i)], axis=0),
                                                  axis=0)
        else:
            pass
        cost = cost1 + cost2
        print("cost1 = ", cost1, "\tcost2=", cost2)
        return cost

    def backward_propagate(self, Y):
        A = self.cache["A" + str(self.layer_num)]
        m = A.shape[1]
        dA = (-1 / m) * Y * (1 / (A + self.epsilon))
        i = self.layer_num
        while (i > 0):
            function_name = self.funct_list[i]
            if (i == self.layer_num) and (function_name == "softmax" or function_name == "sigmoid"):
                dZ = (1 / m) * (A - Y)
            else:
                if self.keep_prob < 1:
                    dA = dA * self.cache["D" + str(i)] / self.keep_prob
                dZ = dA * eval(function_name + "_d")(self.cache["A" + str(i)], self.cache["Z" + str(i)])
            dW_reg = 2 * self.lambda_reg * self.paras["W" + str(i)]
            db_reg = 2 * self.lambda_reg * self.paras["b" + str(i)]
            self.cache["dW" + str(i)] = np.dot(dZ, self.cache["A" + str(i - 1)].T) + dW_reg
            self.cache["db" + str(i)] = np.sum(dZ, axis=1).reshape(-1, 1) + db_reg
            dA = np.dot(self.paras["W" + str(i)].T, dZ)
            i -= 1

    def update_parameters(self, learning_rate):
        for i in range(1, self.layer_num + 1):
            self.cache["v_dW" + str(i)] = self.beta_momentum * self.cache["v_dW" + str(i)] + (1 - self.beta_momentum) * \
                                          self.cache["dW" + str(i)]
            self.cache["v_db" + str(i)] = self.beta_momentum * self.cache["v_db" + str(i)] + (1 - self.beta_momentum) * \
                                          self.cache["db" + str(i)]
            self.cache["v_c_dW" + str(i)] = self.cache["v_dW" + str(i)] / (1 - self.beta_momentum ** self.iter_cnt)
            self.cache["v_c_db" + str(i)] = self.cache["v_db" + str(i)] / (1 - self.beta_momentum ** self.iter_cnt)
            self.paras["W" + str(i)] = self.paras["W" + str(i)] - learning_rate * self.cache["v_c_dW" + str(i)]
            self.paras["b" + str(i)] = self.paras["b" + str(i)] - learning_rate * self.cache["v_c_db" + str(i)]

    def fit(self, X, Y, learning_rate=0.5, iter_num=1000):
        self.init(X, Y)
        batch_generator = self.get_batch(X, Y)
        for X, Y in batch_generator:
            self.iter_cnt = 0
            for epoch in range(iter_num):
                self.iter_cnt += 1
                self.forward_propagate(X)
                cost = self.get_cost(Y)
                self.backward_propagate(Y)
                self.update_parameters(learning_rate)

    def predict_probability(self, X):
        self.forward_propagate(X)
        return self.cache["A" + str(self.layer_num)]

    def predict(self, X):
        probabilty = self.predict_probability(X)
        return self.map_to_int(probabilty)

    def get_batch(self, X, Y):  # mini-batch生成器
        m = X.shape[1]
        if self.batch_size == -1:
            self.batch_size = m
        batch_num = (m + self.batch_size - 1) // self.batch_size
        index_list = np.random.permutation(m)
        start = 0
        for i in range(batch_num):
            end = min(start + self.batch_size, m)
            yield X[:, index_list[start:end]], Y[:, index_list[start:end]]
            start = end

    def map_to_int(self, A):  # 概率转预测结果
        result = None  #
        if self.funct_list[self.layer_num] == "softmax":
            result = np.argmax(A, axis=0)
        elif self.funct_list[self.layer_num] == "sigmoid":
            result = (A >= 0.5) * 1
            result = result[0]
        return result

    def get_one_hot(self, y, class_num):  # 将整数类别转换为独热编码
        n = class_num
        m = len(y)
        result = np.zeros((n, m))
        for i in range(m):
            result[y[i]][i] = 1
        return result

下面是测试函数

def test(X_train, Y_train, X_test, Y_test):
    L = [2, 5, 5, 5, 5, 1]
    nn = neural_network(dim_num_list=L, a_functs=("reLU", "softmax"), batch_size=200)
    nn.fit(X_train, Y_train, learning_rate=0.1, iter_num=1000)
    result = nn.predict(X_test)
    print("result = ", result)
    y = Y_test[0]
    cnt = 0
    for e in range(len(y)):
        if result[e] == y[e]:
            cnt += 1
    print(cnt / len(y))

下面是激活函数代码

import numpy as np


def sigmoid(Z):
    positive_mask = (Z >= 0)
    negative_mask = Z < 0
    result_positive = 1 / (1 + np.exp(-Z * positive_mask))
    result_positive[~positive_mask] = 0
    result_negative = np.exp(Z * negative_mask) / (np.exp(Z * negative_mask) + 1)
    result_negative[~negative_mask] = 0
    result = result_negative + result_positive
    return result


def reLU(Z):
    return np.maximum(0, Z)


def tanh(Z):
    return np.tanh(Z)

def softmax(Z):
    max_Z = np.max(Z, axis=0)
    return np.exp(Z - max_Z) / np.sum(np.exp(Z - max_Z), axis=0)

下面是激活函数的微分代码：因为反向传播的时候并没有对softmax直接求导，所以就没有实现softmax_d函数


import numpy as np


def sigmoid_d(A, Z):
    return A * (1 - A)


def reLU_d(A ,Z):
    result = (Z > 0) * 1
    return result


def tanh_d(A, Z):
    return 1 - A * A


def softmax_d(A, Z):
    pass

下面是main函数代码：

from nn import neural_network, test
from deep_learning_course.course_1_3.planar_utils import load_planar_dataset


X_train, Y_train = load_planar_dataset()
X_train /= 4
# plt.scatter(X_train[0, :], X_train[1, :], c=Y_train, s=40, cmap=plt.cm.Spectral) #绘制散点图
# plt.show()
X_test, Y_test = load_planar_dataset()
X_test /= 4
Y_train = neural_network().get_one_hot(Y_train[0], 2)
Y_test = neural_network().get_one_hot(Y_test[0], 2)


test(X_train, Y_train, X_test, Y_test)

下面是planar_utils文件里的内容：

import matplotlib.pyplot as plt
import numpy as np
import sklearn
import sklearn.datasets
import sklearn.linear_model

def plot_decision_boundary(model, X, y):
    # Set min and max values and give it some padding
    x_min, x_max = X[0, :].min() - 1, X[0, :].max() + 1
    y_min, y_max = X[1, :].min() - 1, X[1, :].max() + 1
    h = 0.01
    # Generate a grid of points with distance h between them
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    # Predict the function value for the whole grid
    Z = model(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    # Plot the contour and training examples
    plt.contourf(xx, yy, Z, cmap=plt.cm.Spectral)
    plt.ylabel('x2')
    plt.xlabel('x1')
    plt.scatter(X[0, :], X[1, :], c=y, cmap=plt.cm.Spectral)


def sigmoid(Z):
    positive_mask = (Z >= 0)
    negative_mask = Z < 0
    result_positive = 1 / (1 + np.exp(-Z * positive_mask))
    result_positive[~positive_mask] = 0
    result_negative = np.exp(Z * negative_mask) / (np.exp(Z * negative_mask) + 1)
    result_negative[~negative_mask] = 0
    result = result_negative + result_positive
    return result

def load_planar_dataset():
    # np.random.seed(1)
    m = 400 # number of examples
    N = int(m/2) # number of points per class
    D = 2 # dimensionality
    X = np.zeros((m,D)) # data matrix where each row is a single example
    Y = np.zeros((m,1), dtype='uint8') # labels vector (0 for red, 1 for blue)
    a = 4 # maximum ray of the flower

    for j in range(2):
        ix = range(N*j,N*(j+1))
        t = np.linspace(j*3.12,(j+1)*3.12,N) + np.random.randn(N)*0.2 # theta
        r = a*np.sin(4*t) + np.random.randn(N)*0.2 # radius
        X[ix] = np.c_[r*np.sin(t), r*np.cos(t)]
        Y[ix] = j

    X = X.T
    Y = Y.T

    return X, Y

def load_extra_datasets():  
    N = 200
    noisy_circles = sklearn.datasets.make_circles(n_samples=N, factor=.5, noise=.3)
    noisy_moons = sklearn.datasets.make_moons(n_samples=N, noise=.2)
    blobs = sklearn.datasets.make_blobs(n_samples=N, random_state=5, n_features=2, centers=6)
    gaussian_quantiles = sklearn.datasets.make_gaussian_quantiles(mean=None, cov=0.5, n_samples=N, n_features=2, n_classes=2, shuffle=True, random_state=None)
    no_structure = np.random.rand(N, 2), np.random.rand(N, 2)

    return noisy_circles, noisy_moons, blobs, gaussian_quantiles, no_structure

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
迪菲赫尔曼人工智能领域优质创作者 2022-07-26 05:56
关注
改成softmax后没有重新训练吗

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

softmax不知道哪里写错了，二分类预测的正确率为0.1左右。不知道哪里反了 python 深度学习神经网络
2022-07-27 18:30

回答 1 已采纳很明显你训练的时候标注的和验证时标注的是反的调整一下就可以了 0 看做1 1 看做0 就好
softmax分类器，分类概率都是nan是怎么回事？ python
2018-04-13 07:14

回答 3 已采纳你的测试准确率有问题，还不如随机分类的准确率，你在看一下。出现nan的原因可能是：真是label为[1,0]，预测的label是[0,1]，这样反向传播的weight和bias会无穷大，可能的解决
softmax之后值不在0-1之间是为什么 pytorch 深度学习
2023-02-25 22:21

回答 3 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵsoftmax函数是用于将输入转换为概率分布的函数。在输出结果中，每个元素都应该是介于0到1之间的值。但是，由于计算机内部浮点数的精度问题，在使用softmax函数时可能会
深度学习入门:如何从零开始搭建自己的深度学习模型?
2023-08-13 00:37

AI天才研究院的博客作为一名AI科研工作者，了解、掌握深度学习相关知识可以帮助你更好地理解并解决实际问题。本文将全面介绍深度学习的基础知识、技术要点及其应用。文章的内容涵盖：1.深度学习的历史演变2.深度学习的基本概念和术语3....
softmax到底该怎么使用 cnn python 深度学习
2022-12-10 13:34

回答 1 已采纳望采纳在深度学习中，softmax函数是一种常用的分类函数，它可以将输入的多个数值映射到一个0到1之间的概率分布。通常，在神经网络中，softmax函数会被用作输出层的激活函数，用来对多分类问题进行预
多分类softmax问题使用binary_crossentropy tensorflow 人工智能机器学习深度学习神经网络
2020-05-26 15:57

回答 1 已采纳不知道你什么结果高很多，是loss高，还是acc高。一南一北两回事了。
网上找到的densenet分类的代码运行以后训练数据的准确率很高测试数据的准确率一直很低 python tensorflow 有问必答深度学习
2021-06-06 10:50

回答 5 已采纳 train_acc和val_acc在这3个epoch都是在增长的，从网上直接下载的代码精度一个是0.9+，一个0.6+也算是正常的。接下来就需要题主针对自己的数据集找特点进行网络调参，或者数据预处理的
自动驾驶的“天眼”！聊一聊高精地图领域中所有主流的制作方案
2022-09-09 07:00

3Ｄ视觉工坊的博客点击上方“3D视觉工坊”，选择“星标”干货第一时间送达作者丨汽车人来源丨自动驾驶之心1自动驾驶中的高精地图生成技术在过去几年中，自动驾驶一直是最受欢迎和最具挑战性的话题之一。在实现完全自主的道路上，研究...
keras训练二分类模型acc一直0.5 loss一直是0.69怎么办? tensorflow 人工智能深度学习
2021-03-18 16:11

回答 2 已采纳帮你改了下代码，路径你自己再改改，验证集acc能跑到0.8以上了。 import os import tensorflow as tf from tensorflow.keras import S
手写数字识别，神经网络交叉商结果正确，正确率总是不变深度学习神经网络
2018-09-18 12:53

回答 3 已采纳 正确率是多少？如果保持在0.1左右，说明没有学习到（因为有10个分类，随机的权重识别出来正确概率就是0.1） Adam换成SGD，学习率设置小一点看看。调试下，输出下损失函数的损失率。
用pytorch写了一个经典的鸢尾花分类 pytorch 分类机器学习
2022-10-25 10:18

回答 2 已采纳尝试把batch size调小，或者学习率调小点试试。
全面理解搜索Query：当你在搜索引擎中敲下回车后，发生了什么？
2020-03-26 20:12

AI算法攻城狮的博客 1. 前言 Query理解（QU，Query Understanding），简单来说就是从词法、句法、语义三个层面对query进行结构化解析。这里query从广义上来说涉及的任务比较多，最常见的就是我们在搜索系统中输入的查询词，也可以是FAQ...
softmax回归的softmax运算与交叉熵损失函数 mxnet python 机器学习
2022-08-03 20:22

回答 1 已采纳数值不稳定应该是说指数爆炸的问题，exp(50)可能编译器还能给你计算出来，那exp(5000)呢？此时python下面一般是返回inf。那么交叉熵损失函数里面的log(inf) 结果也是inf，这就
吴恩达deeplearning.ai系列课程笔记+编程作业(14)序列模型(Sequence Models)-第二周自然语言处理与词嵌入
2019-04-03 22:25

geekxiaoz的博客第二周自然语言处理与词嵌入（Natural Language Processing and Word Embeddings）文章目录第五门课序列模型(Sequence Models)第二周自然语言处理与词嵌入（Natural Language Processing and Word Embeddings）...
第二周自然语言处理与词嵌入（Natural Language Processing and Word Embeddings）
2021-02-12 22:57

aJupyter的博客文章目录第二周自然语言处理与词嵌入（Natural Language Processing and Word Embeddings）2.1 词汇表征（Word Representation）2.2 使用词嵌入（Using Word Embeddings）2.3 词嵌入的特性（Properties of Word ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 7月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月25日

悬赏问题

¥20 指导如何跑通以下两个Github代码
¥15 大家知道这个后备文件怎么删吗，为啥这些文件我只看到一份，没有后备呀
¥15 C++为什么这个代码没报错运行不出来啊
¥15 一道ban了很多东西的pyjail题
¥15 关于#r语言#的问题：如何将生成的四幅图排在一起，且对变量的赋值进行更改，让组合的图漂亮、美观@（相关搜索：森林图）
¥15 C++识别堆叠物体异常
¥15 微软硬件驱动认证账号申请
¥15 GPT写作提示指令词
¥20 根据动态演化博弈支付矩阵完成复制动态方程求解和演化相图分析等
¥15 华为超融合部署环境下RedHat虚拟机分区扩容问题

使用softmax二分类，正确率过低，将0，1互换后竟然是比较好的预测结果。

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新