BP网络不收敛，python


import numpy as np
import torch
import globals
import math
import torch.nn as nn
import torch.optim as optim
import torch.multiprocessing as mp
from OrbitPredict import *
import random
from datetime import datetime, timedelta
import os
import torch.nn.utils as nn_utils

'''
测试高精度函数代码
'''
# x0 = [42166,0,0,0,3.07459,0]
# startTime = np.array([2019,1,1,0,0,0])
# globals.orbitModel = 'HPOP'
# Predict = OrbitPredict()
# x,_ = Predict.OrbitPrediction(x0,360,60,[1 ,1],'RK7',startTime);
#
# print(x)
'''
构造网络
'''
class IntegralNetwork(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(IntegralNetwork, self).__init__()
        self.fc1 = nn.Linear(input_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        self.fc3 = nn.Linear(hidden_dim, hidden_dim)
        self.fc4 = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = torch.relu(self.fc3(x))
        x = torch.sigmoid(self.fc4(x))
        return x*200
    def save(self, file_path):
        torch.save(self.state_dict(), file_path)
'''
生成时间数据
'''
def random_time():
    # 生成随机的小时、分钟、秒数
    hour = random.randint(0, 23)
    minute = random.randint(0, 59)
    second = random.randint(0, 59)

    # 生成一个随机的日期，假设范围是最近的30天内
    today = datetime.now()
    random_days = random.randint(0, 29)
    random_date = today - timedelta(days=random_days)

    # 构建datetime对象
    random_datetime = torch.tensor([random_date.year, random_date.month, random_date.day,
        hour, minute, second])

    return random_datetime
''''
训练代码
'''
def train(ranks,epochs,integral_model, integral_optimizer):
    Predict = OrbitPredict()
    for rank in range(ranks):
        # 随机给出卫星的轨道数据，六根数据
        RAAN = np.random.randint(0, 180)
        inclination = np.random.randint(0, 180)
        x0 = torch.tensor([30000 + np.random.randint(0, 15000), random.random(), inclination, RAAN, np.random.randint(0, 360),
               np.random.randint(0, 360)])
        # 随机给出时间数据
        time = np.random.randint(1, 10)*60
        step = 60
        # 随机给出开始时间数据
        startTime = random_time()
        input = np.concatenate((x0, startTime))
        input = np.append(input, time)
        
        final_position = torch.tensor(100, dtype=torch.float64, requires_grad=True)
        for epoch in range(epochs):

            # integral_optimizer.zero_grad()

            output = integral_model(torch.tensor(input, dtype=torch.float))

            integral_loss = torch.sum((final_position - output)**2)

            # print(integral_loss.requires_grad)
            if epoch % 100 == 0:

                print(f"Process {rank}, Epoch {epoch}, Loss: {integral_loss.item()}")
                # 打印模型参数的梯度
                for name, param in integral_model.named_parameters():
                    if param.grad is not None:
                        print(f"Parameter: {name}, Gradient: {param.grad}")#全是0
                    else:
                        print(f"Parameter: {name}, Gradient: None")

                if rank % 100 ==0:
                    print(f"Process {rank}, Epoch {epoch}, Loss: {integral_loss.item()}")
                    checkpoint_path = "model_{}.pth".format(rank)
                    integral_model.save(checkpoint_path)


            integral_loss.backward(retain_graph=True)
            nn_utils.clip_grad_norm_(integral_model.parameters(), max_norm=10.0)  # max_norm为裁剪的最大范数
            integral_optimizer.step()


device = "cuda" if torch.cuda.is_available() else "cpu"

input_dim = 13
hidden_dim = 256
output_dim = 1
integral_model = IntegralNetwork(input_dim, hidden_dim, output_dim)
integral_model.to(device)
integral_optimizer = optim.Adam(integral_model.parameters(), lr=0.01)

train(100,1000000,integral_model,integral_optimizer)

问题：不知道这个代码为啥loss是10000，但是梯度是0？导致收敛不了
loss是10000是因为输入是100，100的平方是10000，也就是说我的神经网络输出是0

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

Seal^_^ 云原生领域优质创作者 2024-03-19 12:57

关注

在你提供的代码中，神经网络的输出是经过 sigmoid 函数处理的，然后乘以 200。由于 sigmoid 函数的性质，当输入的值很大或很小时，它的输出会趋近于 0 或 1。在这种情况下，如果神经网络输出接近于 0，那么乘以 200 后仍然会非常接近于 0，这也解释了为什么你得到的 loss 是 10000。

至于梯度为0的问题，可能是由于梯度消失的原因导致的。在神经网络训练过程中，梯度消失是一个常见的问题，特别是在使用 sigmoid 激活函数时，当输出接近于 0 或 1 时，梯度会变得非常小，甚至趋近于 0，这会导致网络参数无法更新，从而影响收敛。

以下是经过优化的完整代码，其中包括了使用ReLU激活函数、调整学习率、参数初始化等优化方法：

import numpy as np
import torch
import math
import torch.nn as nn
import torch.optim as optim
import random
from datetime import datetime, timedelta
import torch.nn.utils as nn_utils

'''
构造网络
'''
class IntegralNetwork(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(IntegralNetwork, self).__init__()
        self.fc1 = nn.Linear(input_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        self.fc3 = nn.Linear(hidden_dim, hidden_dim)
        self.fc4 = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = torch.relu(self.fc3(x))
        x = self.fc4(x)
        return x * 200

'''
生成时间数据
'''
def random_time():
    hour = random.randint(0, 23)
    minute = random.randint(0, 59)
    second = random.randint(0, 59)

    today = datetime.now()
    random_days = random.randint(0, 29)
    random_date = today - timedelta(days=random_days)

    random_datetime = torch.tensor([random_date.year, random_date.month, random_date.day, hour, minute, second])

    return random_datetime

''''
训练代码
'''
def train(ranks, epochs, integral_model, integral_optimizer):
    for rank in range(ranks):
        RAAN = np.random.randint(0, 180)
        inclination = np.random.randint(0, 180)
        x0 = torch.tensor([30000 + np.random.randint(0, 15000), random.random(), inclination, RAAN, np.random.randint(0, 360),
               np.random.randint(0, 360)])
        
        startTime = random_time()
        time = np.random.randint(1, 10) * 60
        input_data = torch.cat((x0, startTime), dim=0)
        input_data = torch.cat((input_data, torch.tensor([time], dtype=torch.float)), dim=0)
        
        final_position = torch.tensor(100, dtype=torch.float64, requires_grad=True)
        for epoch in range(epochs):

            integral_optimizer.zero_grad()

            output = integral_model(input_data)

            integral_loss = torch.sum((final_position - output)**2)

            if epoch % 100 == 0:
                print(f"Process {rank}, Epoch {epoch}, Loss: {integral_loss.item()}")

            integral_loss.backward()
            nn_utils.clip_grad_norm_(integral_model.parameters(), max_norm=5.0)
            integral_optimizer.step()

device = "cuda" if torch.cuda.is_available() else "cpu"

input_dim = 13
hidden_dim = 256
output_dim = 1
integral_model = IntegralNetwork(input_dim, hidden_dim, output_dim)
integral_model.to(device)

integral_optimizer = optim.Adam(integral_model.parameters(), lr=0.001)

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.xavier_uniform_(m.weight)

integral_model.apply(init_weights)

train(100, 1000000, integral_model, integral_optimizer)

对神经网络进行了优化，包括使用了ReLU激活函数、调整了学习率、使用了Xavier初始化，并增加了梯度裁剪。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

Python BP神经网络两分类反向传播代码问题 python 分类有问必答神经网络
2022-03-17 01:20

回答 2 已采纳反向传播部分计算公式是对的吴恩达深度学习第二次作业_牛客博客带有一个隐藏层的平面数据分类解释一下，就是一个二维平面有两种不同的花色，我
求python3代码（利用bp神经网络计算评价结果） python 有问必答神经网络
2021-06-11 18:22

回答 4 已采纳这个需要问主提供具体的数据，后面可以使用多层感知机等方法对数据进行拟合。划分等级的话可以用聚类相关算法完成
BP神经网络对新数据进行预测 python 有问必答神经网络
2021-07-01 21:07

回答 1 已采纳训练数据集默认代表所有数据集的分布（采样原则），所以训练集如何归一化，那么预测就如何操作。如果训练集分布不能代表所有数据集分布，需要进行定向数据增强或者增加训练集样本。1）常规的分类，直接减均值除以方
PSO优化的BP神经网络——python实现
2021-07-01 22:07

标题"PSO优化的BP神经网络——python实现"表明这是一个使用Python编程语言实现的项目，其中融合了两种技术：粒子群优化（PSO）和反向传播（BP）神经网络。PSO是一种全局优化算法，常用于解决复杂的优化问题，而BP...
bp神经网络怎么实际应用啊？Python python 神经网络
2018-10-20 10:00

回答 2 已采纳解决了。。。。。。。
如何将训练好的BP神经网络模型保存并可以在其他py文件中直接调用？ python 有问必答机器学习神经网络
2021-06-09 10:53

回答 2 已采纳这个需要建立字典封装起来
神经网络训练集添加高斯噪声 python 开发语言神经网络
2021-02-01 11:00

回答 1 已采纳 1，如果网路中使用了normalization层，则不需要重新归一化； 2，如果不放心，可以使用“截断”，让小于0的变成0，大于1的变成1即可。
BP神经网络实例及代码分析(python+tensorflow),bp神经网络例子,Python
2021-09-10 16:37

本教程将通过Python编程语言和TensorFlow库来深入探讨BP神经网络的实现。 **一、BP神经网络的基本原理** BP神经网络的核心思想是通过反向传播误差来调整网络权重，以最小化预测输出与实际目标之间的差距。它包含三...
请问一下BP神经网络为什么每次训练的结果都不一样？而且差距还挺大吗？神经网络
2022-04-17 20:00

回答 1 已采纳因为每次拟合出来的模型都不一样，还有跟你设置的超参数有关
基于BP神经网络使用matlab进行预测 matlab 神经网络
2022-04-21 21:24

回答 1 已采纳就算不用到newff工具，至少也需要用到一种框架，否则利用最简单的优化方式光求导就会把人逼疯，这里我有一篇文章是关于BP神经网络的https://blog.csdn.net/qq_18560985/a
bp神经网络各层激活函数的选择 matlab 有问必答神经网络问答团队
2021-05-25 18:45

回答 2 已采纳以下是我想出来的几个思路用于重新考虑你自己的神经网络。 1. 你用了几层神经网络？一层神经网络很可能无法解决异或等线性不可分问题，多层神经网络加上非线性激活函数可以解决这一问题。 2. 你是自己手
BP神经网络源码（python实现）
2020-12-03 15:41

Python作为现代数据科学的主要编程语言，为实现BP神经网络提供了丰富的库和工具，如TensorFlow、Keras和PyTorch等。本资料提供的"BP神经网络源码（python实现）"是一个纯Python编写的神经网络模型，它允许用户根据...
用BP神经网络进行预测，loss比较小，但预测值跟实际值相差较大，怎么办 keras python 有问必答神经网络
2021-07-19 21:04

回答 1 已采纳首先怀疑过拟合, 减少迭代次数, 像这种非常简单的数据拟合, 完全不需要200这么大的周期, 一般30-50个足够
Python使用numpy实现BP神经网络
2020-09-20 17:33

在实现BP神经网络时，numpy能帮助我们方便地完成矩阵运算，这是神经网络中不可或缺的一部分。基于给定文件的内容，我们可以总结出以下几点关键知识点： 1. BP神经网络模型的构成和实现步骤：首先，模型由输入层、...
基于python的BP神经网络优化MNIST数据集算法设计与实现
2022-05-01 11:07

在本项目中，我们主要探讨的是如何利用Python编程语言来设计和实现一个基于BP（Backpropagation）神经网络的优化算法，以处理经典的MNIST手写数字识别数据集。MNIST数据集是机器学习领域中广泛使用的基准，用于训练...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月19日

悬赏问题

¥15 已知平面坐标系（非直角坐标系）内三个点的坐标，反求两坐标轴的夹角
¥15 数据量少可以用MK趋势分析吗
¥15 使用VH6501干扰RTR位，CANoe上显示的错误帧不足32个就进入bus off快慢恢复，为什么？
¥15 大智慧怎么编写一个选股程序
¥100 python 调用 cgps 命令获取实时位置信息
¥15 两台交换机分别是trunk接口和access接口为何无法通信，通信过程是如何？
¥15 C语言使用vscode编码错误
¥15 用KSV5转成本时，如何不生成那笔中间凭证
¥20 ensp怎么配置让PC1和PC2通讯上
¥50 有没有适合匹配类似图中的运动规律的图像处理算法

BP网络不收敛，python

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新