Pytorch 求二阶导数结果总是为零？

我用pytorch的autograd求output对input的二阶导数，结果总是0。

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

class MTLModel(nn.Module):
    def __init__(self, input_size, hidden_sizes, num_tasks):
        super(MTLModel, self).__init__()
        self.shared_layers = nn.Sequential(
            nn.Linear(input_size, hidden_sizes[0]),
            nn.ReLU()
        )
        for i in range(len(hidden_sizes) - 1):
            self.shared_layers.add_module(f'hidden_layer_{i+1}', nn.Linear(hidden_sizes[i], hidden_sizes[i+1]))
            self.shared_layers.add_module(f'relu_{i+1}', nn.ReLU())

        self.task_specific_layers = nn.ModuleList()
        for i in range(num_tasks):
            self.task_specific_layers.append(nn.Linear(hidden_sizes[-1], 1))

    def forward(self, x):
        shared_output = self.shared_layers(x)
        task_outputs = []
        for task_layer in self.task_specific_layers:
            task_output = task_layer(shared_output)
            task_outputs.append(task_output)
        return task_outputs

# Define the training function
def train(model, train_data, train_targets, num_epochs, batch_size, learning_rate, alpha, gamma):
    criterion = nn.MSELoss()
    optimizer = optim.Adam(model.parameters(), lr=learning_rate)

    num_batches = len(train_data) // batch_size

    for epoch in range(num_epochs):
        epoch_loss = 0.0
        epoch_monotonicity_penalty = 0.0*np.ones(train_targets.shape[1])
        epoch_slope_penalty = 0.0
        epoch_output2_constraint_penalty = 0.0
        epoch_output3_constraint_penalty = 0.0
        epoch_slope_penalty = 0.0
        for batch in range(num_batches):
            batch_data = train_data[batch*batch_size:(batch+1)*batch_size]
            batch_targets = train_targets[batch*batch_size:(batch+1)*batch_size]
            batch_data = torch.tensor(batch_data, dtype=torch.float32, requires_grad=True)  # set requires_grad to True
            batch_targets = torch.tensor(batch_targets, dtype=torch.float32)
            optimizer.zero_grad()
            task_outputs = model(batch_data)
            task_gradients = []
            task_gradient2s = []
            task_losses = []
            for i, task_output in enumerate(task_outputs):
                task_loss = criterion(task_output.squeeze(), batch_targets[:,i])
                task_losses.append(task_loss)
                
                # Apply the monotonicity constraint
                task_gradient, = torch.autograd.grad(task_output.sum(), batch_data, create_graph=True, retain_graph=True)
                monotonicity_penalty = -task_gradient.mean().clamp(min=0.0)
                task_loss += alpha[i] * monotonicity_penalty
                epoch_monotonicity_penalty[i] += monotonicity_penalty.item()
                
                task_gradient2, = torch.autograd.grad(task_gradient.sum(), batch_data, create_graph=True, retain_graph=True)
                
                print('1st gradient\n',task_gradient)
                print('2nd gradient\n',task_gradient2)
                
            loss = sum(task_losses)
            loss.backward()
            optimizer.step()
            epoch_loss += loss.item()
            
        print('Epoch %d Loss: %.4f Slope Penalty: %.4f ' % (epoch+1, epoch_loss/num_batches, epoch_slope_penalty))
        print('epoch_monotonicity_penalty',epoch_monotonicity_penalty)
#%%
# Generate random data
num_samples = 100
num_features = 1
np.random.seed(100)
data = np.linspace(0, 1, num=num_samples).reshape(num_samples,1)
targets = np.zeros((num_samples, 3))
targets[:,0] = -0.5+0.5*np.cos(data[:,0]) + 0.2*data[:,0]**2+0.1*np.random.normal(size=(num_samples))
targets[:,1] = data[:,0]**3 + 0.1*np.random.normal(size=(num_samples))
targets[:,2] = 2*data[:,0]**4 + 0.1*np.random.normal(size=(num_samples))


# Define the model
input_size = num_features
hidden_size = [64,128,64]
num_tasks = 3
model = MTLModel(input_size, hidden_size, num_tasks)

# Define the training parameters
num_epochs = 200
batch_size = 32
learning_rate = 0.001
alpha = [0,0,0] #[0,0,0]

gamma = 0

# Train the model
train(model, data, targets, num_epochs, batch_size, learning_rate, alpha, gamma)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

10条回答

Leodong. 2023-04-23 11:15

关注

该回答通过自己思路及引用到GPTᴼᴾᴱᴺᴬᴵ搜索,得到内容具体如下：
通过仔细观察代码，我发现二阶导数为零的原因在于在计算二阶导数时，只对第一个输出进行了计算，而没有对其他输出进行计算。具体来说，在代码中的以下这行：

task_gradient2, = torch.autograd.grad(task_gradient.sum(), batch_data, create_graph=True, retain_graph=True)

只对task_gradient的和进行了二阶导数计算，而没有对其他输出的梯度进行计算。因此，需要对所有输出的梯度进行计算，并将它们的二阶导数累加起来，才能得到正确的结果。

为了修复这个问题，需要对代码进行如下修改：

for i, task_output in enumerate(task_outputs):
    task_loss = criterion(task_output.squeeze(), batch_targets[:,i])
    task_losses.append(task_loss)

    # Apply the monotonicity constraint
    task_gradient, = torch.autograd.grad(task_output.sum(), batch_data, create_graph=True, retain_graph=True)
    monotonicity_penalty = -task_gradient.mean().clamp(min=0.0)
    task_loss += alpha[i] * monotonicity_penalty
    epoch_monotonicity_penalty[i] += monotonicity_penalty.item()

    # Compute the second-order gradient for all outputs
    task_gradients.append(task_gradient)
    task_gradient2, = torch.autograd.grad(task_gradient.sum(), batch_data, create_graph=True, retain_graph=True)
    task_gradient2s.append(task_gradient2)

# Compute the final loss and backpropagate
task_gradients = torch.stack(task_gradients, dim=0)
task_gradient2s = torch.stack(task_gradient2s, dim=0)
loss = sum(task_losses)
loss.backward()

# Compute the second-order derivative for all outputs
task_gradients2 = torch.autograd.grad(task_gradients, batch_data, grad_outputs=task_gradient2s, create_graph=True, retain_graph=True)

在修改后的代码中，我们首先定义了两个新的列表task_gradients和task_gradient2s，用于存储所有输出的一阶梯度和二阶梯度。在每个任务完成一阶梯度和二阶梯度的计算后，将它们分别添加到相应的列表中。然后，在完成所有任务的一阶梯度和二阶梯度的计算后，我们使用torch.stack()函数将它们分别堆叠成张量，以便进行后续的二阶导数计算。最后，我们使用torch.autograd.grad()函数计算所有输出的二阶导数，并将它们存储在task_gradients2列表中。

修改后的完整代码如下：

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

class MTLModel(nn.Module):
    def __init__(self, input_size, hidden_sizes, num_tasks):
        super(MTLModel, self).__init__()
        self.shared_layers = nn.Sequential(
            nn.Linear(input_size, hidden_sizes[0]),
            nn.ReLU()
        )
        for i in range(len(hidden_sizes) - 1):
            self.shared_layers.add_module(f'hidden_layer_{i+1}', nn.Linear(hidden_sizes[i], hidden_sizes[i+1]))
            self.shared_layers.add_module(f'relu_{i+1}', nn.ReLU())

        self.task_specific_layers = nn.ModuleList()
        for i in range(num_tasks):
            self.task_specific_layers.append(nn.Linear(hidden_sizes[-1], 1))

    def forward(self, x):
        shared_output = self.shared_layers(x)
        task_outputs = []
        for task_layer in self.task_specific_layers:
            task_output = task_layer(shared_output)
            task_outputs.append(task_output)
        return task_outputs

# Define the training function
def train(model, train_data, train_targets, num_epochs, batch_size, learning_rate, alpha, gamma):
    criterion = nn.MSELoss()
    optimizer = optim.Adam(model.parameters(), lr=learning_rate)

    # Initialize the monotonicity penalty for each task
    epoch_monotonicity_penalty = [0.0] * len(alpha)

    for epoch in range(num_epochs):
        # Shuffle the data
        num_samples = train_data.shape[0]
        permutation = np.random.permutation(num_samples)
        train_data = train_data[permutation]
        train_targets = train_targets[permutation]

        # Train the model in batches
        for batch_start in range(0, num_samples, batch_size):
            batch_end = batch_start + batch_size
            batch_data = torch.tensor(train_data[batch_start:batch_end], dtype=torch.float32)
            batch_targets = torch.tensor(train_targets[batch_start:batch_end], dtype=torch.float32)

            # Forward pass
            task_outputs = model(batch_data)
            task_losses = []
            task_gradients = []
            task_gradient2s = []
            for i, task_output in enumerate(task_outputs):
                task_loss = criterion(task_output.squeeze(), batch_targets[:,i])
                task_losses.append(task_loss)

                # Apply the monotonicity constraint
                task_gradient, = torch.autograd.grad(task_output.sum(), batch_data, create_graph=True, retain_graph=True)
                monotonicity_penalty = -task_gradient.mean().clamp(min=0.0)
                task_loss += alpha[i] * monotonicity_penalty
                epoch_monotonicity_penalty[i] += monotonicity_penalty.item()

                # Compute the first-order gradient for all outputs
                task_gradients.append(task_gradient)

                # Compute the second-order gradient for all outputs
                task_gradient2, = torch.autograd.grad(task_gradient.sum(), batch_data, create_graph=True, retain_graph=True)
                task_gradient2s.append(task_gradient2)

            # Compute the final loss and backpropagate
            task_gradients = torch.stack(task_gradients, dim=0)
            task_gradient2s = torch.stack(task_gradient2s, dim=0)
            loss = sum(task_losses)
            loss.backward()

            # Compute the second-order derivative for all outputs
            task_gradients2 = torch.autograd.grad(task_gradients, batch_data, grad_outputs=task_gradient2s, create_graph=True, retain_graph=True)

            # Apply the monotonicity constraint on the second-order derivative
            for i, task_gradient2 in enumerate(task_gradients2):
                monotonicity_penalty = -task_gradient2.mean().clamp(min=0.0)
                loss += gamma[i] * monotonicity_penalty
                epoch_monotonicity_penalty[i] += monotonicity_penalty.item()

            # Update the model parameters
            optimizer.step()
            optimizer.zero_grad()

        # Print the epoch loss and monotonicity penalty
        epoch_loss = loss.item()
        print(f'Epoch {epoch+1}/{num_epochs}, Loss: {epoch_loss:.4f}', end='')
        for i, penalty in enumerate(epoch_monotonicity_penalty):
            print(f', Task {i+1} Monotonicity Penalty: {penalty:.4f}', end='')
            epoch_monotonicity_penalty[i] = 0.0
        print()

# Generate synthetic data
np.random.seed(0)
input_size = 1
hidden_sizes = [10, 10, 10]
num_tasks = 3
num_samples = 1000
batch_size = 32
learning_rate = 0.001
num_epochs = 100
alpha = [0.1, 0.1, 0.1]
gamma = [0.01, 0.01, 0.01]

train_data = np.random.uniform(0.0, 1.0, size=(num_samples, input_size))
train_targets = np.zeros((num_samples, num_tasks))
for i in range(num_tasks):
    train_targets[:,i] = np.sin(train_data[:,0] * (2*np.pi*(i+1))) + np.random.normal(0.0, 0.1, size=num_samples)

# Train the model
model = MTLModel(input_size, hidden_sizes, num_tasks)
train(model, train_data, train_targets, num_epochs, batch_size, learning_rate, alpha, gamma)

如果以上回答对您有所帮助，点击一下采纳该答案～谢谢

报告相同问题？

关注问题

pytorch的梯度图与autograd.grad和二阶求导
2024-03-08 23:58

SCLchuck的博客探究pytorch如何形成梯度图，每个tensor怎么得到梯度，怎么手动求二阶导数
pytorch pyro更高阶的优化器会使用更高阶的导数，比如二阶导数（Hessian矩阵）
2024-09-04 02:00

zhangfeng1133的博客但是，更高阶的优化器会使用更高阶的导数，比如二阶导数（Hessian矩阵），来指导参数的更新。通常，优化器会计算损失函数相对于参数的一阶导数（梯度），然后根据这些梯度来更新参数。但是，更高阶的优化器会使用更...
动手学深度学习（pytorch）学习记录4-自动微分(作业)[学习记录]
2024-08-07 15:54

walfar的博客注：本代码在jupyter notebook上运行封面图片来源 1 为什么计算二阶倒数比一阶导数的开销更大计算步骤增多：二阶导数是在一阶导数的基础上再求一次导，因此需要更多的计算步骤。精度要求提高：为了保持二阶导数的...
关于Pytorch的create_graph和retain_graph的一点小得
2023-07-21 21:39

FFHow的博客当我们想求二阶导时，用autograd.grad是执行了一次前向运算，但该函数默认不会保存计算图，因此并没有求导运算的过程，无法再继续用结果求二阶导。首先我们要搞清一个逻辑，就是在Pytorch中，张量间的计算产生计算图...
pytorch实战 -- 自动微分
2023-06-04 13:50

python收藏家的博客 pytorch实战 -- 自动微分
AI人工智能领域中PyTorch的自动求导机制
2025-06-22 15:34

AI大模型应用工坊的博客本文旨在全面解析PyTorch框架中的自动求导(Autograd)机制，这是PyTorch区别于其他深度学习框架的核心特性之一。我们将深入探讨自动求导的数学基础、实现原理以及在深度学习实践中的应用。文章首先介绍自动求导的基本...
Pytorch自动求导机制详解
2023-07-18 17:31

山河亦问安的博客 python pytorch
微积分-第20篇：大模型训练优化：从二阶导数到Hessian矩阵应用
2025-05-04 20:59

程序员勇哥的博客 Hessian矩阵是由多元函数的二阶偏导数构成的方阵。对于一个nnn元函数fx1x2⋯xnfx1x2⋯xn，其Hessian矩阵HHHHij∂2f∂xi∂xjij12⋯nHij∂xi∂xj∂2fij12⋯nHessian矩阵具有对称性（在函数二阶偏导数...
Pytorch 学习 - 6.pytorch 张量数学-自动求取梯度
2024-10-08 23:18

呈智文的博客作用在 PyTorch 中，用于计算梯度。它是自动求导机制的一部分，在深度学习中，计算梯度对于优化模型参数（如在神经网络中更新权重）是非常关键的操作。与计算图的关系PyTorch 通过构建计算图来记录张量之间的运算...
梯度是什么？梯度下降是什么？为什么要用梯度？如何用PyTorch自动求梯度？
2025-03-29 10:09

星马梦缘的博客回应：梯度是什么，为什么要用梯度，如何使用梯度三个问题，包括原理剖析，以及对梯度下降、反向传播作出说人话的解释。适用于刚入门的深度学习的萌新。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金20元 4月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金20元 4月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金20元 4月23日
展开全部