使用maml训练，但是准确率不变

我想使用ALBERT和孪生网络来训练一个主观问题评分模型，孪生网络由双向LSTM和全连接层组成。在训练中，我注意到准确性并没有提高，一直保持不变。我感觉像是权重没有更新，可能是因为梯度太小导致了权重变化不大。或者，训练策略可能存在问题，但我不确定具体原因。下面是我训练期时的准确性：

下面是我训练的代码：

class MetaTask(nn.Module):
    def __init__(self, args):
        super(MetaTask, self).__init__()
        self.device = 'cuda' if torch.cuda.is_available() else 'cpu'
        self.loss_fn = nn.CrossEntropyLoss()
        self.update_lr = args.update_lr
        self.meta_lr = args.meta_lr
        self.finetunning_lr = args.finetunning_lr
        self.n_way = args.n_way
        self.k_spt = args.k_spt
        self.k_qry = args.k_qry
        self.task_num = args.task_num
        self.update_step = args.update_step
        self.update_step_test = args.update_step_test
        self.net = SubjectiveGradingModel().to(self.device)
        self.meta_optim = optim.Adam(self.net.parameters(), lr=self.meta_lr)


    def forward(self, support_x, support_y, query_x, query_y):
        task_num = len(support_x)
        querysz = len(query_x[0])
        losses_q = [0 for _ in range(self.update_step + 1)]
        corrects = [0 for _ in range(self.update_step + 1)]
        for i in range(task_num):
            self.net.train()
            # 1. run the i-th task and compute loss for k=0
            logits = self.net(support_x[i])
            loss = self.loss_fn(logits, torch.cat(support_y[i], dim=0).long())
            fast_weights = OrderedDict(self.net.named_parameters())
            grad = torch.autograd.grad(loss, fast_weights.values(), retain_graph=True)
            # 输出梯度为None的参数
            # for (name, param), gra in zip(self.net.named_parameters(), grad):
            #     if gra is None:
            #         print("梯度为None的参数:", name)
            fast_weights = OrderedDict(
                (name, param - self.update_lr * grad)
                for ((name, param), grad) in zip(fast_weights.items(), grad)
            )
            # this is the loss and accuracy before first update
            with torch.no_grad():
                self.net.eval()
                logits_q = self.net(query_x[i])
                loss_q = self.loss_fn(logits_q, torch.cat(query_y[i], dim=0).long())
                losses_q[0] += loss_q
                pred_q = F.softmax(logits_q, dim=1).argmax(dim=1)
                correct = torch.eq(pred_q, torch.cat(query_y[i], dim=0).long()).sum().item()
                corrects[0] = corrects[0] + correct

            # this is the loss and accuracy after the first update
            with torch.no_grad():
                self.net.eval()
                self.net.load_state_dict(fast_weights, strict=False)
                logits_q = self.net(query_x[i])
                loss_q = self.loss_fn(logits_q, torch.cat(query_y[i], dim=0).long())
                losses_q[1] += loss_q

                pred_q = F.softmax(logits_q, dim=1).argmax(dim=1)
                correct = torch.eq(pred_q, torch.cat(query_y[i], dim=0).long()).sum().item()
                corrects[1] = corrects[1] + correct
            self.net.train()
            for k in range(1, self.update_step):
                # 1. run the i-th task and compute loss for k=1~K-1
                self.net.load_state_dict(fast_weights, strict=False)
                logits = self.net(support_x[i])
                loss = self.loss_fn(logits, torch.cat(support_y[i], dim=0).long())
                # 2. compute grad on theta_pi
                fast_weights = OrderedDict(self.net.named_parameters())
                grad = torch.autograd.grad(loss, fast_weights.values(), retain_graph=True)
                # 3. theta_pi = theta_pi - train_lr * grad
                fast_weights = OrderedDict(
                    (name, param - self.update_lr * grad)
                    for ((name, param), grad) in zip(fast_weights.items(), grad)
                )
                self.net.load_state_dict(fast_weights, strict=False)
                logits_q = self.net(query_x[i])
                # loss_q will be overwritten and just keep the loss_q on last update step.
                loss_q = self.loss_fn(logits_q, torch.cat(query_y[i], dim=0).long())
                losses_q[k + 1] += loss_q

                with torch.no_grad():
                    pred_q = F.softmax(logits_q, dim=1).argmax(dim=1)
                    correct = torch.eq(pred_q, torch.cat(query_y[i], dim=0).long()).sum().item()  # convert to numpy
                    corrects[k + 1] = corrects[k + 1] + correct

        loss_q = losses_q[-1] / task_num
        # optimize theta parameters
        self.meta_optim.zero_grad()
        loss_q.backward(retain_graph=True)
        # print('meta update')
        self.meta_optim.step()
        accs = np.array(corrects) / (querysz * task_num)
        return accs

class SubjectiveGradingModel(nn.Module):
    def __init__(self, hidden_size=384):
        super(SubjectiveGradingModel, self).__init__()

        # 加载预训练的BERT模型和分词器
        self.bert = AlbertModel.from_pretrained('src/datamoudle/model/albert_chinese_small')
        # 孪生网络
        self.siamese_network = Siamese(max_length=378, embedding_size=hidden_size)


    def forward(self, input_data ,weights=None):
        # 将每个字典中的数据拆分成单独的列表
        input_ids_list = [item['input_ids'].squeeze(0).squeeze(0) for item in input_data]
        token_type_ids_list = [item['token_type_ids'].squeeze(0).squeeze(0) for item in input_data]
        attention_mask_list = [item['attention_mask'].squeeze(0).squeeze(0) for item in input_data]
        answer_input_ids_list = [item['answer_input_ids'].squeeze(0).squeeze(0) for item in input_data]
        answer_token_type_ids_list = [item['answer_token_type_ids'].squeeze(0).squeeze(0) for item in input_data]
        answer_attention_mask_list = [item['answer_attention_mask'].squeeze(0).squeeze(0) for item in input_data]

        # 转换成 PyTorch 张量
        input_ids = torch.stack(input_ids_list)
        token_type_ids = torch.stack(token_type_ids_list)
        attention_mask = torch.stack(attention_mask_list)
        answer_input_ids = torch.stack(answer_input_ids_list)
        answer_token_type_ids = torch.stack(answer_token_type_ids_list)
        answer_attention_mask = torch.stack(answer_attention_mask_list)


        outputs = self.bert(input_ids=input_ids, token_type_ids=token_type_ids, attention_mask=attention_mask)
        pooled_output = outputs.last_hidden_state
        cls_output = outputs.pooler_output
        outputs_answer = self.bert(input_ids=answer_input_ids, token_type_ids=answer_token_type_ids, attention_mask=answer_attention_mask)
        pooled_output_answer = outputs_answer.last_hidden_state
        cls_output_answer = outputs_answer.pooler_output

        siamese_output = self.siamese_network(pooled_output, pooled_output_answer, cls_output, cls_output_answer)

        return siamese_output

class LSTMEncoder(nn.Module):
    def __init__(self, embed_size, hidden_size, num_layers, bidir, dropout):
        super(LSTMEncoder, self).__init__()
        self.embed_size = embed_size
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.bidir = bidir
        if self.bidir:
            self.direction = 2
        else: self.direction = 1
        self.dropout = dropout
        self.device = 'cuda' if torch.cuda.is_available() else 'cpu'
        self.lstm = nn.LSTM(input_size=self.embed_size, hidden_size=self.hidden_size, dropout=self.dropout,
                            num_layers=self.num_layers, bidirectional=self.bidir)

    def initHiddenCell(self, batch_size):
        rand_hidden = Variable(torch.randn(self.direction * self.num_layers, batch_size, self.hidden_size, requires_grad=True)).to(self.device)
        rand_cell = Variable(torch.randn(self.direction * self.num_layers, batch_size, self.hidden_size, requires_grad=True)).to(self.device)
        return rand_hidden, rand_cell

    def forward(self, input, hidden, cell):
        output, (hidden, cell) = self.lstm(input, (hidden, cell))
        return output, hidden, cell


class Siamese(nn.Module):
    def __init__(self, max_length, embedding_size):
        super(Siamese, self).__init__()
        self.max_length = max_length

        # 定义第一个 LSTM 编码器
        self.encoder = LSTMEncoder(embed_size=embedding_size, hidden_size=64, num_layers=1, bidir=True,dropout=0.2)

        self.input_dim = 5 * self.encoder.direction * self.encoder.hidden_size

        # 定义一个 classifier 层序列
        self.classifier = nn.Sequential(
            nn.Linear(896, self.input_dim // 2),
            nn.Linear(self.input_dim // 2, 9)
        )




    def forward(self, student_answer_emb, model_answer_emb, v1, v2):
        #model_answer_support = model_answer_emb.repeat(student_answer_emb.size(0), 1, 1)

        # 取BERT输出的CLS token作为表示
        # v1 = student_answer_emb[:, 0, :]
        # v2 = model_answer_emb[:, 0, :]

        # 初始化LSTM的隐藏状态和细胞状态
        h1, c1 = self.encoder.initHiddenCell(batch_size=student_answer_emb.size(0))
        h2, c2 = self.encoder.initHiddenCell(batch_size=model_answer_emb.size(0))

        # 使用LSTM编码器获取序列表示
        _, h1, c1 = self.encoder(student_answer_emb.permute(1, 0, 2), h1, c1)
        _, h2, c2 = self.encoder(model_answer_emb.permute(1, 0, 2), h2, c2)

        # 取LSTM编码的最后一个时间步的隐藏状态作为表示
        lstm_v1 = h1[-1, :, :]
        lstm_v2 = h2[-1, :, :]

        # 利用这两个编码向量
        features = torch.cat((v1,  v2, lstm_v1, lstm_v2), 1)
        # 输入特征到分类器
        output = self.classifier(features)
        output = F.softmax(output, dim=1)
        return output

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

CSDN-Ada助手 CSDN-AI 官方账号 2023-12-28 16:40

关注

【相关推荐】

这篇博客: 利用LSTM长短期记忆算法分析猪肉价格未来走势中的 3.2、构造时间序列的输入输出、以及数据标准化 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

#参数初始化
#时间步长
steps = 30
#特征数
features=1
#构造时间序列的输入及输出，及前n个数据作为X，第n+1个数据为预测结果y
def create_dataset(data, steps=1):
    dataX, dataY = [], []
    for i in range(len(data)-steps-1):
        a = data[i:(i+steps), 0]
        dataX.append(a)
        dataY.append(data[i + steps, 0])
    return np.array(dataX), np.array(dataY)
#数据标准化，避免量纲对预测的影响

scaler = MinMaxScaler(feature_range=(0, 1))
#不能对全部数据fit_transform----------data = scaler.fit_transform(data)
#print(data)
#划分训练集和测试集，训练集70%，测试集30%
train_size = int(len(data) * 0.7)
test_size = len(data) - train_size
train,test = data[0:train_size,:], data[train_size:len(data),:]
#train数据进行fit_transform，先对其训练再进行标准化
train=scaler.fit_transform(train)
#test数据只能进行转化，因为测试集是训练后模型用来测试的
test=scaler.transform(test)


#输出data的输入及输出，假设滑动窗口距离为steps，即时间序列的当前数据只受前steps条数据的影响
#steps = 10
trainX, trainY = create_dataset(train, steps)
testX, testY = create_dataset(test, steps)
#display(testX,testY)
#展示单变量拆分后的结果
# for i in range(len(trainX)):
#     print(trainX[i],trainY[i])

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

报告相同问题？

关注问题

直接扒下来的MAML_RL项目运行怎么报错了(标签-python) python
2023-03-26 11:46

回答 1 已采纳错误提示中有一行"except Exception,e0:"，这个语法在Python 3.x中是不支持的，因为在Python 3.x中，except语句应该使用"as"关键字来捕获异常，而不是使用逗号
MAML_rl项目调参后出现AttributeError: 'Namespace' object has no attribute 'config' python
2023-03-29 13:53

回答 1 已采纳这个错误提示表明你的代码中某个地方调用了config属性，但是Namespace对象中并没有这个属性。这可能是由于你修改了命令行参数的名称或者参数配置文件的格式。在MAML_rl中，通常使用argp
meta learning 深度学习神经网络
2023-04-12 10:58

回答 2 已采纳以下内容部分参考ChatGPT模型： MAML训练阶段学到的能力是快速适应新任务的能力，也就是说，MAML通过在多个任务上学习如何学习，从而使得在面对新任务时，能够更快速地适应新任务的特点。测试阶段
绝区玖--人工智能物料清单 (AI BOM)
2024-07-10 14:44

RA AI衍生者训练营的博客从基础数据层到模型训练的复杂性，从部署策略到扩展基础设施，每个元素在人工智能生命周期中都发挥着至关重要的作用。端到端 AI 堆栈：包括数据、模型开发、基础设施、部署和监控层。训练过程：详细说明数据准备、...
人工智能术语翻译（四）
2023-07-29 06:44

AI浩的博客 人工智能术语翻译第四部分，包括M、N、O、P开头的词汇！
20240325 大模型训练微调
2024-03-25 19:00

AI-lala的博客 PEFT（Parameter-Efficient Fine-Tuning）是一种针对大规模预训练模型（尤其是自然语言处理领域的模型）进行微调的技术手段，其主要目的是在保持模型性能的同时，尽可能减少需要微调的参数量，以节省计算资源、降低...
大语言模型原理与工程实践：AI系统如何实现真正的终身学习？
2024-06-30 01:59

AI天才研究院的博客 人工智能（AI）系统在许多领域取得了显著进展，但大多数AI模型在训练完成后就固定不变，难以适应新的知识和变化的环境。这与人类的学习过程形成鲜明对比，人类能够持续学习、更新知识，并将已有知识应用到新的领域。...
Prompt-Tuning——深度解读一种新的微调范式
2021-11-19 17:38

华师数据学院·王嘉宁的博客自从GPT、EMLO、BERT的相继提出，以Pre-training + Fine-tuning 的模式在诸多自然语言处理（NLP）任务中被广泛使用，其先在Pre-training阶段通过一个模型在大规模无监督语料上预先训练一个预训练语言模型（Pre-...
思维映像化：AI读心术惊艳亮相NeurIPS大会！模型精准翻译脑电波
2023-12-26 17:54

TZa1u的博客我们今天的人工智能 (AI) 已经取得了哪些显著的进展呢？从AI绘图、AI作曲、AI视频生成、AI写小说、AI主播等等，我们似乎已经见识了许多令人惊叹的应用。然而，在最近的NeurIPS大会上，来自GrapheneX-UTS的研究...
FSFP——专为蛋白质工程设计的少样本学习策略
2024-09-17 15:26

_小苔藓_的博客 FSFP（Few-Shot Learning for Protein ...FSFP通过在相关蛋白质的辅助任务上进行元训练，获取能够快速适应新任务的初始模型参数，然后在目标蛋白质的少量数据上进行微调，最终实现对突变体适应性的精确排序和预测。
让大模型更聪明不仅仅是增加其参数数量，还包括一系列方法和技术，以提升其性能、理解能力和应用效果。
2024-06-21 17:17

AI小奶龙的博客 1. 数据质量与多样性高质量数据：确保训练数据的准确性和清洁度。去除噪声和错误的数据，标注准确。多样性：使用多样化的数据集，包括不同语言、文化背景、领域和应用场景的数据，以增强模型的泛化能力。 2. 模型...
论文汇总：A Closer Look at Few-shot Classification Again
2024-03-22 20:42

十有久诚的博客 Few-shot分类包括训练阶段和适应阶段，前者在相对较大的数据集上学习模型，后者在有限的标记样本中适应以前未见过的任务。在本文中，我们通过经验证明了训练算法和自适应算法是可以完全分离的，这使得算法的分析和...
计算机视觉论文-2021-12-01
2021-12-02 10:42

SophiaCV的博客简历] 突出在这项工作中，我们提出了一个灵活的框架，从高分辨率的 360 {\ de g }图像使用切线图像的单目深度估计。第 45 条，标题：Hyper Style ：利用 HyperNetworks 进行 Style GAN 反演，用于真图像编辑作者:...
狗都能看懂的Meta-SGD原理讲解和代码实现
2022-10-09 16:02

热血厨师长的博客 MAML已经解决了神经网络在初始化时训练方向的问题，可以让模型在小数据上准确找到训练方向，这得益于它的训练时，每一步优化都学习了多个任务的共同点，使得其梯度下降的方向是对所有任务最优的，而非某个任务。...
大语言模型的Few-Shot学习原理与代码实例讲解
2024-05-26 01:27

AI天才研究院的博客 Few-shot学习(少样本学习)是指机器学习模型在只给定非常少量的训练样本的情况下,就能够快速学习新任务、完成新任务的一种学习能力。它旨在解决现实世界中存在大量的小样本任务,而传统的机器学习方法需要大量的标注...
【深度学习】深度学习名词概念解释
2024-05-30 12:07

Leoh_LL的博客 RMSprop使用梯度平方的移动平均值来调整学习率，而Adam结合了RMSprop和Momentum的思想，进一步提高了训练速度和稳定性。优点：两者都能根据梯度自动调整学习率，对超参数的选择相对鲁棒，适用于大多数深度学习问题...
Meta-learning algorithms for Few-Shot Computer Vision 论文解读（二）
2022-01-04 18:00

海南1506的博客这部分作者的主要贡献是整理了一套包含四种算法的代码，在之前工作的基础上将代码更加高度集成，方便对比和使用，尤其是data managers这部分，整合了几个数据集小样本插曲形式的采样方法，方便复用，修改。...
Multi-initial-Center Federated Learning with Data Distribution Similarity-Aware Constraint 聚类+联邦元学习
2024-04-18 15:44

De-Alf的博客 FedSEM表现最差，没有正确分类，和FedAvg类似作者认为本方法很Fair（最低的准确率比较高）在未见客户端上的表现，训练之用80%，训练完后用剩下的测试通信消耗，在所有情况下消耗最低且准确率最高。IFCA要求所有...
[深度学习论文笔记]Modality-aware Mutual Learning for Multi-modal Medical Image Segmentation
2021-09-18 16:35

Slientsakke的博客 Modality-aware Mutual Learning for Multi-modal ...代码：https://github.com/YaoZhang93/MAML 摘要：肝癌是全世界最常见的癌症之一。**由于肝脏肿瘤的纹理变化不明显，对比增强计算机断层扫描（CT）成像对
[论文笔记] The Pursuit of Human Labeling: A New Perspective on Unsupervised Learning
2024-06-05 16:15

wonder_if_的博客我们利用给定的一对固定预训练表示的不变性来寻找人工标记任务。因此，我们只在预训练表征的顶部训练线性分类器，而在训练过程中表征总是被冻结。同时使用多个表示空间作为正则化器，并防止学习任务捕获可以反映...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月28日

悬赏问题

¥500 把面具戴到人脸上，请大家贡献智慧
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境
¥30 关于#java#的问题，请各位专家解答！
¥30 vue+element根据数据循环生成多个table，如何实现最后一列平均分合并
¥20 pcf8563时钟芯片不启振
¥20 pip2.40更新pip2.43时报错

使用maml训练，但是准确率不变

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新