gpt预训练边界在哪里

王博士，我想问一下，fine-tuning的边界一般在哪里。要让gpt学习行业知识，用fine-tunning是否够

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-04-27 11:42
关注
这篇博客: GPT原理介绍中的 2.2 fine-tuning（有监督） 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
当语言模型训练结束后，就可以将其迁移到具体的NLP任务中，假设将其迁移到一个文本分类任务中，记此时的数据集为C\mathcal{C}C，对于每一个样本，其输入为x1,…,xmx^{1}, \ldots, x^{m}x1,…,xm，输出为yyy。对于每一个输入，经过预训练后的语言模型后，可以直接选取最后一层Transformer最后一个时间步的输出向量hlmh_{l}^{m}hlm，然后在其后面接一层全连接层，即可得到最后的预测标签概率：
P(y∣x1,…,xm)=softmax⁡(hlmWy) P\left(y | x^{1}, \ldots, x^{m}\right)=\operatorname{softmax}\left(h_{l}^{m} W_{y}\right) P(y∣x1,…,xm)=softmax(hlmWy)
其中，WyW_{y}Wy为新引入的全连接层的参数矩阵。因此，可以得到在分类任务中的目标函数：
L2(C)=∑(x,y)log⁡P(y∣x1,…,xm) L_{2}(\mathcal{C})=\sum_{(x, y)} \log P\left(y | x^{1}, \ldots, x^{m}\right) L2(C)=(x,y)∑logP(y∣x1,…,xm)
在具体的NLP任务中，作者在fine-tuning时也把语言模型的目标引入到目标函数中，作为辅助函数，作者发现这样操作可以提高模型的通用能力，并且加速模型收敛，其形式如下：
L3(C)=L2(C)+λ∗L1(C) L_{3}(\mathcal{C})=L_{2}(\mathcal{C})+\lambda * L_{1}(\mathcal{C}) L3(C)=L2(C)+λ∗L1(C) 其中，λ\lambdaλ一般取0.5。

可以发现，在fine-tuning阶段，此时新增的参数只有最后一层全连接层的参数WyW_{y}Wy，这比ELMo算法要容易得多。

不过，上面这个例子只是对于文本分类任务，如果是对于其他任务，比如文本蕴涵、问答、文本相似度等，那么GPT该如何进行微改呢？针对这几种情况，作者提出了以下的修改方法：

文本蕴涵：对于文本蕴涵任务，作者用一个“$”符号将文本和假设进行拼接，并在拼接后的文本前后加入开始符“start”和结束符“end”，然后将拼接后的文本直接传入预训练的语言模型，在模型再接一层线性变换和softmax即可。
文本相似度：对于文本相似度任务，由于相似度不需要考虑两个句子的顺序关系，因此，为了反映这一点，作者将两个句子分别与另一个句子进行拼接，中间用“$”进行隔开，并且前后还是加上起始和结束符，然后分别将拼接后的两个长句子传入Transformer，最后分别得到两个句子的向量表示hlmh_{l}^{m}hlm，将这两个向量进行元素相加，然后再接如线性层和softmax层。
问答和常识推理：对于问答和常识推理任务，首先将背景信息与问题进行拼接，然后再将拼接后的文本依次与每个答案进行拼接，最后依次传入Transformer模型，最后接一层线性层得多每个输入的预测值。

具体的方法可以查看下图，可以发现，对这些任务的微改主要是新增线性层的参数以及起始符、结束符和分隔符三种特殊符号的向量参数。
解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

人工智能 NLP GPT论文阅读
2023-01-18 11:11

在自然语言处理（NLP）领域，人工智能的发展日新月异，其中GPT...这种方法不仅推动了AI技术的进步，也为后续的预训练模型如GPT-2、GPT-3等奠定了基础，进一步推动了人工智能在理解和生成自然语言方面的边界。
GPT-5时代来临：AI原生应用的伦理边界在哪里？
2025-05-15 12:38

AGI大模型与大数据研究院的博客本文的目的就是深入探讨AI原生应用的伦理边界在哪里，范围涵盖了AI原生应用在各个领域可能出现的伦理问题。本文首先介绍相关的核心概念，让大家对AI原生应用和伦理边界有清晰的认识。接着分析核心概念之间的关系，...
人工智能行业从CHAT-GPT到生成式AI(GenerativeAI)：人工智能新范式，重新定义生产力（PPT文档）
2024-04-10 11:21

标题中的“人工智能行业从CHAT-GPT到生成式AI(GenerativeAI)：人工智能新范式，重新定义生产力”揭示了当前AI领域的热点话题，即从对话式AI模型如CHAT-GPT到更广泛的生成式AI技术的发展，以及这些技术对生产力的深远...
OpenAI 闭门讨论会V3纪要GPT-4.pdf
2023-04-04 01:38

《OpenAI 闭门讨论会V3纪要GPT-4.pdf》的文件记录了一场针对OpenAI最新发布的多模态预训练大模型GPT-4的深入讨论。以下是基于文件内容提炼的关键知识点： 1. **模型能力演变和边界**： - GPT-4的发布标志着大模型...
《GPT 一次性讲明白》.docx
2024-12-01 08:15

GPT技术，即生成式预训练变换器（Generative Pre-trained Transformer），是当下人工智能领域的一项重大技术突破。它以语言模型为基础，经历了数十年的发展，逐渐成为学术界和工业界关注的焦点。GPT技术的应用广泛，...
劲爆！微软GPT研究报告：人工通用智能的火花，GPT-4的早期实验
2023-03-31 13:44

在当前的科技浪潮中，人工智能（Artificial Intelligence, AI）无疑是引领未来的主导力量之一，而GPT系列模型作为自然语言处理（Natural Language Processing, NLP）领域的里程碑式作品，正不断推动这一进程。...
探索大型预训练模型：解析人工智能的通用知识引擎
2023-12-30 01:17

cooldream2009的博客在当今迅猛发展的人工智能领域，大型预训练模型如Word2Vec、RNN、Attention Mechanism、Transformer、ELMo、BERT、GPT-3.5等逐渐成为人工智能领域的焦点，这些模型以其庞大的参数规模和通用知识的储备，在解决复杂...
Open AI GPT大模型深度解析：通往智能的里程碑
2024-07-01 13:06

xziyuan的博客 OpenAI作为一家全球领先的人工智能公司，在推动人工智能技术的边界上发挥着重要作用，其在大模型方面的研究和应用也是一直处于领先地位。本文将介绍 Open AI 多模态大模型的研究成果和应用，探讨其在人工智能领域的...
GPT模型下法律人工智能的风险与对策研究.pdf
2023-12-23 00:23

【GPT模型与法律人工智能】 GPT模型，全称为Generative Pre-trained Transformer，是一种基于Transformer架构的深度学习模型，主要用于自然语言处理（NLP）。它通过大规模文本数据的预训练，学会了理解和生成人类...
人工智能生成模型：解密 GPT 的工作原理与应用
2024-12-10 01:09

大梦百万秋的博客生成模型是通过学习大量数据分布，从而生成新的内容（如文本、图像或声音）的机器学习模型。GPT（Generative Pre-trained Transformer）是其中的代表，其基于架构，专注于文本生成任务。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月27日

gpt预训练边界在哪里

1条回答 默认 最新

问题事件

1条回答默认最新