王博士,我想问一下,fine-tuning的边界一般在哪里。要让gpt学习行业知识,用fine-tunning是否够
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率

gpt预训练边界在哪里
收起
- 写回答
- 好问题 0 提建议
- 关注问题
微信扫一扫
点击复制链接分享
- 邀请回答
- 编辑 收藏 删除 结题
- 收藏 举报
1条回答 默认 最新
- 关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率
关注
- 这篇博客: GPT原理介绍中的 2.2 fine-tuning(有监督) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
当语言模型训练结束后,就可以将其迁移到具体的NLP任务中,假设将其迁移到一个文本分类任务中,记此时的数据集为C\mathcal{C}C,对于每一个样本,其输入为x1,…,xmx^{1}, \ldots, x^{m}x1,…,xm,输出为yyy。对于每一个输入,经过预训练后的语言模型后,可以直接选取最后一层Transformer最后一个时间步的输出向量hlmh_{l}^{m}hlm,然后在其后面接一层全连接层,即可得到最后的预测标签概率:
P(y∣x1,…,xm)=softmax(hlmWy) P\left(y | x^{1}, \ldots, x^{m}\right)=\operatorname{softmax}\left(h_{l}^{m} W_{y}\right) P(y∣x1,…,xm)=softmax(hlmWy)
其中,WyW_{y}Wy为新引入的全连接层的参数矩阵。因此,可以得到在分类任务中的目标函数:
L2(C)=∑(x,y)logP(y∣x1,…,xm) L_{2}(\mathcal{C})=\sum_{(x, y)} \log P\left(y | x^{1}, \ldots, x^{m}\right) L2(C)=(x,y)∑logP(y∣x1,…,xm)
在具体的NLP任务中,作者在fine-tuning时也把语言模型的目标引入到目标函数中,作为辅助函数,作者发现这样操作可以提高模型的通用能力,并且加速模型收敛,其形式如下:
L3(C)=L2(C)+λ∗L1(C) L_{3}(\mathcal{C})=L_{2}(\mathcal{C})+\lambda * L_{1}(\mathcal{C}) L3(C)=L2(C)+λ∗L1(C) 其中,λ\lambdaλ一般取0.5。可以发现,在fine-tuning阶段,此时新增的参数只有最后一层全连接层的参数WyW_{y}Wy,这比ELMo算法要容易得多。
不过,上面这个例子只是对于文本分类任务,如果是对于其他任务,比如文本蕴涵、问答、文本相似度等,那么GPT该如何进行微改呢?针对这几种情况,作者提出了以下的修改方法:
- 文本蕴涵:对于文本蕴涵任务,作者用一个“$”符号将文本和假设进行拼接,并在拼接后的文本前后加入开始符“start”和结束符“end”,然后将拼接后的文本直接传入预训练的语言模型,在模型再接一层线性变换和softmax即可。
- 文本相似度:对于文本相似度任务,由于相似度不需要考虑两个句子的顺序关系,因此,为了反映这一点,作者将两个句子分别与另一个句子进行拼接,中间用“$”进行隔开,并且前后还是加上起始和结束符,然后分别将拼接后的两个长句子传入Transformer,最后分别得到两个句子的向量表示hlmh_{l}^{m}hlm,将这两个向量进行元素相加,然后再接如线性层和softmax层。
- 问答和常识推理:对于问答和常识推理任务,首先将背景信息与问题进行拼接,然后再将拼接后的文本依次与每个答案进行拼接,最后依次传入Transformer模型,最后接一层线性层得多每个输入的预测值。
具体的方法可以查看下图,可以发现,对这些任务的微改主要是新增线性层的参数以及起始符、结束符和分隔符三种特殊符号的向量参数。
本回答被题主选为最佳回答 , 对您是否有帮助呢? 本回答被专家选为最佳回答 , 对您是否有帮助呢? 本回答被题主和专家选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏举报微信扫一扫
点击复制链接分享
编辑预览轻敲空格完成输入- 显示为
- 卡片
- 标题
- 链接
评论按下Enter换行,Ctrl+Enter发表内容

- 显示为
- 卡片
- 标题
- 链接
报告相同问题?
- 2023-01-18 11:11在自然语言处理(NLP)领域,人工智能的发展日新月异,其中GPT...这种方法不仅推动了AI技术的进步,也为后续的预训练模型如GPT-2、GPT-3等奠定了基础,进一步推动了人工智能在理解和生成自然语言方面的边界。
- 2024-04-10 11:21标题中的“人工智能行业从CHAT-GPT到生成式AI(GenerativeAI):人工智能新范式,重新定义生产力”揭示了当前AI领域的热点话题,即从对话式AI模型如CHAT-GPT到更广泛的生成式AI技术的发展,以及这些技术对生产力的深远...
- 2023-04-04 01:38《OpenAI 闭门讨论会V3纪要GPT-4.pdf》的文件记录了一场针对OpenAI最新发布的多模态预训练大模型GPT-4的深入讨论。以下是基于文件内容提炼的关键知识点: 1. **模型能力演变和边界**: - GPT-4的发布标志着大模型...
- 2024-12-01 08:15GPT技术,即生成式预训练变换器(Generative Pre-trained Transformer),是当下人工智能领域的一项重大技术突破。它以语言模型为基础,经历了数十年的发展,逐渐成为学术界和工业界关注的焦点。GPT技术的应用广泛,...
- 2023-03-31 13:44在当前的科技浪潮中,人工智能(Artificial Intelligence, AI)无疑是引领未来的主导力量之一,而GPT系列模型作为自然语言处理(Natural Language Processing, NLP)领域的里程碑式作品,正不断推动这一进程。...
- 2023-12-30 01:17cooldream2009的博客 在当今迅猛发展的人工智能领域,大型预训练模型如Word2Vec、RNN、Attention Mechanism、Transformer、ELMo、BERT、GPT-3.5等逐渐成为人工智能领域的焦点,这些模型以其庞大的参数规模和通用知识的储备,在解决复杂...
- 2024-07-01 13:06xziyuan的博客 OpenAI作为一家全球领先的人工智能公司,在推动人工智能技术的边界上发挥着重要作用,其在大模型方面的研究和应用也是一直处于领先地位。本文将介绍 Open AI 多模态大模型的研究成果和应用,探讨其在人工智能领域的...
- 2023-12-23 00:23【GPT模型与法律人工智能】 GPT模型,全称为Generative Pre-trained Transformer,是一种基于Transformer架构的深度学习模型,主要用于自然语言处理(NLP)。它通过大规模文本数据的预训练,学会了理解和生成人类...
- 2024-12-10 01:09大梦百万秋的博客 生成模型是通过学习大量数据分布,从而生成新的内容(如文本、图像或声音)的机器学习模型。GPT(Generative Pre-trained Transformer)是其中的代表,其基于架构,专注于文本生成任务。
- 2023-03-23 15:49【OpenAI闭门讨论会V3GPT-4纪要】揭示了关于人工智能,特别是大模型GPT-4的深入洞察。GPT-4作为OpenAI的最新预训练模型,其发布引起了业界广泛关注。该讨论会主要围绕四个关键议题展开: 1. **模型能力演变和边界**...
- 没有解决我的问题, 去提问
- 京ICP备19004658号
- 经营性网站备案信息
公安备案号11010502030143
- 营业执照
- 北京互联网违法和不良信息举报中心
- 家长监护
- 中国互联网举报中心
- 网络110报警服务
- Chrome商店下载
- 账号管理规范
- 版权与免责声明
- 版权申诉
- 出版物许可证
- ©1999-2025北京创新乐知网络技术有限公司