如何使用ChatGLM3-6b做多标签分类？

诚心提问！
我目前有一个多标签分类任务，使用ChatGLM3-6b的p-tuning v2方法进行微调，我将我的文本和标签分别按照模型适用的形式输入，做SFT，但未修改loss和评估指标，一切都按照原来生成任务的形式。训练了5000步后，效果依旧不好。
'eval_rouge-1': 73.433334, 'eval_rouge-2': 71.583334, 'eval_rouge-l': 73.22808, 'eval_bleu-4': 0.42926900076182845
loss:0.30左右
但是，测试的输出会有很多标签外的文本
我的输入形式如下：
{"conversations": [{"role": "user", "content": "任务：为以下文本匹配相关的标签。标签只能从以下20个标签中选择：x，x\n输出指南：只需要输出匹配的标签，无需过多解释，多个匹配项用'&'连接。\n文本："}, {"role": "assistant", "content": "娱乐&足球"}]}
我是否需要修改其loss?或者再继续训练下去？或者有什么参数是需要我修改的吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
一直免费一直爽 2024-08-19 15:13
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

首先，你需要确保你的模型已经正确地进行了多标签分类任务的微调。在这种情况下，你需要修改损失函数和评估指标以适应多标签分类任务。你可以尝试使用二元交叉熵损失（Binary Cross Entropy Loss）作为损失函数，并使用准确率（Accuracy）或其他多标签分类指标（如F1分数、精确度和召回率）来评估模型性能。

其次，你可以尝试调整训练参数，例如学习率、批次大小等，以优化模型性能。此外，你还可以尝试使用不同的预训练模型或调整模型结构，以提高多标签分类任务的性能。

最后，确保你的数据集足够大且具有代表性，以便模型能够学到有效的特征。如果可能的话，尝试收集更多的数据或使用数据增强技术来扩充你的数据集。

总之，你需要对模型进行适当的调整，包括损失函数、评估指标和训练参数，以提高多标签分类任务的性能。同时，确保你的数据集足够大且具有代表性。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python真的那么通用（6b）吗？感觉社区都是Python的影子 python 有问必答
2021-06-08 18:00

回答 3 已采纳主要是python调写好的包方便，资源丰富，机器学习和深度学习基本有用python，所以python很火。
模拟登录时UnicodeEncodeError: 'latin-1'问题该如何解决？ python
2017-08-29 04:46

回答 2 已采纳 encoding ='latin-1' 为 encoding ='utf-8' 你从代码中找找，有没有编码没有设置成UTF-8
request很多方式，都被反扒了，是不是只能seleniu? python
2021-07-21 11:35

回答 4 已采纳要爬什么数据,请求的哪个网址,直接放你的代码
使用自有数据集微调ChatGLM2-6B
2024-01-25 20:15

智慧医疗的博客具体地，P-Tuning v2首先使用一种自适应的剪枝策略，对大型语言模型中的参数进行裁剪，去除其中不必要的冗余参数。然后，对于被剪枝的参数，P-Tuning v2使用了一种特殊的压缩方法，能够更加有效地压缩参数大小，并...
关于#Microsoft#的问题，如何解决？(语言-python) java php python
2023-04-09 22:22

回答 1 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 你可以看下这个问题的回答https://ask.csdn.net/questions/7640319如果你已经解决了该问题, 非常希望你能够分享一
如何在golang中编码POST策略-基于浏览器的上载到Amazon S3？
2015-10-15 09:11

回答 1 已采纳 Simply because the 2 JSON source texts which produce those base64 strings have different indentati
python爬虫使用requests下载zip,但是报 404 Client Error python 有问必答
2021-04-26 19:10

回答 5 已采纳 http状态码404指网页或文件未找到，可能的原因：页面跳转，需要登录，传递参数headers有误，需要其他参数。
ChatGLM-6B 的部署与微调以及过程中涉及知识总结(7.26更新)
2023-06-13 18:18

windywolf301的博客最近因为工作关系，接触到ChatGLM-6B，自己部署做了一些测试。参考了网上很多优秀的资料，在此基础上，补充一些自己实践中发现的细节。部署内容部分绝大部分来自：https://zhuanlan.zhihu.com/p/627168140微调部分...
RSA已知公钥和密文如何将该密文解密(标签-GIN|关键词-F5) 网络安全
2022-10-20 17:37

回答 1 已采纳 https://zhuanlan.zhihu.com/p/45317622
python多线下载为什么下载不了？starting failed python 开发语言
2020-03-02 12:28

回答 1 已采纳看上去代码 try: path=self.home+self.__conf['name'] self.__file=open(path,(exists(path)
请问div后面跟的属性data-v-e20faf64是什么意思，爬虫爬取的话有什么不一样 python 爬虫
2022-03-20 15:45

回答 1 已采纳直接用class爬就行：//div[@class='so-items-normal']
ChatGLM-6B，支持在单张消费级显卡上进行推理使用案例
2023-06-05 11:52

量化交易曾小健(金融号)的博客近日，由清华技术成果转化的公司智谱AI 开源了 GLM 系列...据悉，ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，并针对中文进行了优化。该模型基于 General Language Model（GLM）架构，具有 62 亿参数。
使用java的exe文件时报缺少Newtonsoft.Json的错如何解决？ java json
2019-06-30 00:21

回答 1 已采纳这个肯定不是java，而是C#写的程序。需要.NET框架库和Newtonsoft.Json.dll （9.0版）可以放在exe所在目录，或者注册到gac
各家LLM大模型写作能力大比拼【GPT4、ChatGPT、ChatGLM-6B、ChatGLM-130B、文心一言、讯飞星火、Claude+】《人工智能之神经网络的前世今生和未来发展趋势》为标题
2023-06-10 03:22

光剑书架上的书的博客神经网络是一种类比于人类神经系统的计算模型，由多个神经元按照特定的结构和连接方式组成。神经网络的核心思想是通过模拟人类神经系统的学习和适应能力，从而实现对复杂问题的预测和处理。在神经网络中，通常会使用...
ChatGLM-6b 多任务微调
2023-06-04 11:05

HGlyh的博客如果采用多任务设计，ChatGLM-6b的效果会更好我们将实体识别和实体边界检测作为两个独立的任务，这在训练过程中，不仅帮助模型更好地理解实体的概念，而且使其更清晰地了解实体的边界。同时在预测时，模型可以输出对...
【腾讯云 HAI域探秘】——即时职场生存指南小游戏以及【自行搭建Stable Diffusion图片AI绘制 | ChatGLM2-6B AI进行智能对话 | Pytorch2.0 AI框架视频处理】
2023-10-27 22:33

红目香薰的博客【腾讯云 HAI域探秘】——自行搭建Stable Diffusion模型服务用于生成AI图片 | 自行搭建ChatGL M26BAI模型服务用于AI对话自主创建AI对话工具，腾讯云有一套最新的HAI工具，我们一起来探秘吧。
深度学习实战38-基于清华ChatGLM-6b开源模型做体检报告解读任务，让体检报告解读变得轻松
2023-06-16 19:01

微学AI的博客大家好，我是微学AI，今天给大家介绍一下深度学习实战38-基于清华ChatGLM-6b开源模型做体检报告解读任务，让体检报告解读变得轻松。ChatGLM-6b是清华大学团队开源的一个语言大模型。本文将介绍一种基于ChatGLM-6B的...
ChatGLM两代的部署/微调/实现：从基座GLM、ChatGLM的LoRA/P-Tuning微调、6B源码解读到ChatGLM2的微调与实现
2023-03-31 16:40

v_JULY_v的博客随着『GPT4多模态/Microsoft 365 Copilot/Github Copilot X/ChatGPT插件』的推出，绝大部分公司的技术产品服务，以及绝大部分人的工作都将被革新一遍类似iPhone的诞生大家面向iOS编程有了App Store现在有了...
清华开源语言大模型ChatGLM-6B调研
2023-11-30 20:54

Pandy Bright的博客 ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月19日

悬赏问题

¥20 关于web前端如何播放二次加密m3u8视频的问题
¥20 spring boot集成mqtt的使用问题
¥15 使用百度地图api 位置函数报错？
¥15 metamask如何添加TRON自定义网络
¥66 关于川崎机器人调速问题
¥15 winFrom界面无法打开
¥30 crossover21 ARM64版本安装软件问题
¥15 mymetaobjecthandler没有进入
¥15 mmo能不能做客户端怪物
¥15 osm下载到arcgis出错

如何使用ChatGLM3-6b做多标签分类？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新