微调Qwen1.5数据准备

微调Qwen1.5-7B-Chat数据格式

博主，您好。我非常喜欢您的博客，目前我微调Qwen-7B遇到了一些困难，如果您能解决我的问题，感激不尽。

项目背景：
我的项目是先将通话内容转换为文字，再对文字做三个任务：摘要提取，关键词提取，代办事项提取。

问题：
如果我需要对Qwen1.5B做微调，我是需要将这三个任务放在一条数据中，还是将三个任务分开来做比较好？
数据集的格式是什么呢？
数据大概多少条比较合适呢？

提示词如下：

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

15条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-07 17:55
关注
引自免费微信小程序：皆我百晓生

针对您所描述的项目背景与问题，关于微调Qwen1.5B模型进行多任务处理，以及数据集格式和规模的问题，以下为您提供详细的解决方案：

一、多任务处理方式

对于您的三个任务（摘要提取、关键词提取、代办事项提取），您可以选择两种方式进行微调：

单任务模式：将三个任务分别建模并微调，即创建三条独立的数据流，每条数据对应一个特定任务。这种方式的优点是模型结构清晰，任务间互不影响，有利于针对每个任务的特性进行优化。缺点是需要训练和维护三个独立的模型，占用更多资源。

多任务学习模式：在同一模型上同时处理三个任务，即将这三个任务合并到一条数据中，并在模型输出端设置相应的分支以生成不同任务的结果。这种方式的优点是可以共享底层语义表示，利用相关任务之间的关联性提高整体性能，同时减少模型数量。缺点是对模型设计和训练策略要求较高，可能需要平衡不同任务间的权重。

考虑到您希望尽可能高效地利用资源且任务之间存在一定的内在关联（如关键词提取可能对摘要和待办事项提取有辅助作用），建议采用多任务学习模式，即将三个任务放在一条数据中进行微调。

二、数据集格式

根据您提供的提示词，您可以构建如下JSON格式的数据样本：

{ "dialogue": "对话文本内容", "summary": "对话摘要", "todos": ["待办事项1", "待办事项2", "待办事项3"], "keywords": ["关键词1", "关键词2", "关键词3"] }

其中：

"dialogue": 存储原始对话文本内容。
"summary": 对应摘要提取任务的期望输出。
"todos": 列表形式存储待办事项，每个元素代表一个待办任务。
"keywords": 列表形式存储关键词，每个元素代表一个关键词汇。

在实际微调过程中，您将使用"dialogue"作为输入，模型需输出与"summary"、"todos"和"keywords"对应的预测结果。

三、数据集规模

数据集规模的选择取决于多种因素，包括模型大小（如Qwen1.5B）、任务复杂度、所需精度、可用计算资源等。通常而言，大规模预训练模型如Qwen1.5B对数据量的要求相对较高，以充分发掘其潜力。对于您的多任务场景，建议至少准备以下规模的数据：

基础规模：数千至数万条标注数据。这是初步微调的基本需求，确保模型能初步适应您的任务特点。

理想规模：数万至数十万条标注数据。达到这一规模后，模型有望获得更稳健的泛化能力和较高的任务精度。

最优规模：若条件允许，可进一步扩大至百万级别。大规模高质量数据能显著提升模型性能，特别是对于大型预训练模型。

请根据实际情况和资源限制，尽可能多地收集和标注数据。如果数据获取困难，可以考虑使用数据增强技术（如文本替换、同义词替换、句法变换等）增加训练样本多样性。

总结来说，为了微调Qwen1.5B进行摘要提取、关键词提取和代办事项提取的多任务处理，建议采用多任务学习模式，将三个任务合并到一条数据中。数据集应采用上述JSON格式，并根据实际情况尽可能积累数万至数十万条标注数据。希望这些解答能对您的项目有所帮助。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

llama_factory微调QWen1.5
2024-04-15 17:16

Kun Li的博客模型效果为了全面洞悉 Qwen1.5 的效果表现，我们对 Base 和 Chat 模型在一系列基础及扩展能力上进行了详尽评估，包括如语言理解、代码、推理等在内的基础能力，多语言能力，人类偏好对齐能力，智能体能力，检索增强...
Qwen2（Qwen1.5阿里）微调实战qwen1.5-7b
2024-04-02 18:46

Macropodus的博客 Qwen1.5-SFT(阿里, Ali), Qwen_Qwen1.5-2B-Chat/Qwen_Qwen1.5-7B-Chat微调(transformers)/LORA(peft)/推理。
Qwen1.5大语言模型微调实践
2024-04-17 15:18

liguiyuan112的博客 Qwen1.5大语言模型作为其中的佼佼者，不仅拥有强大的语言生成和理解能力，而且能够通过微调（fine-tuning）来适应各种特定场景和任务。本文将带领大家深入实战，探索如何对Qwen大语言模型进行微调，以满足实际应用的...
Qwen1.5微调
2024-04-23 11:45

要养家的程序猿的博客修改脚本，/workspace/qwen1.5_train/Qwen1.5/examples/sft/finetune.sh。由于工作上需要，一直在用Qwen做大模型推理，有个再训练的需求，特此琢磨下Qwen的训练。out of memory，修改为7B模型重新尝试，下载地址。...
通义千问1.5(Qwen1.5)大语言模型在PAI-QuickStart的微调与部署实践
2024-03-04 17:28

阿里云大数据AI技术的博客阿里云的人工智能平台PAI，作为一站式的机器学习和深度学习平台，对Qwen1.5模型系列提供了全面的技术支持。无论是开发者还是企业客户，都可以通过PAI-QuickStart轻松实现Qwen1.5系列模型的微调和快速部署。
Qwen1.5
2024-02-06 13:40

whaosoft143的博客尽管落后于 GPT-4-Turbo，但最大版本的 Qwen1.5 模型 Qwen1.5-72B-Chat 在 MT-Bench 和 Alpaca-Eval v2 上都表现出了可观的效果，性能超过 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和 TULU 2 DPO ...
[大模型]Qwen1.5-7B-chat Lora 微调
2024-04-11 08:33

FL1623863129的博客 Qwen1.5-7B-chat Lora 微调本节我们简要介绍如何基于 transformers、peft 等框架，对 Qwen1.5-7B-chat 模型进行 Lora 微调。Lora 是一种高效微调方法，深入了解其原理可参见博客：知乎|深入浅出Lora。这个教程会在...
大模型的实践应用24-LLaMA-Factory微调通义千问qwen1.5-1.8B模型的实例
2024-05-23 19:59

微学AI的博客我是微学AI，今天给大家介绍一下大模型的实践应用24-LLaMA-Factory微调通义千问qwen1.5-1.8B模型的实例, LLaMA-Factory是一个专门用于大语言模型微调的框架，它支持多种微调方法，如LoRA、QLoRA等，并提供了丰富的...
语言大模型qwen1.5全流程解析：微调，量化与推理
2024-06-07 00:01

弈秋001的博客 qwen1.5用法与qwen差异很大，代码合入了transformers库中，使用风格变得统一，这种标准化是以后大模型发展的一个趋势吧，就像tokenizer.apply_chat_template统一prompt一样。仅过去一年时间，这个领域的许多技术已经...
五步炼丹，qwen通义千问1.5版本微调实战
2024-03-15 16:07

IT大头的博客通用千问微调，lora微调，qwen1.5微调，通义千问1.5微调，最近阿里大模型通义千问qwen推出了1.5版本的开源模型，涉及了0.5B, 1.8B, 4B, 7B, 14B, 及72b在内的多种参数模型与量化模型因此本篇文章是基于一个开源大...
基于SWIFT和Qwen1.5-14B-Chat进行大模型LoRA微调测试
2024-06-11 15:12

玩转AI大模型的博客 (这里的时间只是一个大概值，在训练时，不同数据的处理速度不同，花费的总时间会一直变化)。相比于全参，LoRA的微调方式能够节约大量的显存，因此我们可以将nproc\_per\_node设置的大一些，以提高训练的速度。
【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战
2024-06-03 23:46

LDG_AGI的博客本文首先对Qwen1.5进行了概述，随后结合个人工作简要介绍了模型架构，最后对采用LLaMA-Factory大模型训练框架对Qwen1.5-14B-Chat的微调训练与推理进行测试。小道消息，马上就要正式发布Qwen2了，本博客也会第一时间...
在autodl平台使用llama-factory微调Qwen1.5-7B
2024-05-01 22:11

yidao0618的博客使用ModelScope下载模型 #模型下载 from modelscope import snapshot_download model_dir = snapshot_download('qwen/Qwen1.5-7B') step 6. 切换到 llama-factory 工作目录 cd \root\LLaMA-Factory step 7. 使用web...
qwen1.5_pytorch对话问答算法模型
2024-06-25 08:45

技术瘾君子1573的博客 Qwen1.5是阿里云开源大型语言模型系列，是Qwen2.0的beta版本。
Qwen1.5原理
2024-04-14 17:47

随遇、随缘的博客使用模型进行微调，主要了解该模型如何构造 prompt，尤其对单轮对话和多轮对话的处理方式，只有了解并掌握其原理，才能根据需要做出相应的调整。下面将介绍微调时如何构造 prompt。
GpuMall智算云：QwenLM/Qwen1.5/Qwen1.5-7B-Chat
2024-05-27 11:25

GpuMall的博客 Qwen 是阿里巴巴集团 Qwen 团队的大型语言模型和大型多模态模型系列，现在大型语言模型已经升级到 Qwen1.5 版本。无论是语言模型还是多模态模型，都在大规模的多语言和多模态数据上进行了预训练，并在优质数据上进行...
直追 GPT-4 的国产开源大模型 Qwen1.5 详细介绍
2024-02-23 11:01

禅与计算机程序设计艺术的博客农历新年到来之际，我们推出通义千问开源模型1.5版本:Qwen1.5。我们开源了包括0.5B、1.8B、4B、7B、14B和72B共计6个不同规模的Base和Chat模型，并同步放出了各尺寸模型对应的量化模型。此次更新中，我们不仅像之前...
Qwen-1.5-7b指令微调实战：SwanLab可视化训练
2024-06-04 11:47

Kashiwa123的博客 Qwen1.5是通义千问开源模型的1.5版本，以Qwen-1.5作为基座大模型，通过指令微调的方式实现高准确率的文本分类是学习大语言模型微调的入门级任务。在这篇文章我将带大家使用swanlab、modelscope、transformers 、...
Qwen1.5系列发布！1100亿级别参数水平究竟如何？
2024-04-28 10:59

厚德云的博客而25日Qwen团队也终于推出了属于他们的开源1100亿参数的Qwen1.5系列。Qwen1.5采用了Transformer解码器架构。它包含了分组查询注意力（GQA），这能让它模型推理时更加高效。该模型支持32K tokens的上下文长度，同时它...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 4月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月7日

悬赏问题

¥15 Unity 2022.3.34版本安卓打包apk失败，gradle配置问题，用的是mono2x
¥15 R语言中安装bibliometrix 后运行biblioshiny出现问题
¥20 关于#android#的问题：用开发助手发现找不到控件(autojs)
¥15 dir815漏洞反弹shell失败
¥15 支付宝小程序云函数登录获取user_id失败
¥50 python for 循环速度慢
¥15 CubeMX生成的代码用keil编译有报错
¥15 Stata链式中介效应代码修改
¥15 pip安装PyAV报错
¥15 latex投稿显示click download

微调Qwen1.5数据准备

15条回答 默认 最新

问题事件

悬赏问题

15条回答默认最新