微调Qwen1.5-7B-Chat数据格式
博主,您好。我非常喜欢您的博客,目前我微调Qwen-7B遇到了一些困难,如果您能解决我的问题,感激不尽。
项目背景:
我的项目是先将通话内容转换为文字,再对文字做三个任务:摘要提取,关键词提取,代办事项提取。
问题:
如果我需要对Qwen1.5B做微调,我是需要将这三个任务放在一条数据中,还是将三个任务分开来做比较好?
数据集的格式是什么呢?
数据大概多少条比较合适呢?
提示词如下:
prompt = f"""
任务要求:
- 根据所提供的对话内容,生成对话摘要。
- 列出对话中提及的所有待办事宜。
- 从对话中提取出三个最关键的关键词。
输出格式:
请按照以下JSON格式提交您的答案:
{{
"对话摘要": "对话的简短概述...",
"待办事宜": ["任务1", "任务2", "任务3"],
"关键词": ["关键词1", "关键词2", "关键词3"]
}}
JSON格式说明:
- "对话摘要"(str):对对话内容的简短总结。
- "待办事宜"(list[str]):列出对话中需要完成的任务。
- "关键词"(list[str]):从对话中提炼出的三个核心词汇。
示例:
{{
"对话摘要": "本次对话涉及了项目进展的讨论以及安排下周的会议。",
"待办事宜": ["提交项目报告", "准备会议资料", "收集客户反馈"],
"关键词": ["项目进展", "会议安排", "客户反馈"]
}}
请根据以上要求处理下面的对话:
{text}
"""