Dear恩予 2025-09-12 14:54 采纳率: 0%

在autodl服务器上完成数据集的微调

求解决问题：请使用Bert语言模型，在cmrc2018阅读理解数据集上进行微调，使模型能够完成简单的抽取式阅读理解任务，即问答任务。
说明：
1、需要在autodl服务器上配置运行，推荐显卡配置3090
2、使用精准匹配度EM和模糊匹配度F1作为评估指标，并进行展示（F1需大于80%）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

檀越@新空间 2025-09-12 14:55

关注

下午好🌅🌅🌅
本答案参考通义千问

在AutoDL服务器上使用 BERT 模型对 CMRC2018 数据集进行微调，以完成抽取式阅读理解任务（问答任务），是一个典型的NLP任务。以下是详细的步骤说明和代码示例。

📌 一、环境准备

1. 登录 AutoDL 服务器

访问 AutoDL 官网，创建一个实例。
推荐配置：选择 3090 显卡 的实例（如 A100 或 RTX 3090），内存建议 24G+。

2. 安装必要的依赖库

在终端中执行以下命令：

# 安装 PyTorch（根据显卡型号选择版本）
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118

# 安装 transformers 库
pip install transformers

# 安装 datasets 和 evaluate 用于评估
pip install datasets evaluate

# 安装 sentencepiece（用于 BERT tokenizer）
pip install sentencepiece

🧠 二、数据准备（CMRC2018）

1. 下载 CMRC2018 数据集

你可以从 CMRC2018 官方地址获取数据，或通过 Hugging Face 加载：

from datasets import load_dataset

dataset = load_dataset("cmrc2018")
train_dataset = dataset["train"]
validation_dataset = dataset["validation"]
test_dataset = dataset["test"]

注意：如果无法直接加载，可以手动下载并上传到 AutoDL 服务器，然后用 load_from_disk() 加载。

🤖 三、模型加载与预处理

1. 加载 BERT 模型和 Tokenizer

from transformers import BertTokenizer, BertForQuestionAnswering

model_name = "bert-base-chinese"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForQuestionAnswering.from_pretrained(model_name)

2. 数据预处理函数

def preprocess_function(examples):
    questions = [q.strip() for q in examples["question"]]
    contexts = [c.strip() for c in examples["context"]]
    answers = examples["answer"]
    
    # 将答案转换为起始和结束位置
    tokenized = tokenizer(
        questions,
        contexts,
        truncation="only_second",
        padding="max_length",
        max_length=512,
        return_offsets_mapping=True,
        return_tensors="pt"
    )
    
    # 找到答案的起始和结束索引
    start_positions = []
    end_positions = []
    
    for i in range(len(answers)):
        answer = answers[i]
        if not answer:
            start_positions.append(0)
            end_positions.append(0)
            continue
        
        # 将答案文本转为token的位置
        answer_start = answer["answer_start"]
        answer_text = answer["text"]
        
        # 获取 offset mapping
        offset_mapping = tokenized.offset_mapping[i]
        
        # 找到答案对应的token起始和结束位置
        start_idx = None
        end_idx = None
        
        for j, (start, end) in enumerate(offset_mapping):
            if start == answer_start:
                start_idx = j
            if end == answer_start + len(answer_text):
                end_idx = j
        
        if start_idx is None or end_idx is None:
            start_positions.append(0)
            end_positions.append(0)
        else:
            start_positions.append(start_idx)
            end_positions.append(end_idx)
    
    tokenized["start_positions"] = start_positions
    tokenized["end_positions"] = end_positions
    
    return tokenized

3. 应用预处理

tokenized_datasets = train_dataset.map(preprocess_function, batched=True)
val_tokenized = validation_dataset.map(preprocess_function, batched=True)

🛠 四、训练模型

1. 设置 Trainer 参数

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    num_train_epochs=3,
    weight_decay=0.01,
    save_strategy="epoch",
    load_best_model_at_end=True,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets,
    eval_dataset=val_tokenized,
)

2. 开始训练

trainer.train()

🔍 五、模型评估（EM & F1）

1. 使用 `evaluate` 库计算指标

from evaluate import load

em = load("exact_match")
f1 = load("f1")

def compute_metrics(p):
    predictions, labels = p
    # 取出预测的 start 和 end 位置
    start_logits, end_logits = predictions
    # 转换为预测的答案
    predicted_answers = []
    for i in range(len(start_logits)):
        start_idx = start_logits[i].argmax()
        end_idx = end_logits[i].argmax()
        predicted_answers.append(tokenizer.decode(tokenized_datasets[i]["input_ids"][start_idx:end_idx+1]))
    
    # 原始答案
    original_answers = [example["answer"]["text"] for example in validation_dataset]
    
    em_score = em.compute(predictions=predicted_answers, references=original_answers)
    f1_score = f1.compute(predictions=predicted_answers, references=original_answers)
    
    return {
        "exact_match": em_score["exact_match"],
        "f1": f1_score["f1"]
    }

# 在验证集上评估
metrics = trainer.evaluate()
print(f"EM: {metrics['exact_match']}, F1: {metrics['f1']}")

✅ 六、结果要求

F1 分数需大于 80%
EM 分数越高越好

🧪 七、优化建议（可选）

| 优化项 | 说明 | |--------|------| | 学习率调整 | 可尝试 1e-5 或 5e-5 | | 批量大小 | 若显存不足，可降低 per_device_train_batch_size | | 模型结构 | 可尝试 bert-large-chinese 提升性能 | | 早停机制 | 在 TrainingArguments 中添加 early_stopping_patience |

📦 八、完整代码（简化版）

from transformers import BertTokenizer, BertForQuestionAnswering, TrainingArguments, Trainer
from datasets import load_dataset
from evaluate import load

# 1. 加载数据
dataset = load_dataset("cmrc2018")
train_dataset = dataset["train"]
val_dataset = dataset["validation"]

# 2. 加载模型和 tokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")
model = BertForQuestionAnswering.from_pretrained("bert-base-chinese")

# 3. 预处理函数
def preprocess_function(examples):
    # ... （同上文）

# 4. 应用预处理
tokenized_datasets = train_dataset.map(preprocess_function, batched=True)
val_tokenized = val_dataset.map(preprocess_function, batched=True)

# 5. 训练器设置
training_args = TrainingArguments(...)
trainer = Trainer(...)

# 6. 训练
trainer.train()

# 7. 评估
def compute_metrics(p):
    # ... （同上文）

metrics = trainer.evaluate()
print(f"EM: {metrics['exact_match']}, F1: {metrics['f1']}")

📌 总结

✅ 完成目标的关键点如下：

正确加载 CMRC2018 数据集
使用 BERT 模型进行微调
实现抽取式 QA 的预处理逻辑
使用 EM 和 F1 作为评估指标
确保 F1 > 80%

如果你需要我帮你生成完整的 Python 脚本文件或提供进一步的调试帮助，请告诉我！

报告相同问题？

关注问题

Llama2大语言模型在云GPU（AutoDL）上进行训练微调（自定义数据集）
2024-07-13 21:13

小孟lp的博客自定义自己的数据集，对Llama2大语言模型在云GPU（AutoDL）上进行训练微调
大模型微调【2】之使用AutoDL进行模型微调入门
2025-08-17 15:18

缘友一世的博客大模型微调【2】之使用AutoDL进行模型微调入门
【AutoDL租赁服务器，通过LLaMA-Factory框架微调大模型】使用LoRA微调Qwen通义千问大模型，包含服务器租赁、镜像与模型部署、数据集以及模型微调等。
2025-02-25 14:00

JasonAI爱街舞代码的博客内容包括：AutoDL注册认证、服务器租赁配置、JupyterLab控制台操作、模型部署与数据集准备、可视化界面启动等关键步骤。教程重点讲解了LoRA微调方法，相比全量微调可大幅降低计算资源消耗。同时提供了SSH连接服务器...
在autodl平台使用llama-factory微调Qwen1.5-7B
2024-05-01 22:11

yidao0618的博客编写 dataset_info.json 文件首先计算 ruozhiba.json 文件的sha1sum, sha1sum /root/autodl-tmp/Data/LF/ruozhiba.json 添加自定义数据集的配置信息, 把 ruozhiba.json 文件的sha1 值添加到文件中，"ruozhiba" 为...
在Autodl上部署llamafactory微调大模型(包括如何打开webui的公共URL）
2025-05-22 21:02

风谐的博客要使用公有连接要autodl-tmp/LLaMA-Factory/src/llamafactory/webui/interface.py文件下最后改成...（最好下载前开启学术加速，因为后面也要开，我这里忘记开了，但也下载好了）设置好数据集和微调参数就可以训练啦~
【chatglm3】（3）：在AutoDL上，使用4090显卡，部署ChatGLM3API服务，并微调AdvertiseGen数据集，完成微调并测试成功！附视频演示。
2023-11-13 22:56

fly-iot的博客载处理好的 AdvertiseGen 数据集，将解压后的 AdvertiseGen 目录放到本目录下。对于输入输出格式的微调，可使用 inference.py 进行基本的推理验证。AdvertiseGen以商品网页的标签与文案的信息对应关系为基础构造。来...
在autoDL的服务器上部署Qwen-7B-Int4并进行微调(用于记录)
2024-06-18 20:14

weixin_73891211的博客建议拉取到本地,上传至阿里云盘后再拉进autoDL的实例,具体过程参照。观察输出可以发现大模型已经可以稳定地按照我们的要求去分析问题,微调成功。进行的学习,若您认为本文有侵权行为,请联系我进行修改或删除。
【LLaMA-Factory】【autoDL】：大模型微调实践
2024-10-23 11:31

马武寨山的猴子的博客后面我仔细阅读文档，修改了 dataset_info.json文件，可以通过数据，达到内存溢出哪一步。但是结果路径也可以直接使用训练结果的文件夹，会有训练成功的下拉框选项。更改模型：因为我的数据是对话模式的，所以需要...
AI大模型ms-swift框架实战指南（十）：自定义数据集微调实践大全
2025-04-24 16:00

寻道AI小兵的博客本实战指南将详细介绍如何使用Swift框架对自定义数据集进行微调，从模型准备、数据集准备，到模型微调、推理，再到模型合并与加速推理，一步步带领大家完成整个微调流程，帮助你更好地利用自定义数据提升模型的表现...
大模型微调全流程：AutoDL+LLaMA-Factory助力渔业智能化，附详细代码与数据集！
2025-10-15 09:54

ai大模型-的博客文章详细记录了如何使用Qwen2.5-VL-3B-Instruct-AWQ模型，...内容包括在AutoDL平台租用算力、安装依赖、上传数据集、配置参数、训练模型及评估的全过程。文章强调数据集大小和质量、模型参量和超参数对模型性能的影响。
基于Autodl云服务器微调专属你的GLM4-9B-Chat的LLM
2024-07-23 17:58

qq_43919498的博客事实上仅需要安装trl一个库就搞定了 3、增加自定义数据集将其命名为train.json，在dataset_info.json中增加如下图③的说明附自定义数据集的构造形式，最基本的Alpaca格式，注意编码格式，开头中括号，数据来源：...
(小白0基础) 租用AutoDL服务器进行deepseek-8b模型微调全流程(Xshell,XFTP) —— 准备篇
2025-04-03 21:13

HEY_FLYINGPIG的博客租用服务器 本文详细讲述了我从AutoDL上租用服务器并在服务器上微调deepseek全流程 AutoDL算力云 | 弹性、好用、省钱。租GPU就上AutoDL 购买3090 24G服务器，哪一个都行选择基础镜像，这里选择3.10避免不必要的...
基于deepseek的私有数据集微调及多卡分布式训练
2025-02-17 02:54

智模睿脑君的博客分布式训练能够更快地完成模型训练，从而加速模型迭代和优化过程。
python系列&deep_study系列：搬运_chatglm3 AutoDL 微调AdvertiseGen数据集
2024-07-06 17:44

坦笑&&life的博客搬运_chatglm3 AutoDL 微调AdvertiseGen数据集
怎么在AutoDL上面使用HuggingFace（亲测有效）
2025-01-31 17:29

逐梦苍穹的博客在AutoDL上面使用HuggingFace，2025年1月29日亲测有效
AutoDL微调打怪升级
2025-02-09 12:17

啊我有兔子牙的博客回到lamafactory的界面，，方法同上述部署模型方法一致，把加载模型路径改为微调模型的输出路径就行了（就是上图的路径）/root/autodl-tmp/myModel，模型名字没变，因为它就是Qwen-7B-Chat的升级版，底层架构啥的都...
LLM：在AutoDL上进行Vicuna 7B模型简单部署体验
2023-04-16 15:13

我是一个对称矩阵的博客随着ChatGPT的火热，科技公司们各显神通，针对大语言模型LLM通常需要极大的算力支持，且没有开源，阻碍了进一步的研究和应用落地。受 Meta LLaMA 和 Stanford Alpaca 项目的...本文将尝试在3090上运行Vicuna-7B模型。
PyCharm远程连接Autodl服务器训练自定义Yolov8数据集实战指南
2025-10-03 19:10

Nate Hillick的博客在深度学习项目中，选择合适的计算平台是成功训练高效...本章将系统性地讲解如何在 Autodl 平台上完成从实例创建到 YOLOv8 框架完整部署的全过程，涵盖资源管理、环境配置、CUDA 驱动安装及依赖库集成等关键技术环节。
【云端深度学习训练与部署平台】AutoDL连接VSCode运行深度学习项目的全流程
2025-07-12 17:31

一叶千舟的博客本文详细介绍了 AutoDL 平台的使用方法，从平台简介、服务器租用、VSCode远程连接，到高级GPU监控工具的安装，适合中文开发者快速上手深度学习任务。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月12日