【求解答】bert实现单据文本分类时，如何减少训练数据的规模

我在bert实现单据文本分类时，如何减少训练数据的规模，我只想使用前2000条数据，请各位帮帮我，以下是我的代码：

import numpy as np
from datasets import load_dataset,load_metric
from transformers import BertTokenizerFast,BertForSequenceClassification,TrainingArguments,Trainer
import requests
#加载训练数据、分词器、预训练模型和评价方法
dataset = load_dataset('glue','sst2')#path表示数据集路径，name表示子数据集
tokenizer = BertTokenizerFast.from_pretrained('bert-base-cased')#分词器对象，这里使用bert的cased版本
model = BertForSequenceClassification.from_pretrained('bert-base-cased',return_dict=True)
metric = load_metric('glue','sst2')


#对训练集分词
def tokenize(examples):#使用bert分词器(tokenizer)对数据进行处理
    return tokenizer(examples['sentence'],truncation=True,padding='max_length')#句子，截断，填充

dataset = dataset.map(tokenize,batched=True)#使用dataset.map方法将tokenize函数应用于整个数据集，batched实现批处理处理。
#将数据集的label标签放入新的数据集encoded_dataset,为模型提供标签信息以进行监督学习任务
encoded_dataset = dataset.map(lambda examples:{'labels':examples['label']},batched=True)


#将数据集格式化位torch.Tensor类型以训练PyTorch模型
#指定encoded_dataset列名
columns = ['input_ids','token_type_ids','attention_mask','labels']
encoded_dataset.set_format(type="torch",columns=columns)

#定义评价指标
def compute_metrics(eval_pred):
    predictions,labels = eval_pred
    return metric.compute(predictions=np.argmax(predictions,axis=1),references=labels)

#定义训练参数TrainingArguments,默认使用AdamW优化器
args = TrainingArguments(
    "ft-sst2",#输出路径，存放检查点和其他输出文件
    evaluation_strategy="epoch",#定义每轮结束后进行评价
    learning_rate=2e-5,#初始学习率
    per_device_train_batch_size=4,#训练批次大小
    per_device_eval_batch_size=4,#测试批次大小
    num_train_epochs=2,#训练轮数
)



#定义Trainer，指定模型和训练参数，输入训练集，验证集，分词器和评价函数
trainer = Trainer(
    model,
    args,
    train_dataset = encoded_dataset["train"],
    eval_dataset = encoded_dataset["validation"],
    tokenizer = tokenizer,
    compute_metrics = compute_metrics
)

#开始训练
trainer.train()

#训练完毕后进行测试
trainer.evaluate()

ps:我尝试使用dataset = dataset["train"][:2000],但出现报错：

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-cased and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
E:\study\project\python\chap7\Bert_SSC.py:9: FutureWarning: load_metric is deprecated and will be removed in the next major version of datasets. Use 'evaluate.load' instead, from the new library 🤗 Evaluate: https://huggingface.co/docs/evaluate
  metric = load_metric('glue','sst2')
Using the latest cached version of the module from C:\Users\Administrator\.cache\huggingface\modules\datasets_modules\metrics\glue\91f3cfc5498873918ecf119dbf806fb10815786c84f41b85a5d3c47c1519b343 (last modified on Sun Oct  8 09:39:10 2023) since it couldn't be found locally at glue, or remotely on the Hugging Face Hub.
Traceback (most recent call last):
  File "E:\study\project\python\chap7\Bert_SSC.py", line 16, in <module>
    dataset = dataset.map(tokenize,batched=True)#使用dataset.map方法将tokenize函数应用于整个数据集，batched实现批处理处理。
AttributeError: 'dict' object has no attribute 'map'

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2023-10-09 06:09
关注
引自强大而免费的微信小程序：皆我百晓生。

在你的代码中，你使用了dataset = load_dataset('glue','sst2')来加载数据集，然后使用dataset = dataset.map(tokenize,batched=True)对数据集进行分词。然而，当你尝试使用dataset = dataset["train"][:2000]来减少训练数据的规模时，出现了报错。

报错信息提示了AttributeError: 'dict' object has no attribute 'map'，这说明dataset已经被转化为一个字典，而不是一个Datasets对象。这可能是因为你选择了数据集的某个子集，而不是整个数据集。因此，当你尝试对dataset进行分词时，会出现错误。

如果你只想使用前2000条数据进行训练，你可以在加载数据集时使用.select(range(2000))来选取前2000条数据，然后再进行分词和其他处理。修改你的代码如下：

dataset = load_dataset('glue','sst2') dataset = dataset['train'].select(range(2000)) # 选取前2000条训练数据 tokenizer = BertTokenizerFast.from_pretrained('bert-base-cased') ...

这样就可以只使用前2000条数据进行训练了。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

BERT文本二分类LOSS变化 bert pytorch 分类
2023-03-24 21:10

回答 1 已采纳对于严重不均衡的数据集，模型容易出现偏差，导致对于少数类的预测效果较差。因此，需要对数据集进行一些处理来平衡数据，以提高模型的预测能力。具体处理方法有以下几种：过采样（Oversampling）：
Bert二分类结果分析 bert 分类自然语言处理
2023-03-27 22:47

回答 3 已采纳该回答引用自ChatGPT 有几个可能的原因可以导致risk类别的预测f1-score始终为0：数据不平衡问题：尽管您使用了Focal Loss来改善数据不平衡问题，但如果risk类别的训练数据量非
bert模型训练时sklearn.__check_build._check_build问题 bert python sklearn
2023-04-06 17:58

回答 3 已采纳试试以下命令 pip uninstall sklearn pip install numpy scipy pip install scikit-learn
文档智能理解：通用文档预训练模型与数据集
2020-11-25 20:21

datayx的博客向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayx预训练模型到底是什么，它是如何被应用在产品里，未来又有哪些机会和挑战？预训练模型把迁...
bert输出的概率值 bert 人工智能深度学习
2023-04-16 09:38

回答 2 已采纳这个 test_results.tsv 文件中的数据表示了每个输入样本在每个类别上的概率。在你提供的数据中，有两列，因此我猜测你的模型是一个二分类问题。第一列表示属于类别 0 的概率，第二列表示属于类
bert二分类返回值是否可以输出 bert 深度学习自然语言处理
2023-04-13 10:40

回答 1 已采纳是的，对BERT模型进行微调后，可以输出二分类的结果，通常为0和1。在进行相似度分析时，BERT模型可以将两个输入文本编码为向量，然后计算这两个向量之间的相似度得分，将相似度得分输入到一个二元分类器中
BERT问题，无法解决，求帮助？ bert python tensorflow
2021-07-21 10:53

回答 1 已采纳你要打印这个line的值看看，是不是有两个元素能取到[1] 这个索引
Document AI: Benchmarks, Models and Applications
2024-02-19 15:17

liferecords的博客文档人工智能（Document AI）或文档智能（Document Intelligence）是一个相对较新的研究课题，指的是自动读取、理解和分析业务文档的技术。它是自然语言处理和计算机视觉的重要研究方向。近年来，深度学习技术的普及...
Bert训练完成的结果该怎么分析？ bert python 自然语言处理
2023-04-07 14:10

回答 2 已采纳 BERT 训练完成后，可以根据准确率、精确率、召回率和 F1 分数等指标进行分析。和前人的这些指标比较。要提高 BERT 模型的准确性，可以尝试以下策略：增加训练次数；更换学习率、优化器、丢弃率；使
问下有人知道和BERT论文用的一模一样的预训练源数据从哪找吗自然语言处理
2021-03-23 11:39

回答 1 已采纳貌似需要自己爬 Wikipedia + bookcorpus ，一些参考： https://github.com/NVIDIA/DeepLearningExamples/blob/master/Py
keras训练二分类模型acc一直0.5 loss一直是0.69怎么办? tensorflow 人工智能深度学习
2021-03-18 16:11

回答 2 已采纳帮你改了下代码，路径你自己再改改，验证集acc能跑到0.8以上了。 import os import tensorflow as tf from tensorflow.keras import S
什么是文档智能？微软亚研最新《文档智能：数据集、模型和应用》综述
2022-07-31 17:31

人工智能学家的博客来源：专知微软亚洲研究院最新《文档智能：数据集、模型和应用》综述文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术...
你好你好，我最近在尝试用bert模型进行情感分析三分类，看了你的博客受益匪浅，但是遇到了一些问题 bert python
2022-05-22 19:36

回答 1 已采纳这种差不多有两种情况，一个是设置参数过大导致GPU内存不足一开始就无法承载模型，这时可以把输入数据长度或者训练批次逐步调小进行实验；二是GPU其实可以承载模型，参数也没问题，但是可能由于多次运行程序或
【ChatOCR】OCR+LLM定制化关键信息抽取（附开源大语言模型汇总整理）
2024-06-25 21:02

程序员鬼鬼的博客在Apache-2.0协议下开源了中文LLaMA模型和指令精调的Alpaca大模型，以进一步...Generations 训练出来的助手式大型语言模型，这个模型接受了大量干净的助手数据的训练，包括代码、故事和对话，提供的模型性能接近text-
万字长文：大语言模型或将重塑现代金融市场工作者的工作方式
2024-09-01 10:15

AI_小站的博客是当今人工智能领域的一大重大突破性技术，基于大量的密集的文本数据的训练，通过自我监督和半监督学习的方式，从文本文档中训练学习相关的统计关系以达到对人类自然语言的理解与生成。技术原理上，大语言模型主要...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月8日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

【求解答】bert实现单据文本分类时，如何减少训练数据的规模

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新