想找一个英文的二元分类数据集，类似sst2这种

希望数据集大小在300K左右
因为最近在复现论文，但是因为模型初试的数据集我用的更大，所以微调数据集也要更大……
想请问各位有没有类似sst2这样的二元分类的英文数据集，大小在300k左右，谢谢各位。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-22 14:25
关注
引自免费微信小程序：皆我百晓生

为了满足您的需求，您可以考虑使用IMDb电影评论数据集。这是一个广泛使用的二元情感分析数据集，非常适合进行自然语言处理任务。它包含50,000条电影评论，分为正面评价和负面评价。由于您需要大约300,000个样本，我们可以对原始数据进行扩增，例如通过反转文本（将正面变为负面，反之亦然）或使用数据增强技术来实现。

首先，让我们安装必要的库，包括torchtext用于加载数据，以及一些用于数据预处理和扩增的库。

!pip install torchtext !pip install transformers

接下来，我们将定义一个函数来下载并准备IMDb数据集，并将其扩大到所需的大小。

import torch from torchtext.data import Field, BucketIterator from torchtext.datasets import IMDB from transformers import AutoTokenizer def prepare_imdb_dataset扩大_data_size(size=300000): # 定义文本和标签字段 TEXT = Field(tokenize='spacy', tokenizer_language="en_core_web_sm", lower=True) LABEL = Field(sequential=False, use_vocab=False, dtype=torch.float) # 加载原始数据集 train_data, test_data = IMDB.splits(TEXT, LABEL) # 创建词汇表 TEXT.build_vocab(train_data, max_size=None, min_freq=1) LABEL.build_vocab(train_data) # 对训练数据进行扩增 augmented_train_data = [] for text, label in train_data: augmented_train_data.append((text, label)) augmented_train_data.append((f"{' '.join(text.split()[::-1])}", 1.0 - label)) # 将扩增后的数据集转换为Torch Dataset对象 dataset = torch.utils.data.TensorDataset(torch.tensor([d[0] for d in augmented_train_data]), torch.tensor([d[1] for d in augmented_train_data])) # 分割数据集为训练集和验证集 split_index = int(len(dataset) * 0.8) train_dataset, valid_dataset = dataset[:split_index], dataset[split_index:] # 创建迭代器 train_iterator, valid_iterator = BucketIterator.splits((train_dataset, valid_dataset), batch_size=64, sort_within_batch=True, device=device) return train_iterator, valid_iterator, TEXT, LABEL # 设定设备（CPU或GPU） device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 准备扩大后的数据集 train_iterator, valid_iterator, TEXT, LABEL = prepare_imdb_dataset()

现在，您已经准备好了一个大约300,000个样本的二元分类数据集，可以用来微调模型。请注意，这个过程可能需要一些时间，因为它涉及到大量的数据处理和扩增。

在这个例子中，我们没有使用预训练的Transformer模型进行预测，但如果您打算这样做，可以使用Hugging Face的Transformers库加载预训练模型，然后根据数据集对其进行微调。例如，您可以使用BERT、RoBERTa或DistilBERT等模型。这将涉及定义模型、损失函数、优化器，然后执行训练和验证步骤。如果您需要这部分的代码示例，请告诉我，我会提供完整的代码段。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

任何一个二元关系都是4NF database sql sqlite
2023-03-19 21:28

回答 2 已采纳关于二元关系的范式有两个关于二元关系的范式：4NF 和 BCNF。它们之间的区别在于范式的定义和限制条件。任何一个二元关系都是4NF( 对 ) 这是正确的。4NF（第四范式）是指在一个关系模式中，如
求类似二元一次方程组问题 c语言
2022-01-04 22:59

回答 2 已采纳 x，y都是非负整数吗？ #include<stdio.h> int main(){ int x,y; for(x=5;x>=0;x--){ y=5-x
编写一个解二元一次方程的程序。 c语言
2019-10-27 22:34

回答 1 已采纳对于这种有语法、词法分析要求的输入方式，简单用scanf语句来解决可能不太合适。常见的解决方法： 1. 用 if/else枚举所有可能的变化。对于二元一次方程，固定格式的情况可以这样处理。x的系数、
【大模型评测】常见的大模型评测数据集
2024-01-17 10:16

子非Yu@Itfuture的博客同时评测分为两部分，自动...MMLU 是一个包含了 57 个子任务的英文评测数据集，涵盖了初等数学、美国历史、计算机科学、法律等，难度覆盖高中水平到专家水平，有效地衡量了人文、社科和理工等多个大类的综合知识能力。
想实现一下这个二元运算符操作数的反转，134行这里为什么会报错 c++
2022-01-20 17:55

回答 1 已采纳代码都木有，怎么回答
用c语言写一个二维数组储存数据 c++ c语言有问必答
2021-09-14 15:56

回答 3 已采纳写好了 #include <stdio.h> int main (void) { int i,j,a=0,b=0,t1,t2,stu[5][5]={0}; for(i=0
采用Wilson模型拟合二元相平衡数据问题，请教各位 c++ 有问必答
2022-02-10 11:42

回答 2 已采纳摩尔体积可由液相密度ρ计算（v= 1/ρ），物体的液相密度ρ一般是常量
AI人工智能之Langchain-Chatchat项目：4.2-P-Tuning v2使用的数据集
2023-12-13 13:46

人工智能大模型chatGPT培训咨询叶梓的博客 6.MNLI(Multi-Genre Natural Language Inference) 同样由纽约大学发布，是一个文本蕴含的任务，在给定前提（Premise）下，需要判断假设（Hypothesis）是否成立，其中因为MNLI主打卖点是集合了许多不同领域风格的...
C语言初学者求解决二元一次方程问题 c语言有问必答
2021-10-22 21:39

回答 2 已采纳输入的时候别输入逗号！！！！要么改成scanf("%f,%f,%f",&a,&b,&c);要么输入的时候是1 4 4，不要加逗号，逗号不是默认分隔符
用numpy求解二元一次方程组的解出错 python 有问必答
2021-10-04 19:11

回答 2 已采纳答案是正确的，注意答案给的是科学计数法 4.440892 乘 10的负17次方，是一个很接近 0 的值为什么不是 0 而是一个很接近 0 的值，是因为计算机储存浮点数采用近似值储存，所以运算结果会有
java里求解二元一次方程的根为什么会出现NAN 的结果呀找不到我哪错了 java javascript 开发语言
2021-10-19 10:54

回答 3 已采纳 a，b，c没有传给eq吧
AI 的测试：模型的基准测试
2023-08-22 18:21

CrissChan的博客在评估一个模型的时候，仅通过ROUGE、BLEU SCORE评价模型还是太单薄了，并不能全面的反馈模型的能力。在相完整评估一个模型的能力的时候，最重要的是提供一套有效的评估模型。现在常见的模型的基准测试有 GLUE、...
二元一次方程求根问题 c语言
2022-09-24 13:05

回答 1 已采纳输出格式改为"x1=%.2f\nx2=%.2f"你的公式写错了，你应该用()把2*a括起来你应该检查一下b*b-4*a*c的值是否小于0，如果是，则无实数解
全网公开的大模型评测数据集整理
2024-02-26 10:26

代码讲故事的博客全网公开的大模型评测数据集整理。
BERT论文解读及情感分类实战
2024-04-09 23:23

Icy Hunter的博客本文将先介绍架构和技术细节，然后介绍一个使用IMDB数据集情感分类的实战。IMDB数据集分为25000条训练集和25000条测试集，是情感分类中的经典公开数据集使用BERT模型进行情感分类，测试集准确率达到93%
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月22日

悬赏问题

¥15 表达式必须是可修改的左值
¥15 如何绘制动力学系统的相图
¥15 对接wps接口实现获取元数据
¥20 给自己本科IT专业毕业的妹m找个实习工作
¥15 用友U8：向一个无法连接的网络尝试了一个套接字操作，如何解决？
¥30 我的代码按理说完成了模型的搭建、训练、验证测试等工作(标签-网络|关键词-变化检测)
¥50 mac mini外接显示器画质字体模糊
¥15 TLS1.2协议通信解密
¥40 图书信息管理系统程序编写
¥20 Qcustomplot缩小曲线形状问题

想找一个英文的二元分类数据集，类似sst2这种

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新