用深度学习做文本分类，需要多大的样本量？准备自己构建数据集，正负样本比例最大不能大于多少？

自己构建数据集，所有想知道最低样本量，还有正负样本比例可能会失衡，所有比例最大是多少？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-07-31 08:20
关注
这个不可一概而论。看你是在什么场景下分类，如果是特定的一些内容，比如用户简单的评价做正面负面分类，很少的样本就可以了。
如果要在自然语境中无限的分类，那么就需要很大的样本。
另外和你的模型、模型的参数/超参数、由此得到的模型的泛化能力也有关，和你的优化算法也有关。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【机器学习&深度学习】为什么分类任务中类别比例应接近 1:1？
2025-07-08 14:14

一叶千舟的博客在严重类别不平衡下，准确率高 ≠ 模型好。我们需要真正让模型“看到”少数类，并能有效识别它们，才能解决实际问题。
小样本不符合正态_目标检测小tricks--样本不均衡处理
2020-11-03 12:52

weixin_39787397的博客引言当前基于深度学习的目标检测主要包括：基于two-stage的目标检测和基于one-stage的目标检测．two-stage的目标检测框架一般检测精度相对较高，但检测速度慢；而one-stage的目标检测速度相对较快，但是检测精度相对...
使用BERT模型实现文本二分类任务（包括数据不平衡问题）
2024-06-06 23:03

2301_79590979的博客需要注意的是，我的任务本来是多分类任务，但是由于数据本身存在不平衡的现象，计算机辅助分类的效果很差，因此我将多分类任务转化成多个二分类任务，也就是说，这段python脚本只需要判断输入的文本是否属于某个类别...
深度学习02-神经网络(MLP多层感知器)
2023-05-09 18:55

liaomin416100569的博客神经网络是一种基于生物神经系统结构和功能...学习机器学习后，学习神经网络可以帮助你更深入地理解模式识别和人工智能领域的基础知识。神经网络在很多领域都有广泛的应用，例如计算机视觉、自然语言处理、语音识别等。
LLaMA Factory 微调教程：如何构建高质量数据集？
2025-06-12 19:55

AI程序猿人的博客一起来学习如何构建高质量的微调数据集。在开始学习之前，首先我们先补充演示一下，我们整体这次微调教程中，微调案例的一个最终效果。在本教程中，我们微调的基础模型是 Qwen2.5-7B-Instruct ，目标是微调后让其...
yolov5-realsense深度信息目标检测（构建自己的数据集模型）
2021-12-08 21:35

小凯的学徒生涯的博客 yolov5-realsense深度信息目标检测（构建自己的数据集模型）训练准备： 1.安装运行yolov5代码略 2.制作训练数据集 目标训练数据集，应大于50张图片以上（1）使用OpenCV拍摄640X480（32倍数）（相机尺寸）的图片并...
打造顶尖LLaMA模型：独家微调教程，高质量数据集构建秘诀大公开！
2025-06-20 13:31

程序员辣条的博客强调数据集质量对微调效果的决定性影响，80%时间应用于数据准备数据处理流程：格式转换（Alpaca/ShareGPT格式）对话模板应用分词与标签分配（IGNORE_INDEX标记）常见问题规避：数据量不足、噪声多、样本偏差、...
ASAYAR：多语言交通标志文本数据集
2025-10-26 08:03

9o8p7i6u5y的博客本文提出ASAYAR数据集，包含1763张摩洛哥高速公路图像，涵盖阿拉伯文-拉丁文双语文本...该数据集支持多任务检测，适用于文本定位与目标识别研究，填补了阿拉伯语场景文本数据的空白，并通过多种SOTA模型验证其有效性。
【深度学习收藏】强化学习在大模型中的偏好对齐：原理、算法与应用详解
2025-12-27 11:20

冻感糕人~的博客本文系统梳理了强化学习在大模型偏好对齐中的应用。首先介绍强化学习核心机制与传统监督学习的区别，然后详细阐述PPO、GRPO、DAPO等主流算法在大语言模型中的实践，包括InstructGPT、DeepSeekMath等典型案例，最后...
特征正交化新思路：Orthogonal Projection Loss在少样本学习中的妙用
2025-10-05 12:08

五行擒拿术的博客本文深入探讨了Orthogonal Projection Loss在少样本学习中的应用。该损失函数通过强制不同类别的特征向量在特征空间中趋向正交，有效缓解了数据稀缺场景下的特征混淆问题，从而提升模型的判别力与泛化能力。文章结合...
论文深度解析：基于大语言模型的城市公园多维度感知解码与公平性提升
2026-01-12 16:11

rgb2gray的博客本文针对城市公园感知测量的精细化不足与公平性评估缺口，提出了一套融合社交媒体数据与大语言模型（LLM）的创新分析框架。通过领域适配微调开发的Park-Perception-LLM模型，实现了对感知可达性、可用性、吸引力三大...
没有解决我的问题, 去提问

用深度学习做文本分类，需要多大的样本量？准备自己构建数据集，正负样本比例最大不能大于多少？

1条回答 默认 最新

1条回答默认最新