请问一下，文本处理的时候，测试集出现训练集没有的标签，该怎么处理数据才合理？

请问一下，文本处理的时候，测试集出现训练集没有的标签，该怎么处理数据才合理？（我现在是在把标签二值化的时候，测试集和训练集的标签合并后一起放进去fit了，我这样子这样合理吗？）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
行走的人偶 2021-11-03 10:35
关注
主要还是要看需求，才能判断这类数据是否有用，如果需求指定有这个类别，那就要合并，如果没有去掉也是没问题的。
同时考虑到另一种情况，这类数据就是用来评判分类器在开放领域的能力，就是故意放一些没有训练过的类别数据去测试，看看分类器给出的结果，考验分类器是否能拒绝分类。实际应用中，分类器一般都是要考虑开放领域的识别能力，即并不是任何输入都要返回结果。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用于文本训练来分类语料的的训练合集包含比带标签数据和不带标签的数据
2023-05-15 11:56

在机器学习中，通常会将数据集分为训练集和测试集。训练集用于训练模型，而测试集则用来评估模型在未见过的数据上的表现，以判断其泛化能力。在这个文件中，每一行可能代表一个独立的文本样本，没有提供对应的类别...
人工智能训练数据集合集.zip
2021-08-23 16:17

ICDAR2003：文本识别数据集：ICDAR2003 训练集1156张 测试集 1110标签中都是每张图片上对应的单词train.txt和test.txt都是过滤之后的标签（去掉符号和小于3个字符的）。 CUTE80：CUTE80数据集，都是弧形文字，包含...
中文短信数据集-带标签
2024-02-05 23:27

train.csv和test.csv为拆分后的训练集与测试集，拆分代码为train_test_split.py。stopwords.txt为使用的停用词。基于该数据集的文本分类详见文章https://blog.csdn.net/baidu_40395808/article/details/135793836...
语音识别测试wav数据集（中文250条英文150条）
2023-06-14 14:26

语音识别技术是人工智能领域的重要组成部分，它涉及到计算机对人类自然语言声音的理解与转换。这个压缩包文件名为"语音识别测试wav数据集（中文250条英文150条）"，显然提供了一个用于测试语音识别模型的资源，其中...
人工智能测试数据集构建指南丨如何构建高质量的AI测试数据集？
2024-08-02 18:00

daopuyun的博客在开发和训练人工智能系统的过程中，数据集被划分成了不同的部分，测试集就是其中之一。在人工智能测试过程中，测试数据集是用于评估和验证人工智能系统性能的一组数据样本集合，通常包含了各种类型的输入数据，以及...
图片+TXT文本标签数据划分为训练集，验证集和测试集代码
2022-11-04 16:04

文艺痞子的博客图片+TXT文本标签数据划分为训练集，验证集和测试集代码
数据标签化：如何通过标签化数据进行文本分类和自然语言处理自然语言处理教程
2023-07-18 00:42

光子AI的博客在自然语言处理中，词性标注、命名实体识别、句法分析、语义理解、语音合成、信息检索、文档摘要等功能需要对输入文本进行分析处理。这些任务通常都涉及到大量的数据处理工作。例如，给定一个文本序列（如一段话或一...
代码实现包括生成标签文件和处理训练集及测试集
2025-09-06 22:53

张子夜 iiii的博客该代码实现了一个图像分类数据集的标签文件生成工具，主要功能包括：1) 自动创建训练集和测试集的标签文件；2) 通过遍历目录结构建立图片路径与类别标签的映射关系；3) 按格式输出到文本文件。代码使用目录顺序自动...
The Pile: An 800GB Dataset of Diverse Text for Language Modeling——一个用于语言建模的800GB多样化文本数据集
2025-01-13 01:00

Together_CZ的博客 The Pile: An 800GB Dataset of Diverse Text for Language Modeling——一个用于语言建模的800GB多样化文本数据集
预训练数据集和指令微调数据集格式的比较
2024-08-18 07:51

二分掌柜的的博客预训练数据集例子 OpenWebText 数据集 : OpenWebText 是一个用来模拟 OpenAI 的 WebText 数据集的开源预训练数据集。它从高质量的、发布在 Reddit 上且得分较高的网页内容中收集。数据格式 : OpenWebText 数据集...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 11月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月2日

请问一下，文本处理的时候，测试集出现训练集没有的标签，该怎么处理数据才合理？

1条回答 默认 最新

问题事件

1条回答默认最新