文本分类，调用模型时报错：含有1165个feature，要求1000个feature怎么解决？

是因为测试集没有做和训练时一样的降维处理吗？

我使用了vec = TfidfVectorizer(ngram_range=(1, 2), analyzer='char')和selector = SelectKBest(f_classif, k=1000)降低训练集和验证集的维度

调用模型时，测试集降维是要求和训练时降维方法相同还是只要降到一样维度就可以？

若使用同样方法降维，应该怎么做？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Alexxinlu 2021-06-11 09:37
关注
一般情况下，要保证训练和测试的数据集预处理和降维的方式一样，不然就算维度一样，效果也不会好的，要保证训练集和测试集的分布一样才行。

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在pycharm中使用一个py文件调用另一个py文件时报错 python
2020-04-12 22:54

回答 2 已采纳因为你没有设置环境变量。但PyCharm在运行时不使用“python”，而使用Python的完整路径，如“C:\Python\Python36\python.exe”，因此不会报错。Python的库o
为什么用python3.5调用fdfs_client时报错ImportError: No module named 'mutagen'？ python
2019-04-19 15:55

回答 1 已采纳需要pip install mutagen和pip install requests
python调用cv2.findContours时报错：ValueError: not enough values to unpack (expected 3, got 2) python
2019-02-17 23:01

回答 4 已采纳把OpenCV 降级成3.4.3.18 就可以了，在终端输入pip install opencv-python==3.4.3.18
中文信息处理实验8——基于逻辑斯蒂回归模型的文本分类
2023-01-01 11:35

木子一个Lee的博客实验数据采用htl_del_4000宾馆情感分析数据进行处理，所有数据已按照情感极性划分为褒(pos)贬(neg)两类，各2000篇，每个文本文件为一篇文章，实验数据需要先进行分词，分词方法不限。对数据集进行划分，对同一批数据...
java调用webservice时报 faultString: (404)Not Found java
2016-04-12 02:32

回答 5 已采纳我已经知道了是有一个地址写错了
c语言：判断整数是否既是5又是7的整倍数（调用一个函数的方法） c语言
2021-12-21 19:36

回答 2 已采纳 #include <stdio.h> void fun(int n); int main() { int n; scanf("%d",&n); fun(n);
如何将训练好的BP神经网络模型保存并可以在其他py文件中直接调用？ python 有问必答机器学习神经网络
2021-06-09 10:53

回答 2 已采纳这个需要建立字典封装起来
李宏毅ML作业笔记4: RNN文本情感分类
2021-08-06 23:49

lagoon_lala的博客文本情感分类句子喂入RNN的方式半监督 data格式代码思路加载数据集正确个数计算 word embedding 数据预处理 RNN模型构建 RNN模型训练改进尝试报告题目描述RNN RNN 的模型架構 word embedding...
vue同一页面使用同一个公共组件props传值数据冲突覆盖，怎么解决？ javascript vue.js
2020-09-02 16:19

回答 3 已采纳同一个页面的是可以复用同一个组件传不同的值得，至于你这个我怀疑是v-model='search.eclassIds的原因，你两个组件双向数据绑定的值是一样的
这个宏调用为什么错了？？
2015-11-07 14:34

回答 2 已采纳 error C2124: divide or mod by zero 究其原因，是因为宏定义过程中，变量默认为整型处理，才会导致0除。把程序稍微改一改，变成： ``` #define
函数嵌套的调用~求三个数中最大数和最小数的和 c++ c语言
2022-06-23 12:11

回答 2 已采纳 main里你没有调用函数啊，也没有输入三个变量int a,b,c,sum;scanf("%d%d%d",&a,&b,&c);sum=Max(a,b,c)+Min(a,b,c);printf("Max+
机器学习可视化技术（Towards Data Science）
2022-11-20 15:09

吃果冻不吐果冻皮的博客变分自编码器 (VAE) 是一种概率生成模型，用于创建一些输入数据（例如：图像）的潜在表示，能够简洁地理解原始数据并从中生成全新的数据（例如：训练 VAE 模型具有不同的汽车设计图像，然后可以建模以创建全新的富有...
Java里面已创建了get、set方法，但调用时报错，显示方法未定义，这是为什么？ eclipse java java-ee
2020-06-16 20:04

回答 4 已采纳没保存，你看你的Person类上有个*
大模型相关整理
2024-03-10 15:22

韦远科的博客也叫基础大模型（Foundation Model）：包括大语言模型（LLM）、底层通常是深度神经网络；具有大规模的参数：10亿、百亿、千亿、万亿；具有复杂的神经网络结构；采用海量数据训练而成；基于大量数据训练出来的神经...
学习笔记：深度学习（4）——卷积神经网络（CNN）PyTorch实践篇
2022-04-14 20:27

新四石路打卤面的博客小白PyTorch超快上手，采用CNN做了一个手写数字识别，一个MINST手写数字预测，以及尝试了Kaggle的Spaceship Titanic案例。
没有解决我的问题, 去提问

悬赏问题

¥15 用三极管设计—个共射极放大电路
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 牛顿斯科特系数表表示

文本分类，调用模型时报错：含有1165个feature，要求1000个feature怎么解决？

1条回答 默认 最新

悬赏问题

1条回答默认最新