C医生 2019-03-16 01:05 采纳率: 0%
浏览 479

关于如何设置dummy而不影响X,y的问题

本人初学者,接触机器学习才个把月,不会写代码,到处复制黏贴,
学网上教程用df=pd.read_csv(本地路径)来打开数据集,
然后定义:
X = df.iloc[:,0:30]
y = df.iloc[:,[30]]
然后用train_test_split来抽样分训练和测试,这里碰到关于get_dummy的问题,
数据集里有很多无序类别,想用dummy转化,
但是get_dummy后,维度就增加了,特征也多了,y就不在原来[30]的位置上了,
等于target错了,整个模型结果都错了。
如果在定义X,y后再dummy,
也就是:
1.X = df.iloc[:,0:30]
y = df.iloc[:,[30]]
2.get_dummy
3.train_test_split,
这样的顺序好像dummy和后面的模型又没关系了,有没dummy结果跑出来一样。
请教下各位老师该如何处理dummy?
顺便问下,关于dummy,
所有的数据在放入模型跑前都要转换吗?最近在用xgboost,看网上的教程都没有转化,是xgboost不需要转化类别数据吗?

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 C++使用Gunplot
    • ¥15 这个电路是如何实现路灯控制器的,原理是什么,怎么求解灯亮起后熄灭的时间如图?
    • ¥15 matlab数字图像处理频率域滤波
    • ¥15 在abaqus做了二维正交切削模型,给刀具添加了超声振动条件后输出切削力为什么比普通切削增大这么多
    • ¥15 ELGamal和paillier计算效率谁快?
    • ¥15 file converter 转换格式失败 报错 Error marking filters as finished,如何解决?
    • ¥15 Arcgis相交分析无法绘制一个或多个图形
    • ¥15 关于#r语言#的问题:差异分析前数据准备,报错Error in data[, sampleName1] : subscript out of bounds请问怎么解决呀以下是全部代码:
    • ¥15 seatunnel-web使用SQL组件时候后台报错,无法找到表格
    • ¥15 fpga自动售货机数码管(相关搜索:数字时钟)