imdata = np.array(unknown_re["WindGustDir"]).reshape(-1, 1)
si = SimpleImputer(missing_values=np.nan, strategy="most_frequent")
filldata = imputer.fit_transform(imdata)
fill_data = pd.DataFrame(filldata)
fill_data.columns = ["WindGustDir"]
unknown_re.loc[:, "WindGustDir"] = fill_data
WindGustDir 是 0~15表示方向类型的整数 但是在simpleimputer的众数填充时候,会填充个7.5左右的一个不正常的数是什么原因。有什么能解释一下吗?
在填充之前的统计是这样的。
12.0 6843
6.0 6475
4.0 6341
7.0 6329
0.0 6323
10.0 6233
8.0 6228
11.0 6164
9.0 6023
13.0 5664
14.0 5599
3.0 5558
5.0 5101
2.0 4956
15.0 4589
1.0 4569
按照我的理解是将所以np.nan填充成12.但是事实上会填充一个7.554