我用的语言是pyspark,用 rf 训练模型并预测,训练集和测试集维度一致,52个特征,提取特征的方式一样。
训练集730个正样本,然后随机选取3500个负样本合并后再提取特征,训练模型没出问题,但无法输出预测结果,代码应该是没有问题的,不知道哪里忽略了,实在不知道出现的这个错误是什么原因。
望指点,不胜感激!
最后几句代码如下:
prediction=model.transform(predict_data)
result=prediction.select("user_id","item_id","prediction")
result.createOrReplaceTempView("result")
spark.sql("drop table if exists result1")
spark.sql("create table result1 as SELECT user_id,item_id FROM result WHERE prediction>0 ") ### 程序没问题,现在错在这里
spark.sql("select count(1) from result1").show()