丹尼尔库勒 2022-11-15 11:52 采纳率: 50%

已结题

kaggle的Facebook签到项目knn准确率低

kaggle上边这个签到的项目有同学做过没有，为啥用KNN全量跑只有10%多一点的准确率呀[流泪]
Facebook V：Predicting Check ins

全量3000w差不多，反而只拿两万条跑还有30%准确率，下面是代码：

import pandas as pd
import numpy as np
import datetime
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
import gc #做内存释放

1、获取数据

data = pd.read_csv(r'E:\kaggle dataset\train.csv')

2、基本的数据处理

1）缩小数据范围

data = data.query("x<2.5 & x>2 & y<1.5 & y>1.0") #83197 rows × 6 columns

data.head()

2)处理时间特征

time_value = pd.to_datetime(data["time"], unit="s") #Name: time, Length: 83197
date = pd.DatetimeIndex(time_value)
data["day"] = date.day
data["weekday"] = date.weekday
data["hour"] = date.hour
data.head()

3)过滤签到次数少的地点

place_count = data.groupby("place_id").count()["row_id"] #2514 rows × 8 columns
place_count[place_count > 3].head()
data_final = data[data["place_id"].isin(place_count[place_count>3].index.values)]
data_final.head() #80910 rows × 9 columns

筛选特征值和目标值

x = data_final[["x", "y", "accuracy", "day", "weekday", "hour"]]
y = data_final["place_id"]

数据集划分

x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

3、特征工程：标准化

transfer = StandardScaler()
x_train = transfer.fit_transform(x_train) # 训练集标准化
x_test = transfer.transform(x_test) # 测试集标准化
x_train.shape

a = datetime.datetime.now()

4、KNN算法预估器

1) 单次训练

estimator = KNeighborsClassifier(n_neighbors=1) #单次训练预先设置参数

estimator.fit(x_train, y_train) #开始训练

2) 加入网格搜索与交叉验证

参数准备

estimator = KNeighborsClassifier() #超参数搜索不需提前设置参数
param_dict = {"n_neighbors": [1,2,3,4,5,7,8,9,10]}
estimator = GridSearchCV(estimator, param_grid=param_dict, cv=2) # 10折，数据量不大，可以多折
estimator.fit(x_train, y_train) #开始训练

计算运行时间

b= datetime.datetime.now()
print(a.strftime('%Y-%m-%d %H:%M:%S'),'\n',b.strftime('%Y-%m-%d %H:%M:%S'),'\n')

a = datetime.datetime.now()

5、模型评估

方法1：直接比对真实值和预测值

%time y_predict = estimator.predict(x_test)

print("y_predict:\n", y_predict)

%time print("直接必读真实值和预测值：\n", y_test == y_predict) # 直接比对

方法2：计算准确率

%time score = estimator.score(x_test, y_test) # 测试集的特征值，测试集的目标值
print("准确率：", score)

计算运行时间

b= datetime.datetime.now()
print(a.strftime('%Y-%m-%d %H:%M:%S'),'\n',b.strftime('%Y-%m-%d %H:%M:%S'),'\n')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

kaggle平台不能删除已有的框架吗 tensorflow 机器学习自然语言处理
2022-10-29 13:00

回答 1 已采纳这种情况在后面打一个”Y“试试其实tensorflow2.0版本和1.0版本的相差很大，如果你用的是2.0版本的，但代码是1.0，可以在引入模块中加入以下语句import tensorflow.com
kaggle泰坦尼克 python 有问必答
2022-01-24 23:14

回答 5 已采纳你输出一下最终处理完的titanic，你看一下里面有没有survived字段或者输出一下列名看一下：titanic.columns
Kaggle训练Yolov5模型 python 有问必答
2022-04-08 20:06

回答 2 已采纳指令输进去,类似于python train.py --.yaml --cfg .yaml --weights pretrained/yolov5s.pt --epoch 100 --batch-siz
机器学习基础——分类算法之K近邻算法（KNN)、预测facebook签到位置案例
2022-08-12 22:10

不会统计的大河马的博客机器学习里面的knn算法，比较细节得分析了一个 kaggle上面的完整案例，包括处理数据、拟合模型和测试模型，计算准确率等。
在做kaggle中的titanic为什么报错呢？机器学习
2018-11-24 10:02

回答 3 已采纳该问题是由于sklearn中模块的迁移和更新导致的 **解决方法一**：不理会版本情况直接将 ``` from sklearn.model_selection import KFold
CBIS-DDSM kaggle 资料处理 python 数据分析数据挖掘
2023-02-06 16:18

回答 3 已采纳 #复制文件函数 def copy_files(l,dd): for n in range(len(dd)): d=re.findall(r'/(.*)/', dd.loc[n,
kaggle现在是不是提交不了答案了？机器学习
2021-07-11 08:47

回答 1 已采纳之前遇到是因为网络不稳定，连上VPN就好了
facebook签到位置预测（KNN算法）
2020-11-13 18:29

你今天更博学了吗的博客 1、读取数据所使用数据集来源Kaggle平台,文件大小有1.2G，包含2918万条数据，数据量太大，电脑配置不高，跑不动要卡死机。所以我这边只选取60万条数据，进行本次模型...预测值与测试数据集对比，评估模型准确率 ...
kaggle CBIS-DDSM 依照breast density分类图片 python 数据挖掘机器学习
2023-03-23 16:48

回答 4 已采纳 import os import shutil import pandas as pd import re import cv2 #区分roi和cropped图片 def classify_img
采用kaggle训练yolov5口罩模型，出现Dataset not found问题 opencv 人工智能计算机视觉
2022-10-22 11:19

回答 1 已采纳
kaggle云端部署的stable diffusion运行时Lora模块没法儿用 python
2023-03-27 12:09

回答 2 已采纳看起来是lora.py文件中的lora_apply_weights函数出了问题，函数中使用了“|”操作符，但是“|”操作符不支持type类型，所以报错了。可以尝试把“|”操作符改成“or”，看看是否可
K-近邻算法案例——facebook签到位置预测
2023-01-01 18:56

粥粥坠腻害的博客 KNN算法案例
大二了，后面想考研应该怎么办(语言-python) python 人工智能机器学习
2022-05-31 09:32

回答 2 已采纳既然你选择的是人工智能，你可以选择OpenCV视觉模型训练，先训练一个模型，如何看里面底层代码怎么运行的，如果可以你也可以更改该库的底层代码。人工智能少不了图像处理的，也可以给你以后打好基础，另外就不
案例：K-近邻算法-预测facebook签到位置
2021-12-20 13:44

IT瘾君的博客案例：K-近邻算法-预测facebook签到位置
机器学习基础之《分类算法（4）—案例：预测facebook签到位置》
2023-08-23 15:43

csj50的博客 place_id：预测用户将要签到的位置。accuracy：定位的准确率。row_id：签到行为的编码。x y：坐标系，人所在的位置。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月15日

悬赏问题

¥20 大数据采集用Python爬取猫眼电影数据
¥15 用freertos后NVIC里系统时钟部分报错
¥15 后缀表达式的计算算法问题
¥15 安装mid360驱动后，执行rviz_MID360.launch rviz不显示
¥15 关于#人工智能#的问题：（2）设计一个GUI，允许语音和文本实现谣言的检测
¥50 请教麒麟系统挂载怎么安装
¥15 如何在ns3中实现路径的自由切换
¥20 SpringBoot+Vue3
¥15 IT从业者的调查问卷
¥65 LineageOs-21.0系统编译问题

kaggle的Facebook签到项目knn准确率低

1、获取数据

2、基本的数据处理

1）缩小数据范围

data = data.query("x<2.5 & x>2 & y<1.5 & y>1.0") #83197 rows × 6 columns

2)处理时间特征

3)过滤签到次数少的地点

筛选特征值和目标值

数据集划分

3、特征工程：标准化

4、KNN算法预估器

1) 单次训练

estimator = KNeighborsClassifier(n_neighbors=1) #单次训练预先设置参数

estimator.fit(x_train, y_train) #开始训练

2) 加入网格搜索与交叉验证

参数准备

计算运行时间

5、模型评估

方法1：直接比对真实值和预测值

%time y_predict = estimator.predict(x_test)

print("y_predict:\n", y_predict)

%time print("直接必读真实值和预测值：\n", y_test == y_predict) # 直接比对

方法2：计算准确率

计算运行时间

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新