刚接触机器学习,想问下对于预测一个应用的评分问题(0或者1),想用逻辑回归模型,但是模型准确度一直不高。有几个特征不知道怎么处理,一个是应用的评论数量,小的有个位数大的有几十万;一个是应用的大小,有几百k的也有几十M的;还有一个是应用的安装次数,小的有几十次大的有几千万。对于这种量级差别特别大的数字一般该怎么处理能提高准确度呀?或者有没有可能可行的方案我先去试试,谢谢!
还有就是一般f1score达到多少就算一个不错的模型了呢?
机器学习有关特征处理的问题
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
3条回答 默认 最新
- ??^0^???? 2023-01-04 22:01关注
当数据特征的量级差别很大的时候,通常会使用归一化来解决这个问题。归一化的方法有很多,比如将数值缩放到固定范围内,比如 [-1, 1];或者将数值缩放到 [0, 1] 区间内。这种方法可以让所有的特征在相同的尺度下处理,从而解决数据的量级差别的问题。
Python中的sklearn 库的 preprocessing 模块提供了很多常用的数据预处理方法,包括归一化的方法。你可以使用 sklearn.preprocessing.MinMaxScaler 方法进行归一化,这个方法可以将数据缩放到固定范围内,例如 [0, 1]。具体使用方法如下:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)得到的X_scaled 是一个归一化后的数据矩阵,你可以使用这个数据矩阵来训练逻辑回归模型。当然,在实际应用中,你还需要关注模型的超参数调优、特征工程等方面,才能使模型的表现得到进一步提升。
对于 F1 Score,通常会根据具体的应用场景来确定合理的 F1 Score 值。一般来说,F1 Score 在 0.5~0.7 之间的模型就比较优秀了。但是,F1 Score 是一种平衡精确率和召回率的指标,在实际应用中,精确率和召回率的权衡是需要根据具体场景来决定的。因此,有时候 F1 Score 不够高,但是精确率或召回率较高的模型也是可以被接受的。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报 编辑记录
悬赏问题
- ¥15 为啥画版图在Run DRC会出现Connect Error?可我Calibre的hostname和计算机的hostname已经设置成一样的了。
- ¥20 网站后台使用极速模式非常的卡
- ¥20 Keil uVision5创建project没反应
- ¥15 mmseqs内存报错
- ¥15 vika文档如何与obsidian同步
- ¥15 华为手机相册里面的照片能够替换成自己想要的照片吗?
- ¥15 陆空双模式无人机飞控设置
- ¥15 sentaurus lithography
- ¥100 求抖音ck号 或者提ck教程
- ¥15 关于#linux#的问题:子进程1等待子进程A、B退出后退出(语言-c语言)