「已注销」 2023-06-03 19:12 采纳率: 71.4%
浏览 47

python建立一个机器学习模型

本项目的主要目标是建立一个机器学习模型,该模型可以根
据 Covid-19 患者的当前症状、状态和病史预测患者是否处于高
危状态。

给出三个文件:1、训练数据:train_data.csv;2、测试数据:

test_data.csv;3、结果提交样例:test-example.csv。

训练数据给出了一些患者的症状,并标明这种症状是否是高
危病人(USMER 属性)。

测试数据给出了另一些患者的情况,但是并没有告诉你他们
的 USMER 属性,此时需要我们想办法预测出每个患者是否是高
危病人(1 或者 2)。

最终将预测的结果按照顺序整理成结果提交样例的形式,后
面会给出一个软件测试分数。
import pandas as pd
data = pd.read_csv(r'data/train_data.csv')
X = data.drop('USMER', axis=1)
y = data['USMER']

这个代码该怎么写啊

  • 写回答

2条回答 默认 最新

  • JasonH2021 2023-06-04 10:29
    关注
    1. 这是一个分类问题,常用的机器学习算法中可以解决此类问题的方法有,逻辑回归,k近邻,支持向量机,贝叶斯分类器,决策树,随机森林和XGboost等。
    2. 根据经验,这个数据集的特点应该是大规模高维稀疏,可以考虑基于决策树的分类模型。基础的决策树模型,集成的套袋算法随机森林,或者梯度提升的XGBoost方法。测试集数据没有给出标注,优先考虑XGBoost。
    3. XGBoost的参数比较多,可以借助网格搜索的方法进行调参,同时与其他分类模型的结果进行对比,找到最优参数组合。
    4. 具体的实现方法,类库xgboost和scikit-leran就完全可以对应,并且有丰富的模型评价指标计算方法。
      可以参考 [https://blog.csdn.net/JasonH2021/article/details/131020942?spm=1001.2014.3001.5501]
    评论 编辑记录

报告相同问题?

问题事件

  • 修改了问题 6月3日
  • 创建了问题 6月3日

悬赏问题

  • ¥15 delta降尺度计算的一些细节,有偿
  • ¥15 Arduino红外遥控代码有问题
  • ¥15 数值计算离散正交多项式
  • ¥30 数值计算均差系数编程
  • ¥15 redis-full-check比较 两个集群的数据出错
  • ¥15 Matlab编程问题
  • ¥15 训练的多模态特征融合模型准确度很低怎么办
  • ¥15 kylin启动报错log4j类冲突
  • ¥15 超声波模块测距控制点灯,灯的闪烁很不稳定,经过调试发现测的距离偏大
  • ¥15 import arcpy出现importing _arcgisscripting 找不到相关程序