使用xgboost模块，决策树预测汽车价格

大lao们，能不能帮我看一下这串代码，决策树预测，但我看不太懂，帮我注解一下，提前万分感谢
这个决策树预测是放在flask中app.py中的，用的是xgboost模块，预测的是汽车的价格，代码可能有点残，我不知道该截多少，帮我稍微瞅一眼吧，可怜我这个决策树的菜鸟吧，

def rmse(y_true, y_pred):
    return np.sqrt(mean_squared_error(y_true, y_pred))


all_y = dataset['最低指导价'].values
del dataset['最低指导价']
del dataset['最高指导价']
all_x = dataset.values

df_columns = dataset.columns.values
print('---> cv train to choose best_num_boost_round')
all_y = np.log1p(all_y)

dtrain = xgb.DMatrix(all_x, label=all_y, feature_names=df_columns)

xgb_params = {
    'learning_rate': 0.01,
    'max_depth': 4,
    'eval_metric': 'rmse',
    'objective': 'reg:linear',
    'nthread': -1,
    'silent': 1,
    'booster': 'gbtree'
}

cv_result = xgb.cv(dict(xgb_params),
                   dtrain,
                   num_boost_round=4000,
                   early_stopping_rounds=100,
                   verbose_eval=100,
                   show_stdv=False,
                   )
best_num_boost_rounds = len(cv_result)
mean_train_logloss = cv_result.loc[best_num_boost_rounds -
                                   11: best_num_boost_rounds - 1, 'train-rmse-mean'].mean()
mean_test_logloss = cv_result.loc[best_num_boost_rounds -
                                  11: best_num_boost_rounds - 1, 'test-rmse-mean'].mean()
print('best_num_boost_rounds = {}'.format(best_num_boost_rounds))

print('mean_train_rmse = {:.7f} , mean_valid_rmse = {:.7f}\n'.format(
    mean_train_logloss, mean_test_logloss))
print('---> training on total dataset to predict test and submit')
model = xgb.train(dict(xgb_params),
                  dtrain,
                  num_boost_round=best_num_boost_rounds)
# 特征重要程度
feature_importance = model.get_fscore()
feature_importance = sorted(
    feature_importance.items(), key=lambda d: d[1], reverse=True)
print(feature_importance)
print(df_columns)


@app.route('/get_all_unique_values/<key>')
def get_all_unique_values(key):
    values = list(set(ori_dataset[key]))
    if '' in values:
        values.remove('')
    if '未知' in values:
        values.remove('未知')
    return jsonify(values)


@app.route(
    '/predict_car_price/<pinpai>/<pingfen>/<jibie>/<cheshenjiegou>/<fadongji>/<biansux>/<xuhanglich>/<diandongji>')
def predict_car_price(pinpai, pingfen, jibie, cheshenjiegou, fadongji, biansux, xuhanglich, diandongji):
    """预测汽车的价格"""
    test_x = [
        brand_map[pinpai],
        float(pingfen),
        jibie_map[jibie],
        jiegou_map[cheshenjiegou],
        fadongji_map(fadongji),
        biansuxiang_map[biansux],
        xuhang(xuhanglich),
        diandongji_map(diandongji)
    ]

    dtest = xgb.DMatrix(test_x, feature_names=df_columns)
    predict_price = model.predict(dtest)[0]
    predict_price = np.expm1(predict_price)

    return jsonify({
        'predict_price': float(predict_price)
    })

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

复杂网络 2023-03-29 11:11

关注

你好，简单的为你写了一下代码注释，希望能帮到你：


# 导入numpy \xgboost \sklearn(主要是评价指标）\flask模块
import numpy as np
import xgboost as xgb
from sklearn.metrics import mean_squared_error
from flask import Flask, jsonify

# 定义 RMSE 评价指标的函数
def rmse(y_true, y_pred):
    return np.sqrt(mean_squared_error(y_true, y_pred))

# 从数据集中提取所有的最低指导价，删除最低指导价和最高指导价列，并将剩余列保存到 all_x 中
all_y = dataset['最低指导价'].values
del dataset['最低指导价']
del dataset['最高指导价']
all_x = dataset.values

# 获取数据集的所有列名
df_columns = dataset.columns.values

# 使用自然对数转换所有的最低指导价（初步的数据处理）
all_y = np.log1p(all_y)

# 将数据集和标签转换为矩阵准备送入模型
dtrain = xgb.DMatrix(all_x, label=all_y, feature_names=df_columns)

# 定义 XGBoost 参数
xgb_params = {
    'learning_rate': 0.01,
    'max_depth': 4,
    'eval_metric': 'rmse',
    'objective': 'reg:linear',
    'nthread': -1,
    'silent': 1,
    'booster': 'gbtree'
}

# 使用交叉验证来选择参数（主要是树的数量）
cv_result = xgb.cv(dict(xgb_params),
                   dtrain,
                   num_boost_round=4000,
                   early_stopping_rounds=100,
                   verbose_eval=100,
                   show_stdv=False,
                   )
best_num_boost_rounds = len(cv_result)
mean_train_logloss = cv_result.loc[best_num_boost_rounds -
                                   11: best_num_boost_rounds - 1, 'train-rmse-mean'].mean()
mean_test_logloss = cv_result.loc[best_num_boost_rounds -
                                  11: best_num_boost_rounds - 1, 'test-rmse-mean'].mean()
print('best_num_boost_rounds = {}'.format(best_num_boost_rounds))

# 输出训练误差和验证误差
print('mean_train_rmse = {:.7f} , mean_valid_rmse = {:.7f}\n'.format(
    mean_train_logloss, mean_test_logloss))

# 训练模型获取特征重要性
model = xgb.train(dict(xgb_params),
                  dtrain,
                  num_boost_round=best_num_boost_rounds)
feature_importance = model.get_fscore()
feature_importance = sorted(
    feature_importance.items(), key=lambda d: d[1], reverse=True)
print(feature_importance)
print(df_columns)

# 定义 Flask 的路由来处理请求
@app.route('/get_all_unique_values/<key>')
def get_all_unique_values(key):
    values = list(set(ori_dataset[key]))
    if '' in values:
        values.remove('')
    if '未知' in values:
        values.remove('未知')
    return jsonify(values)

代码的后半部分主要是调用了flask配置了接口，处理请求然后用训练好的模型进行预测。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(3条)

报告相同问题？

关注问题

XGBoost时间序列预测（Python完整源码和数据）
2023-05-08 17:19

通过`xgboost`模块，我们可以轻松地构建XGBoost模型并应用于时间序列预测。 **时间序列预测的基本步骤：** 1. **数据预处理**：清洗数据，处理缺失值，可能需要进行归一化或标准化。 2. **特征工程**：根据时间序列...
Python代码实现xgboost进行多输出回归预测
2025-10-14 20:16

Python_coming的博客本文介绍了一个使用XGBoost进行多输出回归预测的Python实现方法。首先导入必要的库，包括MultiOutputRegressor、xgboost和sklearn相关模块。然后读取数据文件，划分特征和目标变量（y1和y2），并将数据分为训练集和...
趋势预测方法（七）XGBoost_决策树
2021-05-24 16:01

aaakirito的博客用多个回归树将来拟合训练集，拟合好的模型需要做到多个回归树的结果之和训练集的结果一致，将该模型保存起来，之后只需要将要预测的数据再过一遍模型，即可得到预测数据结果。 b算法原理： XGBoost（由陈天奇...
Python代码实现XGBoost算法，超详细版
2025-10-14 19:44

Python冲呀的博客本文介绍了一个基于Python的XGBoost分类算法实现流程。主要内容包括：1）使用pandas加载数据并进行标签编码；2）通过train_test_split划分训练集和测试集；3）构建XGBClassifier模型并训练；4）利用测试集评估模型...
Skin-Lesion-Detector-2:使用InceptionV3 + XGBoost模型预测皮肤癌类型的Python（Flask）网络应用
2021-04-04 05:15

它优化了梯度提升决策树的实现，提供了并行化处理能力，使得模型训练更快且效果更优。在本项目中，XGBoost作为集成学习的一部分，用于对InceptionV3提取的特征进行二次学习和整合，提高分类的准确性和鲁棒性。集成...
【时间序列预测】Python实现基于BKA-XGBoost黑翅鸢优化算法（BKA）优化极限梯度提升树进行时间序列预测的详细项目实例（含完整的程序，GUI设计和代码详解）
2025-09-18 17:32

内容概要：本文详细介绍了一个基于黑翅鸢优化算法（BKA）优化极限梯度提升树（XGBoost）进行时间序列预测的完整项目实例。项目通过融合BKA与XGBoost，实现了对XGBoost超参数的智能全局寻优，显著提升了模型在复杂多...
【 Python 全栈开发 - 人工智能篇 - 44 】决策树与随机森林
2023-07-27 20:47

「已注销」的博客 决策树与随机森林
xgboost+sklearn python包，解压在环境中可以直接使用
2024-05-13 10:38

XGBoost的核心是梯度提升决策树（Gradient Boosting Decision Tree, GBDT），这是一种迭代的决策树算法，通过不断拟合残差来提高模型的预测精度。XGBoost在GBDT的基础上进行了优化，包括并行化处理、正则化控制过...
XGBoost中的层次树：构建决策树的层次结构
2023-06-29 04:13

光子AI的博客作者：禅与计算机程序设计艺术《13. XGBoost 中的层次树：...作为一名人工智能专家，程序员和软件架构师，我今天将解释如何使用 XGBoost 中的层次树构建决策树的层次结构。在开始之前，请确保您已经安装了 XGBoost
用python构建线性回归和决策树模型实现房价预测
2020-12-09 08:18

ziyin_2013的博客国家整体经济水平的不断提高和人们生活质量的提升，刺激着房屋价格也在不断的上涨。房价是由多个因素决定的，比如国家的...未来房价走势如何成为人们关心的热点，本文用Python构建线性回归和决策数模型实现房价的预测。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月10日

使用xgboost模块，决策树预测汽车价格

4条回答 默认 最新

问题事件

4条回答默认最新