机器学习训练汽车销量预测模型

根据所给数据，训练汽车销量（sale_quantity）预测模型：
1）所有特征都需要用到，不允许私自删减特征；
2）训练数据为train_sales.csv，验证数据为test_sales.csv，验证数据的提交文件为submit_sales.csv；
3）采用tran_test_split方法将train_slaes.csv划分成训练样本和测试样本，且用MAE评估测试样本 - sklearn.metrics.mean_absolute_error；
4）子题目：
A：构造新特征mean-price，取值为price_level字段的均值，例如8-12w用10表示，单位默认为万；
B：构造新特征price-diff，取值为price_level字段的最大值减去最小值，例如8-12w，price-diff为4，单位默认为万。

注意：
1）以上各题，特征处理后需要打印出新构造的特征，例如df.head()和df.shape。
2）提交结果包括3部分：新特征的df.head()和df.shape截图；训练结果和测试集评估截图；验证集结果submit文件。

数据集：链接：https://pan.baidu.com/s/1TbuTKD9unwmlWccBQdD4Jw?pwd=t1k8
提取码：t1k8

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

一切因为有你 2022-06-01 19:37

关注


import pandas as pd
import re
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error,r2_score,mean_absolute_error

path1='./data/train_sales.csv'
path2='./data/test_sales.csv'
df1=pd.read_csv(path1,encoding='gbk')

def func1(x):
    r1=re.findall('\d+',x)
    r2=[int(i) for i in r1]
    return sum(r2)/len(r2),max(r2)-min(r2)


df1['TR']=df1.TR.apply(lambda x:int(x[0]))
df1=df1.replace('-',np.nan)
df1['rated_passenger']=df1.rated_passenger.apply(lambda x: np.nan if x[-1]=='日' else x)
df1['engine_torque']=df1.engine_torque.apply(lambda x:float(str(x).split('/')[0]))
df1['power']=df1.power.apply(lambda x:float(str(x).split('/')[0]))
df1['if_charging']=df1.if_charging.apply(lambda x:1 if x=='L' else 0)
cols=['level_id','price','fuel_type_id','rated_passenger']
for c in cols:
    df1[c]=df1[c].astype(float)

df1=pd.get_dummies(df1,columns=['gearbox_type']) ##指定列哑变量，分类变量在最后
df1[['mean-price','price-diff']]=list(df1.price_level.apply(func1))
del df1['price_level']

df1=df1.fillna(df1.mean())

Y=df1.sale_quantity
X=df1[df1.columns[3:]]
x_train, x_test, y_train, y_test = train_test_split(X, Y,test_size=0.3)
model=RandomForestRegressor()
model.fit(x_train,y_train)
y_pred=model.predict(x_test)
y_train_p=model.predict(x_train)

print(df1.head())
print(df1.shape)
print('train mae: %.4f' % mean_absolute_error(y_train, y_train_p))
print('test mae: %.4f' % mean_absolute_error(y_test, y_pred))

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

报告相同问题？

关注问题

机器学习（预测模型）：超跑轿车分类数据集
2024-11-03 08:04

机器学习预测模型在超跑轿车分类数据集上的应用体现了人工智能技术在图像识别领域的巨大潜力。通过不断完善和优化模型，机器学习将能够在更多领域内提供更加精准和智能化的服务。无论是在消费者服务、自动驾驶技术...
AI人工智能领域机器学习的零售销售预测
2025-07-06 01:11

AI应用开发实战派的博客 机器学习在零售销售预测中的完整技术框架主流预测算法的原理和实现细节实际业务场景中的最佳实践和解决方案未来技术发展趋势的深入分析本文涵盖从基础概念到高级应用的完整知识体系，特别关注时间序列预测和特征工程...
机器学习入门指南：如何构建智能预测模型
2024-08-24 22:33

Undoom的博客 机器学习是一种通过自动分析和学习数据中的规律，使得计算机无需...机器学习的核心理念是基于数据构建数学模型，然后使用这个模型对新数据进行预测或分类。它是人工智能的一部分，特别擅长处理大数据环境中复杂问题。
Ebay产品销量预测模型
2025-04-18 09:13

该模型是通过人工智能技术构建的，特别是利用机器学习算法来处理大量历史销售数据，以此来预测未来产品销量。模型的训练是一个不断迭代和优化的过程，需要处理各种变量和因素，例如季节性趋势、市场需求变化、产品...
基于机器学习的超市销量预测系统.zip
2026-01-11 11:35

机器学习作为计算机科学的一个分支，近年...基于机器学习的超市销量预测系统结合了最新的人工智能技术与商业运营实际需求，无论对于提升企业经济效益，还是作为学术教育的实践项目，都具有重要的价值和广泛的应用前景。
【机器学习】走进监督学习：构建智能预测模型的第一步
2024-03-15 23:00

豌豆射手^的博客本文旨在通过系统梳理监督学习的基本概念、步骤、优缺点及适用场景，以及两种主要的监督学习方式——回归学习和分类学习，为读者提供一个全面而深入的了解，并通过具体的代码示例帮助读者更好地掌握监督学习的实践...
时间序列数据预测：14种机器学习与深度学习模型
2025-10-29 16:39

ericliu0625的博客本文系统分析了时间序列预测的主流模型，涵盖传统机器学习、统计模型和深度学习方法。重点介绍了支持向量回归、随机森林、梯度提升树等经典机器学习模型的应用方式及优缺点，详细探讨了Prophet模型的商业预测特性，...
机器学习中的模型部署：从训练到生产
2025-03-18 20:55

CarlowZJ的博客在机器学习项目中，模型训练只是第一步，将训练好的模型部署到生产环境中，为用户提供服务才是最终目标。模型部署涉及到多个环节，包括模型保存、加载、服务化和监控。本文将从模型部署的基本概念出发，介绍常用的...
关于机器学习领域的预测算法/模型基础入门
2024-11-29 16:07

计算机软件程序设计的博客在机器学习领域，预测算法/模型是用于从数据中学习模式并进行预测的关键工具。这些算法可以大致分为监督学习、无监督学习和强化学习三类。
Azure 机器学习 - 设置 AutoML 训练时序预测模型
2023-11-04 21:04

TechLead KrisChang的博客本文将介绍如何使用 Azure 机器学习自动化 ML 为时序预测模型设置 AutoML 训练。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月1日

机器学习 训练汽车销量预测模型

1条回答 默认 最新

问题事件

机器学习训练汽车销量预测模型

1条回答默认最新