
19:53 |48.7K/sK
糖尿病数据集是 Sklearn 提供的一个标准数据集。它从 442 例糖尿病患者的资料中选取了10个特征——年龄、性别、体重、血压和6个血清测量值,以及这些患者在一年后疾病发展的病情量化值。糖尿病预测问题的任务是根据上述10个特征预测病情量化值。图3.27是读取糖尿病数据集的程序,其中load_diabetes函数返回特征矩阵X与标签向量y。

import pandas as pd
from sklearn.linear_model import LinearRegression
regr = LinearRegression()
regr.fit(X,Y) # 拟合
print('各系数为:' + str(regr.coef_))
print('常数项系数k0为:' + str(regr.intercept_))
import statsmodels.api as sm # 引入线性回归模型评估相关库
X2 = sm.add_constant(X)
est = sm.OLS(Y, X2).fit()
est.summary()
# 预测
regr.predict(x)