二1- 2023-05-27 13:21 采纳率: 60%
浏览 11
已结题

用决策树编写一个训练集

可以看看这两个问题:怎么降低精确度和别的编写出特征的方法吗?




```import pandas

from sklearn.tree import DecisionTreeClassifier

from sklearn.model_selection import train_test_split

td=pandas.read_csv(r'C:\Users\Hana\Desktop\TaxDetection.csv',encoding='utf-8')
td.info()

features=['营业场所面积','登记天数','注册资金(万元)','专职人员总数','中级以上职称人员总数','参加财税培训人员总数','业绩合同数量','异地评审场所个数','异地营业场所面积(平方米)','经度','纬度','纳税不遵从记录']
x=td[features]
y=td['纳税不遵从记录']


x_mean = x.mean(axis=0)
x_std = x.std(axis=0)
x_scaled = (x-x_mean)/x_std
X_train, X_test, y_train, y_test = train_test_split(
x_scaled, y , stratify=y, random_state=42)
tree = DecisionTreeClassifier(random_state=0)
tree.fit(X_train, y_train)
print("Accuracy on training set: {:.3f}".format(tree.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(tree.score(X_test, y_test)))

```

  • 写回答

2条回答 默认 最新

  • zxbo2017 2023-05-27 15:53
    关注

    降低精度的方法可以考虑将数据中的数值型特征进行精度截断,例如将小数点后保留两位的数值轻微舍入,以达到降低精度的目的。

    另外,编写特征的方法可以考虑以下几点:

    1、探索更多相关特征:可以对数据集进行更多的探索,寻找和目标变量相关的特征,例如特定的行业、公司类型等等。

    2、特征组合:可以考虑将多个特征组合起来形成新的特征,例如将货币单位和注册资金合并为新的特征,或者通过业绩合同数量和专职人员总数得到新的特征,等等。

    3、特征选择:可以通过特征选择算法,例如方差分析、相关矩阵等,来筛选出对预测目标有较大影响的特征,以减少模型的复杂度和提高预测效果。

    4、数据预处理:可以通过数据清洗、特征缩放、特征变换等方法对原始数据进行预处理,以消除噪声,减少数据的冗余和提高特征的表现能力。
    特征衍生:可以通过已有的特征进行进一步衍生,例如通过地理坐标计算距离或者通过时间戳得到更加细粒度的时间特征等。
    5、领域知识:可以结合具体领域的知识和经验对数据进行特征工程处理,例如在金融领域中,可以根据股市走势和市场数据构造特征来预测股票价格或指数变动等。

    总的来说,特征工程是机器学习中非常重要的一步,通过合适的特征工程方法和技巧,可以极大地提高模型的预测效果和准确率。

    评论

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 6月11日
  • 修改了问题 5月27日
  • 修改了问题 5月27日
  • 创建了问题 5月27日