用决策树编写一个训练集

可以看看这两个问题：怎么降低精确度和别的编写出特征的方法吗？




```import pandas

from sklearn.tree import DecisionTreeClassifier

from sklearn.model_selection import train_test_split

td=pandas.read_csv(r'C:\Users\Hana\Desktop\TaxDetection.csv',encoding='utf-8')
td.info()

features=['营业场所面积','登记天数','注册资金（万元）','专职人员总数','中级以上职称人员总数','参加财税培训人员总数','业绩合同数量','异地评审场所个数','异地营业场所面积（平方米）','经度','纬度','纳税不遵从记录']
x=td[features]
y=td['纳税不遵从记录']


x_mean = x.mean(axis=0)
x_std = x.std(axis=0)
x_scaled = (x-x_mean)/x_std
X_train, X_test, y_train, y_test = train_test_split(
x_scaled, y , stratify=y, random_state=42)
tree = DecisionTreeClassifier(random_state=0)
tree.fit(X_train, y_train)
print("Accuracy on training set: {:.3f}".format(tree.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(tree.score(X_test, y_test)))

```

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zxbo2017 2023-05-27 15:53
关注
降低精度的方法可以考虑将数据中的数值型特征进行精度截断，例如将小数点后保留两位的数值轻微舍入，以达到降低精度的目的。

另外，编写特征的方法可以考虑以下几点：

1、探索更多相关特征：可以对数据集进行更多的探索，寻找和目标变量相关的特征，例如特定的行业、公司类型等等。

2、特征组合：可以考虑将多个特征组合起来形成新的特征，例如将货币单位和注册资金合并为新的特征，或者通过业绩合同数量和专职人员总数得到新的特征，等等。

3、特征选择：可以通过特征选择算法，例如方差分析、相关矩阵等，来筛选出对预测目标有较大影响的特征，以减少模型的复杂度和提高预测效果。

4、数据预处理：可以通过数据清洗、特征缩放、特征变换等方法对原始数据进行预处理，以消除噪声，减少数据的冗余和提高特征的表现能力。
特征衍生：可以通过已有的特征进行进一步衍生，例如通过地理坐标计算距离或者通过时间戳得到更加细粒度的时间特征等。
5、领域知识：可以结合具体领域的知识和经验对数据进行特征工程处理，例如在金融领域中，可以根据股市走势和市场数据构造特征来预测股票价格或指数变动等。

总的来说，特征工程是机器学习中非常重要的一步，通过合适的特征工程方法和技巧，可以极大地提高模型的预测效果和准确率。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python利用c4.5决策树对鸢尾花卉数据集进行分类（iris）
2022-05-27 16:08

在本项目中，我们主要探讨如何使用Python编程语言和C4.5决策树算法对鸢尾花卉数据集（Iris dataset）进行分类。这个数据集是机器学习领域经典的多类分类问题实例，常用于教学和实验。以下是相关知识点的详细说明： ...
决策树 4个信息计算公式手动实现
2021-10-31 14:55

在决策树中，熵用于评估一个节点的不确定性。计算公式为：\( H(X) = -\sum_{i=1}^{n} p_i \log_2{p_i} \)，其中 \( n \) 是类别数量，\( p_i \) 是第 \( i \) 类在样本中的比例。 2. **信息增益（Information Gain...
鸢尾花分类实验-决策树_鸢尾花实验_鸢尾花分类实验-决策树_
2021-10-04 06:36

决策树的工作原理是通过一系列的“如果-那么”规则来构建一个树形结构，每个内部节点代表一个特征，每个分支代表该特征的一个可能值，而每个叶子节点则对应一个类别决策。在构建过程中，算法会选择最优特征进行分割...
17.6.1（决策树，学习新语言的五点）1
2022-08-04 17:07

它通过构建类似于流程图的结构来模拟决策过程，其中每个内部节点代表一个特征或属性测试，而叶节点则表示最终的决策结果。这种结构使得决策树易于理解和解释，因为它们直观地展示了如何根据一系列条件进行决策。 ...
python编程实现决策树算法
2021-10-25 20:58

int main(void)的博客最近布置了个课堂作业，用python实现决策树算法。整了几天勉勉强强画出了棵歪脖子树，记录一下。大体思路： 1.创建决策树My_Decision_Tree类，类函数__init__()初始化参数、fit()进行决策树模型训练、predict()...
决策树算法详解[项目源码]
2025-11-12 16:25

在实际应用中，通过编写代码实现决策树算法是掌握和运用这一方法的重要环节。代码实现部分通常涉及数据处理、树结构构建、决策规则的应用等步骤，通过编程语言如Python、R等，可以将理论转化为可执行的程序。决策...
决策树分类_IDl_envi_决策树_决策树分类_
2021-09-29 02:20

决策树分类是一种广泛应用的数据挖掘技术，它通过模拟人类决策过程，用树状结构来表示不同特征之间的关系。在本主题中，我们重点关注的是在ENVI（Environment for Visualizing Images）经典环境中利用IDL...
基于Python与西瓜书理论的简单决策树分类器源码实现与可视化设计
2024-10-04 12:08

在本项目中，我们采用了Python编程语言结合西瓜书理论，具体而言是结合《机器学习》一书中关于决策树的知识，开发了一个简单而直观的决策树分类器。该分类器的实现基于Python这一强大的编程工具，主要利用了pandas、...
【机器学习实战】3、决策树
2018-03-13 22:23

呆呆的猫的博客 (声明：本文内容来自机器学习实战和统计学习方法，是...用决策树分类：从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子节点，此时每个子节点对应着该特征的一个取值，如此递归的对实例进行测
决策树-机器学习 -C语言期末课设
2022-10-26 19:16

5. 测试与预测：使用`test_tree`这样的测试数据集，对构建好的决策树进行测试，计算准确率等评估指标，验证模型性能。在这个C语言课设中，你可能需要实现决策树算法的各个部分，并将其整合到一个可读性强、易于...
python:基于ID3算法的决策树应用男女分类
2022-04-26 20:23

运用python对ID3算法原理进行编写，然后应用再男女分类上，形成树。读者可以直接使用，可根据自己的需求修改训练集和测试集
决策树实验报告代码大全
2022-10-18 17:03

- **个人工作** 主要是编写CART算法的程序，包括理解Gini指数，实现决策树的构建，并在使用和不使用sklearn的情况下对比结果。 3. **实验条件** - **硬件**：普通计算机 - **软件**：Windows操作系统，Python...
决策树的创建与使用决策树进行分类
2022-11-13 22:28

weixin_54881329的博客假设在我们不断细分的过程中，发现所有的特征值都用完了所以需要返回当前类别，这个类别就用分到这个...先建立一个数据集，里面每行数据代表一个样本，每个样本的前三个数据代表三个特征，第四个数据代表样本的分类。
自编程实现决策树（使用ID3算法）
2021-04-16 16:32

Happy_change的博客不使用sklearn中的决策树方法，根据以下数据集自己编写决策树构建程序（建议用python语言）。 Tid Refund Marital Status Taxable Income Cheat 1 yes single 125k no 2 no married 100k no 3 no single...
决策树Python头歌
2024-04-23 20:17

2301_80289624的博客任务描述本关任务：编写一个使用决策树算法进行信息增益计算及结点划分的程序。 决策树模型 决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价...
决策树汇报专用手动推演代码大全
2022-10-18 17:01

决策树是一种常用的数据挖掘技术，尤其在预测建模和分类问题中发挥着重要作用。它通过构建一棵树状模型，将数据...在实际项目中，使用编程语言（如Python的sklearn库）实现决策树模型，可以自动化这些过程，提高效率。
GBDT决策树模型开发代码
2020-07-31 18:54

1. **Python**: 这意味着我们将使用Python编程语言来实现GBDT模型，Python是数据科学领域广泛使用的语言，拥有丰富的库支持，如scikit-learn。 2. **GBDT决策树**: GBDT是一种基于梯度提升的决策树算法，它通过迭代...
Lab3 决策树分类器的构建及应用实验_201812261730205181
2022-08-03 12:49

实验中，你需要实现两个决策树，一个基于ID3算法，另一个基于C4.5算法，两者都使用Iris数据集进行训练。然后，你可以比较它们在鸢尾花分类上的效果，例如查看分类报告，分析误分类情况，以及探讨可能的改进方法，如...
决策树之ID3算法以及决策树挑西瓜代码实现
2021-11-02 18:58

One2332x的博客在机器学习中，决策树是一种预测模型，代表的是一种对象属性与对象值之间的一种映射关系，每一个节点代表某个对象，树中的每一个分叉路径代表某个可能的属性值，而每一个叶子节点则对应从根节点到该叶子节点所经历的...
机器学习与数据挖掘--编程实现基于信息增益进行划分选择的决策树
2022-10-27 15:58

Oneday_Byte的博客编程实现基于信息增益进行划分选择的决策树算法
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 6月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月27日

用决策树编写一个训练集

2条回答 默认 最新

问题事件

2条回答默认最新