我想用R构建一个医学临床问题的决策树,但我不知道要收集多少样本才可以,至少是多少呢?还有就是医学问题适合用决策树吗?
收起
多少样本是没有限制的,除了样本数量以外,更重要是要看问题的任务难度和数据的质量,建议先收集一部分数据,然后通过交叉验证等方法去看效果,如果效果很好那就可以了,如果不行的话,看看是增加样本数量或者改进数据质量或者转换任务目标。个人的比赛和项目经验来说的话,无论什么样的任务,最少得有百级的样本才能达到比较好的泛化效果。
报告相同问题?