做数据分析时数据量不足怎么办？

我们在机器学习的案例中经常会陷入一种情况，即数据量不足，或者在维度过高的情况下，数据量相对不足。

如果是维度过高造成的数据量不足（维度灾难），我们可以用降维的方式来“缓解压力”，但是在某些情况下，即使降维之后，我们依然没有足够的数据。

比如一次调查中，我们只获得了几千份样本，那么，在数据量已经固定且很少的情况下，我们可以用什么方法，或者哪种模型来取得更好的预测性能？为什么？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
普通网友人工智能领域优质创作者 2020-11-09 15:25
关注
我还是写一些自己的理解。

其实这里所说的数据量不足，可以换一种方式去理解：在维度高的情况下，数据相对少。

举一个特例，比如只有一维，和1万个数据，那么这种情况下，我们可以认为数据量其实是足够的，因为数据密度相对来说很高。

如果数据的维度有1000维，数据量仍然有1万，这种情况下，数据的密度就相当低了。

引用wiki里的两句话：
－ The common theme of these problems is that when the dimensionality increases, the volume of the space increases so fast that the available data become sparse. This sparsity is problematic for any method that requires statistical significance. In order to obtain a statistically sound and reliable result, the amount of data needed to support the result often grows exponentially with the dimensionality.

－ With a fixed number of training samples, the predictive power reduces as the dimensionality increases, and this is known as the Hughes effect or Hughes phenomenon

简单的翻译过来就是，当维度增加的时候，训练所需要的数据量需要成指数级别的增长才能满足要求。

维度很高，且数据量不足的情况下，训练模型仅仅是去“记忆”数据，而不是去“学习”数据。因为对于高维度来说，空间的自由度非常大，在数据量相对不高的情况下，其实每一个数据都可以看成是一个“特例”，这也是造成过拟合现象的原因。

但是，高维度的情况下也有一个好处：既然空间的自由度很高，那么数据就更可能线性可分，在维度高到一定程度的时候，我们就可以认为其线性可分的概率为1 （其实这个观点是缺少严谨的数学验证的，可以参考：如何证明无穷多维的情况下，数据一定线性可分？ http://www.zhihu.com/question/35610783/answer/64040353）。

所以得出的结论是，在数据量不足的情况下（对应到高维度下的数据量不足问题），我们可以使用线性分类器来解决问题，因为其“更可能线性可分”，比如，使用SVM来分类数据量少的问题。

最近做的一个项目就遇到了这个问题，从上面的分析的基础上，可以看出线性分类器可以保证在数据量很少的情况下的性能，但是我的实际项目不能验证这一点。 :(

我的实际项目中，效果最好的还是随机森林（可以应对线性不可分的情况），而SVM和其他的一些模型并无明显差别，唯一显著的效果是，False Positive很少，不过这一点在某些情况下很重要。至于原因，现在只能理解为数据中有错误。

数据量少的时候应该选择怎样的模型，其实只能回答『That depends』，机器学习领域一大类papers都是关于如何在存在假设的数据中寻找一种合适的表示（『降维』或『升维』），以提高分类器、回归器的性能。

不如，举出几个具体问题，比如数据的形式（图像或者文本，是否有缺失），数据的规模（样本数和维度大小），数据中存在的结构信息（稀疏、低秩）。这样更容易回答。

维度非常高1000多维度，并且每个维度都很重要，数据量很少，是调查结果，只有近万份，数据是很稀疏的，基本上是连续值。在这种情况下，如何选择模型？为什么？

这其实还是一个比较一般的问题，我尽量从一个比较一般的角度回答，描述的也都是一些常用的简单的做法，假设要做的是一个分类问题，我描述一下我拿到这样一份数据的做法（流程），面对实际情况，我们总是一步一步来，先分析数据，尝试最简单的方案，再作调整。已知：1000维的feature，近10000的sample，而且数据是稀疏的。

首先，尝试一下常用的线性分类器，比如SVM、LR这些，看训练误差和测试误差的差异，这个时候可能出现多种情况。

(1) 如果训练误差远小于测试误差，说明分类器已经过拟合了，考虑如何避免过拟合。

(2) 如果训练误差与测试误差差不多，但是测试误差太大，说明模型复杂度很可能不够。

(3) 如果训练误差与测试误差差不多，而且测试误差已经足够小，结束。

针对(1)，这个时候产生了严重的过拟合，这意味着样本数目不够，一般我们没法补充样本。那么就要考虑如何采用提高泛化能力，如果数据没有很特别的性质（稀疏、低秩等），我们可以考虑添加一些常用正则化项，比如L2-norm，还可以使用一些常用的降维方法（其实也就是常用的假设），比如PCA（假设方差小的数据分布方向是噪声产生的）、LDA。如果数据中有一些性质，比如题主提到feature是稀疏的，由于数据来自『调查结果』，所以很多时候不是数据稀疏，而是数据不完整（被调查的对象没有提供这部分数据，而不是它没有这部分属性），那么可以通过补全这些feature来降低缺失带来的影响，比如假设样本构成矩阵，每一列有一个样本组成，那么我们可以对进行低秩分解，比如，这样的一个列就代表了的一个列，与的乘积又补全了，此时，用作为训练样本可能得到更好的结果。再比如，数据中存在大量的污染，一些废的feature其实对label影响不大，那么我们可以考虑去除一些feature，降低参数空间，从而提高泛化性，简单的方法是给训练参数加稀疏正则项，比如常用的L1-norm（要是觉得不够系数还可以用capped L1-norm、Lp-norm、SCAD、MCP这些更加稀疏的正则化项），来过滤掉不重要的feature。总而言之，要依赖于数据的特点（除了上面提到的特性，也许还存在正负样本不平衡等性质），设计出减小过拟合程度的方案。

针对(2)，可以采用更加复杂的模型，比如带隐变量的模型，比较典型的就是Neural Network，当然这不是唯一的选择，还有决策树以及ensemble类的方法GBDT、Random Forest等。

针对不同情况选择合适的模型之后，观察现在的训练误差和测试误差。回到第(1),(2),(3)步，继续考察新方案。针对具体的业务问题，关键在于迭代得更新方案（不断优化泛化性能），发现数据的新的特性，最终设计出合适于具体业务的模型。

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 做CSV 批量数据分析处理 python 数据分析数据结构
2022-12-27 09:04

回答 7 已采纳 ##路径改成你的应该可以直接跑，试一下 import pandas as pd import os path='desktop/CM_report_C00/' dirs=os.listdir(
两列时间序列数据怎么用apriori算法做关联分析呢？(语言-python) python 数据分析算法
2022-06-01 14:01

回答 3 已采纳原始数据—>滑动窗口L=10截取原始数据得到N个子序列—>线性拟合—>标准化斜率—>子序列符号化处理—>Apriori算法我觉得这个说的挺清楚的啊，关联算法本身解决的是各
有偿求eta相关性分析python代码 python 数据分析
2022-12-23 20:50

回答 5 已采纳 import pandas as pd from scipy.stats import chi2_contingency # 读入数据 df = pd.read_csv('data.csv') #
111个Python数据分析实战项目，代码已跑通，数据可下载
2022-12-05 19:45

qazwsxpy的博客 111个Python数据分析实战项目，代码已跑通，数据可下载
python 对csv 文件进行批处理 python 数据分析数据结构
2023-04-10 16:03

回答 8 已采纳占坑答题，先答复你的第一个小目标，每天搞一个小目标，按照统一的时间的格式来对文件名进行操作，假设source文件夹下有几个csv的文件，以下是代码片段： import os folder_path
数据分析 求解怎么做 list python tornado
2021-07-02 17:39

回答 1 已采纳 1、y 升2、()3、不是4、能5、降序
pyhton数据处理相关问题 python 数据分析
2022-05-27 23:43

回答 1 已采纳这个要看你的csv 保存的格式是怎么样的。大概思路就是读csv ，如果值是数字型，那做下转换。然后就是遍历数据，调用 GenotypePhenotypeMap。
手把手教你使用Python做数据分析
2021-05-20 11:00

三猪技术团队的博客二、数据分析是做什么的 数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以...
数据分析求解怎么做 list python virtualenv
2021-07-05 11:24

回答 1 已采纳第6题是大括号
Excel、数据库、pandas（python第三方库）之间怎么取舍？数据分析
2022-05-04 21:35

回答 1 已采纳建议pandas，代码的好处就是做过一次以后都可以用，而且在一些操作上更便捷还不容易出错，就是前期写代码需要考虑的情况尽可能都考虑进去，如果仅仅是做过一次下次就不做的就可以直接用excel即可。数据库
有没有好用的字典结构数据分析工具 python
2022-10-17 14:05

回答 1 已采纳转换为json，然后使用json的工具查看
电商销售数据分析（Python）
2022-04-04 15:42

QYiRen的博客 2.分析目标 3.数据准备 4.数据清洗 4.1查看是否含有缺失值 4.2查看是否有异常值 4.3数据整理 5.具体目标分析 5.1分析每年销售额的增长率 5.2各个地区分店的销售额 5.3销售淡旺季分析 5.4新老客户数 5.5...
数据统计分析，量有点大，要编程统计，可以发红包 python
2021-10-05 16:01

回答 1 已采纳 hello
Python大作业——爬虫+可视化+数据分析+数据库（数据分析篇）
2021-12-17 17:56

得过且过的勇者y的博客 Python大作业——爬虫+可视化+数据分析+数据库（数据分析篇） Python大作业——爬虫+可视化+数据分析+数据库（简介篇） Python大作业——爬虫+可视化+数据分析+数据库（爬虫篇） Python大作业——爬虫+可视化+数据...
【python与数据分析】Python与数据分析概述
2022-09-11 17:45

数据人的自我救赎的博客 数据分析的介绍与Python在数据分析方面的应用
没有解决我的问题, 去提问

悬赏问题

¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题

做数据分析时数据量不足怎么办？

2条回答 默认 最新

悬赏问题

2条回答默认最新