聚类分析和生长混合模型比较

在论文中使用纵向数据作轨迹，体现异质性。
以往有种方法为 “生长混合模型”（GMM）。本文是使用聚类分析对轨迹聚类，分cluster。
讨论部分需讨论这两种方法的比较、优缺点（统计不是自己做的），希望能侧重于对处理“纵向数据、轨迹”方面。在网上查阅资料发现专业性太强无法自己归纳理解，烦请各位指点

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
丨封尘绝念斩丨 2022-03-04 08:32
关注
k均值聚类
假设每个 cluster 存在一个中心点，该 cluster 内的所有数据项到这个中心点的欧式距离（勾股定理的扩展：各维度差的平方求和再开方）都小于到其他 cluster 中心点的距离。算法的任务就是找出这些 cluster 的中心点。K-means 算法先随机选取 K （唯一的算法参数）个点作为中心点，然后通过计算欧式距离来给所有数据项归类。归类之后使用平均值算法（mean）重新计算每个类的中心点，继续计算距离归类，直到中心点不再变化，此时视为收敛完成。
算法简单，容易理解。计算量不大，收敛快。可以很方便的进行分布式计算。默认所有属性对距离的影响是相同的，默认所有数据均匀分布在聚类中。如果数据是三维空间中的圆柱体，模型就失效了。
高斯混合模型（GMM）
假设每个聚类的数据都是符合高斯分布（又叫常态分布或者正态分布）的，当前数据呈现的分布就是各个聚类的分布叠加在一起。使用 EM 算法求解，具体没搞太明白。大概就是两个参数先随机指定一个，然后算另外一个，最后跟结果比较。
不容易理解，需要翻翻统计学的教材。假设各个特征的权重不同，假设各个聚类中的数据分布不均匀。理论上可以拟合任何连续函数。计算量较大。如果其中一个聚类的数据并不服从正态分布、偏态分布，聚类算法会出现偏差。
GMM，学习的过程就是训练出几个概率分布，所谓混合高斯模型就是指对样本的概率密度分布进行估计，而估计的模型是几个高斯模型加权之和（具体是几个要在模型训练前建立好）。每个高斯模型就代表了一个类（一个Cluster）。对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。
理论上可以通过增加Model的个数，用GMM近似任何概率分布

解决无用
评论打赏
分享
举报
1人已打赏

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Pycharm 聚类分析 pycharm python
2022-01-23 09:45

回答 2 已采纳
R语言，用系统聚类法对数据进行聚类分析，并与Kmeans聚类结果进行比较 r语言有问必答
2021-10-05 19:11

回答 2 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
Python 关于聚类模型的评估：x_cluster和score 怎么理解 python 数据分析机器学习
2022-01-31 21:12

回答 1 已采纳 model.fit_predict(x)函数对数据x进行聚类，x_cluster是聚类结果的，就是得到每个数据点的类标签。然后用metrics.silhouette_score()对聚类结果的好坏进行
分类与群组：解析分类和聚类分析技术
2023-12-06 19:23

theskylife的博客数据分析在现代业务中扮演着关键角色，而分类和聚类分析技术是从庞大数据集中提取有用信息的强大工具。通过将数据分为不同类别和群组，我们可以实现更精确的数据分析，为业务决策提供深刻洞察。本文将深入探讨分类和...
请问Python 聚类分析的数据标准化是什么意思呢？为什么要做这一步操作？？ python 数据分析
2022-01-31 20:47

回答 1 已采纳快速聚类，不需要对变量进行标准化的，但仍然推荐进行标准化。层次聚类，必须进行标准化，因为各变量的量纲会有差异。简单的说，第一列数据的单位是万元，第二列数据的单位是元，如果不做标准化第一列就会被忽
如何对聚类产生的结果簇进行进一步分析？ python
2019-05-01 20:24

回答 2 已采纳用户出行模式的问题通常不单单是找出地图上的热点区域的问题, 而是一个多维度的包括时间的聚类. 所用到的维度可能包括乘车日期, 上车时间,下车时间, 乘车站点, 类型(地铁,出租...).... 之
DBSCAN聚类结果分析 python
2021-03-23 20:54

回答 2 已采纳你把min_samples改小点试下，以及测试下不同的eps设定，可以理解内部结构和合理的参数设定。 min_samples越大，越多的点容易标记为噪声。 eps越大，越多的点容易被包含在一个簇中
【医疗人工智能】胃肠内窥镜计算机视觉和机器学习调查
2021-09-24 16:49

Wwwilling的博客文献题目：胃肠内窥镜计算机视觉和机器学习调查文献时间：2019 胃肠内窥镜计算机视觉和机器学习调查Article摘要内窥镜应用摘要本文试图为读者提供一个开始研究计算机视觉和机器学习在胃肠 (GI) 内窥镜检查中的...
matlab 数据聚类分析预处理的一些问题求解答 matlab 算法
2022-03-30 10:05

回答 1 已采纳个人意见：是否归一化是要看你采取什么方法，比如神经网络可能需要进行归一化，但像集成学习之类的对数据不敏感，就不需要进行归一化。16个特征也不算很多，应该没必要特征提取。但也可以尝试一下看一下效果 ht
矢量数据做k均值聚类可以用geoda做吗聚类
2023-04-07 11:24

回答 1 已采纳可以。Geoda 和 Matlab 在进行 K-means 聚类分析时的主要区别在于：1. 应用领域：Geoda 是专门针对地理空间数据设计的软件，具有丰富的地理数据分析功能，而 Matlab 是一个
想用Python做一个聚类，模型选择问题 python 机器学习
2021-05-08 15:59

回答 1 已采纳分类是有标签的，聚类是无监督学习，没有标签，所以你这个用户用不用vpn你们应该是知道的吧，那就是有标签，那是分类，不是聚类
机器学习---聚类算法
2023-11-29 13:46

hzp666的博客我们知道，分类问题是机器学习中最常见的一类问题，它的目标是确定一个物体所属的类别。...这种做法称为有监督学习，它有训练和预测两个过程，在训练阶段，我们用大量的样本进行学习，得到一个判定水果类型的模型。
举例讨论聚类算法与其他算法的组合应用机器学习聚类
2022-03-29 17:07

回答 2 已采纳聚类和演化算法，利用聚类分析PSO粒子分布状况聚类还可以帮助演化算法选参
从移动激光扫描数据中自动提取单棵树的双重生长方法
2023-02-02 12:18

fish小余儿的博客每棵树的两个组成部分——树干和树冠可以通过双重生长法提取。该方法由粗分类组成，通过粗分类去除了大部分伪影；为个别树木自动选择合适的种子，避免了常见的手动初始设置；双重生长过程，通过在适应性生长半径内...
【python与数据分析】Python与数据分析概述
2022-09-11 17:45

数据人的自我救赎的博客数据分析的介绍与Python在数据分析方面的应用
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金50元 3月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月3日

悬赏问题

¥20 求数据集和代码#有偿答复
¥15 关于下拉菜单选项关联的问题
¥20 java-OJ-健康体检
¥15 rs485的上拉下拉，不会对a-b<-200mv有影响吗，就是接受时，对判断逻辑0有影响吗
¥15 使用phpstudy在云服务器上搭建个人网站
¥15 应该如何判断含间隙的曲柄摇杆机构，轴与轴承是否发生了碰撞？
¥15 vue3+express部署到nginx
¥20 搭建pt1000三线制高精度测温电路
¥15 使用Jdk8自带的算法，和Jdk11自带的加密结果会一样吗，不一样的话有什么解决方案，Jdk不能升级的情况
¥15 画两个图 python或R

聚类分析和生长混合模型比较

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新