如何在Python中实现找到两个未知特征来从其余样本中聚类已知样本？

我有一个名为：的资料集synthetic_feature_file ，包含超过 50,000 个特征和 43 个样本。给定sample_indices = syn_data.index.isin([1, 6, 7, 11, 14, 15, 27])，它代表已知样本的索引，我想将它们与其余样本分开，并用与其他样本不同的颜色标记它们。已知样本和其他样本的数据不应重叠。有人可以提供一段程式码来处理这个问题吗？

另外，这是我之前写的程式码。由于它只执行随机处理，所以我想实作其他方法或其他方式来满足上一段所述的要求：


```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

syn_data = pd.read_csv(synthetic_feature_file)
sample_indices = syn_data.index.isin([1, 6, 7, 11, 14, 15, 27])
x_feature = np.random.choice(syn_data.columns[70:85])
y_feature = np.random.choice(syn_data.columns[30:60])

plt.figure(figsize=(8, 6))
other_samples = syn_data.iloc[~sample_indices]
plt.scatter(other_samples[x_feature], other_samples[y_feature], color='blue', label='Other Samples')
red_samples = syn_data.iloc[sample_indices]
plt.scatter(red_samples[x_feature], red_samples[y_feature], color='red', label='Sample Indices')

plt.xlabel(x_feature)
plt.ylabel(y_feature)
plt.title("Visualization")
plt.legend()
plt.show()

我希望它可以像这样:[link](https://drive.usercontent.google.com/download?id=1C8JK9FhejFjnGiPMABSyja2nOFr5UKEb&export=view&authuser=0)
图片来源：[Google](https://medium.com/ai-academy-taiwan/clustering-%E5%88%86%E7%BE%A4%E6%87%B6%E4%BA%BA%E5%8C%85-9c0bb861a3ba)

但是我的原始程式码每次运行时都会在生成的图像中产生分离不良的红色和蓝色样本簇。以下是每次运行程式码产生的图像：[link](https://drive.usercontent.google.com/download?id=18jhWNWkLCUoYPfM_z-hEASiUlffCSfdv&export=view&authuser=0)
[link](https://drive.usercontent.google.com/download?id=1udZUV_1IArARqIMZRTxDsUV3pNBehDsx&export=view&authuser=0)
因为是随机的，所以在想需要用什么算法能帮助我过滤不要的结果，或是哪位大大有更好的方式

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Kwan的解忧杂货铺@新空间代码工作室 2024-03-26 11:17
关注
2405_83704727 上午好☀️☀️☀️️
本答案参考ChatGPT-3.5

解决这个问题，你可以尝试以下方法：

采用聚类算法进行样本分离：使用无监督学习中的聚类算法，如K-means、DBSCAN或层次聚类等，将所有样本根据特征进行聚类分析。然后，根据已知样本的索引，找到它们所处的簇，并将其与其他簇分开。

选择更有区分度的特征：为了使已知样本与其他样本在散点图上更加明显，可以根据特征的特殊性选择更加有区分度的特征。可以使用特征选择算法，如互信息、方差分析等，选择最佳的特征组合。你可以使用scikit-learn库中的特征选择模块来实现。

调整图形参数：除了修改特征选择以外，还可以调整散点图的参数来改善可视化效果。你可以修改点的大小、形状、颜色、透明度等参数，以及调整坐标轴的范围和刻度。

下面是修改后的示例代码：

import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import KMeans synthetic_feature_file = "path_to_synthetic_data.csv" # 数据集文件路径 syn_data = pd.read_csv(synthetic_feature_file) sample_indices = [1, 6, 7, 11, 14, 15, 27] # 已知样本的索引 # 选择最佳特征 x_feature = "feature1" y_feature = "feature2" # 使用K-means进行聚类 k = 2 # 聚类的簇数 kmeans = KMeans(n_clusters=k) kmeans.fit(syn_data[[x_feature, y_feature]]) # 获取已知样本所在的簇 known_sample_labels = kmeans.labels_[sample_indices] # 绘制散点图 plt.figure(figsize=(8, 6)) # 绘制其他样本 other_samples = syn_data.drop(sample_indices) plt.scatter(other_samples[x_feature], other_samples[y_feature], color='blue', label='Other Samples') # 绘制已知样本 for label in np.unique(known_sample_labels): samples = syn_data[sample_indices][known_sample_labels == label] plt.scatter(samples[x_feature], samples[y_feature], color='red', label='Sample Cluster %d' % label) plt.xlabel(x_feature) plt.ylabel(y_feature) plt.title("Visualization") plt.legend() plt.show()

请确保替换path_to_synthetic_data.csv为合适的文件路径，并根据你的数据集选择合适的特征。另外，将代码中的feature1和feature2替换为你选择的特征列的名称。

这种修改后的代码应该能够更好地将已知样本与其他样本分开，并提供更清晰的可视化结果。你可以根据需要进一步调整代码和图形参数，以达到最佳效果。
解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python kmeans聚类后如何获取到分类的数据？ kmeans python 有问必答聚类
2022-01-16 22:16

回答 2 已采纳 # 整理聚类结果 listName = dfData['地区'].tolist() # 将 dfData 的首列 '地区' 转换为 listName dictCluster
python聚类问题 python 聚类
2022-12-08 19:05

回答 1 已采纳你的数据中有非数值型的字符串型数据，你检查一下新使用的数据
kmeans聚类实现python python 机器学习机器学习算法工程师-陶瑞
2021-03-07 23:56

回答 3 已采纳 matplotlib画出来呗。。。三维以内的都能画
基于Python 实现半监督密度聚类+增量学习的故障诊断
2024-06-05 16:56

半监督标记模块首先判断设备监测数据中是否存在未知的故障类别样本，并对所有无标签的设备监测数据（包括已知故障类别与未知故障类别样本）标记伪标签，最后输出带有伪标签的样本以辅助增量更新模块对故障诊断模块...
scipy包的dendrogram(系统发育树、层次聚类）怎么获得每个节点的分支的两组样本名称？ python
2021-05-13 17:07

回答 1 已采纳写了个简单的，,可以参考下，你这个写顺序和实际上T的左右子树是相反的。我遍历出来的结果左右子树是正确的，如果你需要改，改成先遍历右子树，再遍历左子树，然后str1和str2位置换下。 tree=[
如何将提取到的特征矩阵进行Kmeans的聚类操作 kmeans python 有问必答聚类
2022-04-07 11:20

回答 1 已采纳提供一个思路，多个矩阵你把他的维度reshape到一个一维的向量，这个一维度向量过一个函数得到某一个值，比如求和，比如求方差。这个函数需要你自己根据特征去设计。你得到每个矩阵的值，把所有值resha
R语言；kmeans聚类 kmeans r语言聚类
2023-03-03 10:05

回答 8 已采纳以下答案由GPT-3.5大模型与博主波罗歌共同编写：以下是实现k-means聚类的步骤以及代码： Step 1: 读入数据到 R 语言利用 readxl 包读取 Excel 文件里面的数据 libr
python实现密度聚类(模板代码+sklearn代码)
2020-09-16 23:08

本文将详细介绍如何在Python中实现密度聚类算法，同时提供基于模板代码和利用`scikit-learn`库实现的方法。密度聚类是一种重要的无监督学习技术，主要用于发现数据集中的任意形状的簇。与传统的K-means等基于中心点...
python运行层次聚类Agnes算法报错 python 有问必答机器学习聚类
2022-02-11 21:14

回答 2 已采纳元组的索引越界，打印一下len(dataset)，n取值已经超过了a,b元组元素个数。
kmeans聚类；R语言 r语言聚类
2023-03-06 15:27

回答 10 已采纳 K-means聚类R语言代码： # 读取数据 data <- read.csv("C:/Users/lenovo/Desktop/data.csv", header=TRUE, strings
python聚类错误 kmeans python
2022-12-08 16:58

回答 1 已采纳 https://blog.csdn.net/fuck11111100/article/details/114954399大概原因就是类型不匹配但是你代码里有太多东西没放出来，只能自己查原因了
聚类_iris_python_聚类_
2021-10-02 03:25

标题中的“聚类_iris_python_聚类”表明我们将探讨使用Python编程语言处理鸢尾花数据集（Iris dataset）的聚类方法。这个数据集是机器学习领域经典的多类分类问题，通常用于演示和测试各种算法，包括聚类算法。 ...
基于Python实现并测试K-means聚类算法【100011717】
2023-04-07 14:30

综上所述，本实验通过Python实现了K-Means聚类算法，探讨了不同的初始化策略和距离度量，以及使用NMI和目标函数J进行评估，旨在理解K-Means算法的核心原理以及如何在实际问题中应用和优化。通过对不同参数的调整，...
Python中层次聚类的艺术：从原理到实践的全面解析
2024-02-07 11:15

theskylife的博客数据聚类是一项常见的数据分析任务，它可以帮助我们将数据点划分为具有相似特征的组。这种组织有助于我们理解数据集的结构、发现异常值以及进行预测和决策。层次聚类是一种特殊的聚类方法，它基于数据点之间的相似度...
基于Python实现聚类算法
2022-05-18 01:06

biyezuopinvip的博客在样本集中，随机选取K个点作为中心μk\bold \mu_kμk，计算每个样本到中心点的距离，并将样本划分到离它最近的那个点的集群中。使用变量rnkr_{nk}rnk表示数据样本x(n)\bold x^{(n)}x(n)是否属于集群k： rnk={1,...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月26日

悬赏问题

¥15 Windows Script Host 无法找到脚本文件"C:\ProgramData\Player800\Cotrl.vbs”
¥15 matlab自定义损失函数
¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图

如何在Python中实现找到两个未知特征来从其余样本中聚类已知样本？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新