t-sne可视化csv数据集

在使用t-sne可视化csv数据集中遇到了以下的问题，报错信息如下：

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
/tmp/ipykernel_1220/4136105992.py in <module>
     56     idx = np.where(labels.values.flatten() == i)[0]
     57     plt.scatter(X_tsne[idx][:, 0], X_tsne[idx][:, 1], color=color_list[i],
---> 58             marker=shape_list[i], s=150, label=label_list[i], alpha=0.5)
     59 
     60 

IndexError: list index out of range

源代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
import pandas

# 加载自己的数据集和标签
X = pandas.read_csv(r"/root/autodl-tmp/376data.csv", header=None)  # 替换为你的数据集路径
labels = pandas.read_csv(r"/root/autodl-tmp/376label.csv", header=None) # 替换为你的标签路径

# 定义三个类别的均值和协方差矩阵
#mean1 = [0, 1]
#cov1 = [[1, 0.3], [0.3, 1]]
#mean2 = [3, 3]
#cov2 = [[1, -0.2], [-0.2, 3]]
#mean3 = [-10, 10]
#cov3 = [[1, 0], [0, 0.5]]
#mean4 = [-4, 2]
#cov4 = [[0.5, 0.2], [0.2, 2]]

# 生成三个类别的样本数据
#data1 = np.random.multivariate_normal(mean1, cov1, 100)
#data2 = np.random.multivariate_normal(mean2, cov2, 100)
#data3 = np.random.multivariate_normal(mean3, cov3, 100)
#data4 = np.random.multivariate_normal(mean4, cov4, 100)

#label1 = np.zeros(data1.shape[0]) + 0
#label2 = np.zeros(data1.shape[0]) + 1
#label3 = np.zeros(data1.shape[0]) + 2
#label4 = np.zeros(data1.shape[0]) + 3

# 将三个类别的数据合并
#data = np.concatenate((data1, data2, data3, data4))
#labels = np.concatenate((label1, label2, label3, label4))
#print(data.shape, labels.shape)

# 使用t-SNE进行降维
tsne = TSNE(n_components=2, random_state=42)
#X_tsne = tsne.fit_transform(data)
X_tsne = tsne.fit_transform(X)
# 归一化
x_min, x_max = X_tsne.min(0), X_tsne.max(0)
X_norm = (X_tsne - x_min) / (x_max - x_min)

# 绘制t-SNE可视化图
plt.figure(figsize=(10, 8))
plt.rcParams['font.sans-serif'] = ['Times New Roman']  # 图中文字体设置为Times New Roman

shape_list = ['o', 'D', '^', 'P', 's', 'x', '*', '+']  # 设置不同类别的形状
color_list = ['r', 'g', 'b', 'm', 'c', 'y', 'k', 'orange', 'purple', 'brown', 'pink'] 
  # 设置不同类别的颜色

label_list = ['SiO2', 'TiO2', 'Al2O3', 'FeOT', 'MgO', 'CaO', 'Na2O', 'K2O']
# 遍历所有标签种类
# 遍历所有标签种类
for i in range(len(np.unique(labels))):
    idx = np.where(labels.values.flatten() == i)[0]
    plt.scatter(X_tsne[idx][:, 0], X_tsne[idx][:, 1], color=color_list[i],
            marker=shape_list[i], s=150, label=label_list[i], alpha=0.5)


# # 遍历所有样本
#color_map = {0:'r', 1:'g', 2:'b', 3:'m'}   # 定义类别颜色映射关系
#shape_map = {0:'o', 1:'D', 2:'^', 3:'P'}
#default_color = 'k'  # 默认颜色
#default_shape = 'o'  # 默认形状
#color_map = {label: color_list[label % len(color_list)] if label in color_list else default_color for label in set(labels)}
#shape_map = {label: shape_list[label % len(shape_list)] if label in shape_list else default_shape for label in set(labels)}
#label_map = {0:'Class 1', 1:'Class 2', 2:'Class 3', 3:'Class 4'}
#for data, label in zip(X_norm, labels):
   # print(data, label)  # 打印每个样本数据和其对应标签
   # plt.scatter(data[0], data[1], color=color_map[label], marker=shape_map[label])
   # plt.text(data[0], data[1], label_map[label], ha='center', va='bottom')  # 所有样本都对应写上标签
# 添加图例，并设置字体大小
plt.legend(fontsize=20)

ax = plt.gca()  # gca:get current axis得到当前轴
# ax.spines['right'].set_visible(False)  # 取消右边界
# ax.spines['top'].set_visible(False)    # 取消上边界
ax.spines['right'].set_linewidth('2.0')  # 设置边框线宽为2.0
ax.spines['top'].set_linewidth('2.0')  # 设置边框线宽为2.0
ax.spines['bottom'].set_linewidth('2.0')  # 设置边框线宽为2.0
ax.spines['left'].set_linewidth('2.0')  # 设置边框线宽为2.0

plt.xticks(fontsize=20)  # 定义坐标轴刻度
plt.yticks(fontsize=20)

plt.xlabel('t-SNE Dimension 1', fontsize=20)  # 定义坐标轴标题
plt.ylabel('t-SNE Dimension 2', fontsize=20)
plt.title('t-SNE Visualization', fontsize=24)  # 定义图题

plt.show()  # 显示图形
plt.savefig('./visualization.png', dpi=600)  # 保存图为png格式
# plt.savefig('./visualization.svg', format='svg')  # 保存图为svg格式

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

Kwan的解忧杂货铺 Java领域优质创作者 2024-03-28 18:11

关注

qq_53216250 晚上好🌙🌙🌙
本答案参考ChatGPT-3.5

问题分析：在使用t-sne可视化csv数据集时，报错信息为IndexError: list index out of range，原因是在for循环中访问了超出列表范围的索引。

解决方案：

检查label_list列表的长度是否与np.unique(labels)的长度相等，如果不相等，需要重新定义label_list，确保与标签种类数量一致。
确保shape_list和color_list的长度大于或等于标签种类数量，在此处可以使用循环列表的方式避免越界错误。
检查labels的维度是否为二维，如果是一维，请转换成二维。
检查labels的数据类型是否为整数类型，如果不是，请转换为整数类型。

修改后的代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
import pandas as pd

# 加载自己的数据集和标签
X = pd.read_csv("/root/autodl-tmp/376data.csv", header=None)  # 替换为你的数据集路径
labels = pd.read_csv("/root/autodl-tmp/376label.csv", header=None) # 替换为你的标签路径

# 使用t-SNE进行降维
tsne = TSNE(n_components=2, random_state=42)
X_tsne = tsne.fit_transform(X)

# 归一化
x_min, x_max = X_tsne.min(0), X_tsne.max(0)
X_norm = (X_tsne - x_min) / (x_max - x_min)

# 绘制t-SNE可视化图
plt.figure(figsize=(10, 8))
plt.rcParams['font.sans-serif'] = ['Times New Roman']  # 图中文字体设置为Times New Roman

# 设置不同类别的形状和颜色
shape_list = ['o', 'D', '^', 'P', 's', 'x', '*', '+']
color_list = ['r', 'g', 'b', 'm', 'c', 'y', 'k', 'orange', 'purple', 'brown', 'pink']

# 遍历所有标签种类
label_list = ['SiO2', 'TiO2', 'Al2O3', 'FeOT', 'MgO', 'CaO', 'Na2O', 'K2O']
for i in range(len(np.unique(labels.values))):
    idx = np.where(labels.values.flatten() == i)[0]
    plt.scatter(X_norm[idx][:, 0], X_norm[idx][:, 1], color=color_list[i % len(color_list)],
                marker=shape_list[i % len(shape_list)], s=150, label=label_list[i], alpha=0.5)

# 添加图例，并设置字体大小
plt.legend(fontsize=20)

ax = plt.gca()
ax.spines['right'].set_linewidth('2.0') 
ax.spines['top'].set_linewidth('2.0')  
ax.spines['bottom'].set_linewidth('2.0')  
ax.spines['left'].set_linewidth('2.0')  

plt.xticks(fontsize=20)
plt.yticks(fontsize=20)

plt.xlabel('t-SNE Dimension 1', fontsize=20)
plt.ylabel('t-SNE Dimension 2', fontsize=20)
plt.title('t-SNE Visualization', fontsize=24)

plt.show()
plt.savefig('./visualization.png', dpi=600)

注意事项：

在绘制图像之前，一定要确保label_list、shape_list和color_list的长度应适配和符合数据集的实际情况。
如果仍有错误，请检查数据集路径和标签路径是否正确，并确认数据集和标签的内容是否符合要求。

报告相同问题？

关注问题

t-sne错误分类多了一类 python 人工智能迁移学习
2023-02-23 10:34

回答 3 已采纳这篇文章讲的很详细，请看：SNE T分布 t-SNE数据降维与可视化
请问如何在tsne可视化制作散点图的时候添加图例 python scikit-learn 有问必答机器学习
2022-01-01 15:28

回答 1 已采纳尝试不要在循环中添加label，在lengend()中设置。示例： import pandas as pd traindata = pd.read_excel(r'F:\2021\qa\ot3\wei
机器学习的数据维度定义 python
2022-10-27 07:39

回答 5 已采纳在机器学习领域，的确存在类似题主的困惑，其原因就在于没有厘清数组的维度和数据特征维度的区别。 数据集通常是指由若干个样本数据组成的二维数组，数组的每一行表示一个样本的数据。数据集的列，也被称为特征维或
数据可视化 t-sne_ML-通过可视化了解数据
2020-09-23 12:08

cunzai1985的博客数据可视化 t-sne ML-通过可视化了解数据 (ML - Understanding Data with Visualization) Advertisements 广告 Previous Page 上一页 Next Page 下一页介绍 (Introduction) In the previous ...
5.27日毕设求问，怎么绘制每一步epoch的loss图，最好能请附上程序 python 有问必答神经网络
2021-05-27 20:56

回答 2 已采纳看你用了torch，建议你直接保存loss的log图，然后用tensorboardX, import tensorboardX pip 安装就行
python中matplotlib绘图时，画布为正方形，但是里面的图不是正方形，该怎么设置 python
2022-03-13 22:37

回答 1 已采纳你这个是整个画布的尺寸 fig = plt.figure(figsize=(15,15)) # 指定图像的宽和高然后把画布分成了3行1列，在其中第2个子画布上作的图，自然长宽不一致（3：1） a
XPath解析成数组 php
2018-06-18 21:05

回答 1 已采纳 I think the main problem is using //ess:PartNumInfo in the second XPath expression, this can cause
【t-SNE降维可视化结果展示】将分类结果的过程进行展示
2024-01-29 17:01

王摇摆的博客请注意，t-SNE 是一个非常内存密集型的过程，如果您的数据集非常大，它可能会消耗大量内存和计算资源。因此，如果您发现这个过程运行非常缓慢或者消耗大量内存，您可能需要考虑在运行 t-SNE 之前对数据进行抽样或...
如何使用Windows Azure WebJobs访问我的网站的PHP文件？ azure php
2014-08-03 05:17

回答 1 已采纳 As mentioned in this stackoverflow post, the path for the root of an Azure Website is (usually) D:
获取所需的javascript错误对象 javascript php
2012-06-06 05:56

回答 2 已采纳 You are calling startmarquee immediately and trying to assign its return value (undefined) to wind
在线作图丨数据降维方法⑤——t-SNE(t-Distributed Stochastic Neighbor Embedding)
2021-07-26 11:32

作图帮的博客 t-Distributed Stochastic Neighbor Embedding (t-SNE) 是一种非线性降维技术，特别适用于高维数据集的可视化。它广泛应用于图像处理、NLP、基因组数据和语音处理。 t-SNE 工作原理如下：算法首先计算点在高维空间中...
t-SNE降维与pca区别
2023-11-13 15:35

cuisidong1997的博客从可视化的结果可以看出，基于PCA降维的结果会产生重叠，这是因为主成分降维无法维护数据的局部结构而导致的，而基于t-SNE降维的结果分类更加清晰，基本没有类别之间的重叠，这就是t-SNE算法在降维过程中很好的保留...
【建议收藏】好用的降维算法——t-SNE，带python实例讲解
2023-05-30 18:05

weixin_38754337的博客该算法是一种非监督的非线性技术，主要用于数据探索和可视化高维数据。简而言之，t-SNE为我们提供了数据如何在高维空间中排列的感觉或直觉。它由Laurens van der Maatens和Geoffrey Hinton于2008年开发。一提到降维...
R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告
2020-06-17 12:23

拓端研究室TRL的博客它对于数据探索很有用，因为维数减少到几个维度（例如2或3维）允许可视化样本。然后可以使用这种可视化来从数据获得见解（例如，检测聚类并识别异常值）。对于机器学习，降维是有用的，因为在拟合过程中使用较少的...
HNU-数据挖掘-实验2-数据降维与可视化
2024-01-21 20:37

甘晴void的博客数据降维是指将高维数据映射到低维空间的过程。在现实生活中，很多数据集都是高维的，每个样本包含着大量特征。...数据降维的目的是保留数据集的主要结构和信息，同时减少特征的维数，从而更好地进行数据分析和可视化。
sklearn初探（六）：K-means方法聚类及可视化
2020-05-13 23:16

swy_swy_swy的博客由于数据维数较高，可视化之前需要降维，这里采用t-sne算法降维，最后使用matplotlib将聚类结果可视化。数据集链接及完整源代码在文末给出。概述 KMeans 算法通过把样本分离成 n 个具有相同方差的类的方式来聚集...
无监督学习：机器学习中的 t-随机邻域嵌入（t-SNE）
2023-12-15 19:00

新华的博客由于大多数真实世界的数据集不是以模型友好的方式处理的，因此我们大多数时候都需要处理和过滤掉我们的数据集。在大多数情况下，数据集中有许多自变量会让开发人员感到困难，因为我们对要选择哪些列感到困惑。正如...
数据可视化完美指南-R-python
2021-02-05 08:00

生信宝典的博客从数据到图表有什么样的数据做什么样的图作者提供了一张树状图，帮助并引导我们找到合适自己数据的的可视化方式What kind of data do you have? Pick the ma...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月28日

悬赏问题

¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度
¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
¥15 ETLCloud 处理json多层级问题
¥15 matlab中使用gurobi时报错
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么

t-sne可视化csv数据集

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新