张量数据的分类别随机抽样

在进行深度学习Fashin-MNIST数据集的训练时，我想先抽取10%的数据，由于这是一个有类别的张量数据，我想知道如何分类别随机抽样，每个类别的数据都抽到10%呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

CSDN-Ada助手 CSDN-AI 官方账号 2023-06-19 20:34

关注

这篇博客: 5.1 提高mnist数据分类器准确率到98%以上中的 程序： 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

mnist = input_data.read_data_sets("C:/Users/WangT/Desktop/MNIST_data",one_hot=True)#导入数据

batch_size = 100#定义每一次批次处理的数据大小
n_batch = mnist.train.num_examples // batch_size
#计算分批处理次数，//是整除的除数，结果始终为整数，区别于/
#mnist.train.num_examples是训练集的数据大小，类似还有mnist.validation.num_examples, mnist.test.num_examples.

x = tf.placeholder(tf.float32,[None,784])
y = tf.placeholder(tf.float32,[None,10])
keep_prob = tf.placeholder(tf.float32)
#placeholder占位符，希望能输入任意数量的MNIST图像，每一张图像展平为784维的向量，用2维浮点数张量来表示这些图，这个张量的形状是【none，784】，此处None表示此张量的第一个维度可以是任意长度的。

lr = tf.Variable(0.001, dtype = tf.float32)

W1 = tf.Variable(tf.truncated_normal([784,500],stddev=0.1))
b1 = tf.Variable(tf.zeros([500])+0.1)
L1 = tf.nn.tanh(tf.matmul(x,W1)+b1)
#L1_drop = tf.nn.dropout(L1,keep_prob)
#模型的参数，可以用Variable表示，可以计算输入值，也可以在计算中被修改

W2 = tf.Variable(tf.truncated_normal([500,300],stddev=0.1))
b2 = tf.Variable(tf.zeros([300])+0.1)
L2 = tf.nn.tanh(tf.matmul(L1,W2)+b2)

W3= tf.Variable(tf.truncated_normal([300,10],stddev=0.1))
b3 = tf.Variable(tf.zeros([10])+0.1)
prediction = tf.nn.softmax(tf.matmul(L2,W3)+b3)
#得到预测结果
# loss = tf.reduce_mean(tf.square(y - prediction))
loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=prediction))
#损失函数，评估模型好坏，tf.square是平方，tf.reduce_mean是取平均值
#train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)
train_step = tf.train.AdamOptimizer(lr).minimize(loss)

#tf使用梯度下降法，以lr的学习速率，不断修改模型参数来最小化loss

init = tf.global_variables_initializer()
#添加一个操作来初始化变量
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(prediction,1))
#tf.equal()比对两个数，相同返回true不同返回false，tf.argmax(y，1)返回y最大时对应的x
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))
#tf.cast()将上述结果每一次转换成浮点型，累加并取平均值，得到准确率

with tf.Session() as sess:#定义对话
    sess.run(init)
    for epoch in range (51):#模型循环训练51次
        for batch in range(n_batch):#每次训练要循环n_batch批次
            batch_xs,batch_ys = mnist.train.next_batch(batch_size)#读取训练集的下一批数据
            sess.run(tf.assign(lr,0.001*(0.95**epoch)))
            sess.run(train_step, feed_dict={x:batch_xs,y:batch_ys})#运行模型训练
        
        acc1 = sess.run(accuracy, feed_dict={x:mnist.test.images, y:mnist.test.labels})#每训练一次输出一次准确率，利用的是测试集的数据
        acc2 = sess.run(accuracy,feed_dict={x:mnist.train.images,y:mnist.train.labels})
        print("Iter"+str(epoch)+",Testing Accuracy"+str(acc1)+",Training accuracy"+str(acc2))


Extracting C:/Users/WangT/Desktop/MNIST_data\train-images-idx3-ubyte.gz
Extracting C:/Users/WangT/Desktop/MNIST_data\train-labels-idx1-ubyte.gz
Extracting C:/Users/WangT/Desktop/MNIST_data\t10k-images-idx3-ubyte.gz
Extracting C:/Users/WangT/Desktop/MNIST_data\t10k-labels-idx1-ubyte.gz
Iter0,Testing Accuracy0.9499,Training accuracy0.955691
Iter1,Testing Accuracy0.9627,Training accuracy0.970036
Iter2,Testing Accuracy0.9661,Training accuracy0.977127
Iter3,Testing Accuracy0.9705,Training accuracy0.981327
Iter4,Testing Accuracy0.9759,Training accuracy0.986345
Iter5,Testing Accuracy0.9755,Training accuracy0.988509
Iter6,Testing Accuracy0.9749,Training accuracy0.989545
Iter7,Testing Accuracy0.9783,Training accuracy0.991491
Iter8,Testing Accuracy0.9771,Training accuracy0.992618
Iter9,Testing Accuracy0.9793,Training accuracy0.992564
Iter10,Testing Accuracy0.9789,Training accuracy0.993691
Iter11,Testing Accuracy0.9796,Training accuracy0.994327
Iter12,Testing Accuracy0.9779,Training accuracy0.994382
Iter13,Testing Accuracy0.9788,Training accuracy0.995036
Iter14,Testing Accuracy0.9795,Training accuracy0.995073
Iter15,Testing Accuracy0.9801,Training accuracy0.995491
Iter16,Testing Accuracy0.9806,Training accuracy0.995727

报告相同问题？

关注问题

c/c++：把一个张量里面所有的1改成0 c++ c语言数据结构
2022-02-27 20:08

回答 1 已采纳 IDE中，在不明白的符号Tensor上点鼠标右键，选转到定义。查看Tensor支持的所有属性、方法、……
如何输出张量列表的值 python tensorflow
2021-07-30 16:54

回答 2 已采纳你得到的Tensor("gradients/mul_grad/Mul:0", shape=(16, 1), dtype=float32)表示的是一个对象，对象里面包含列表或数组。需要先转化为列表或数组
如何部分转置一个张量 pytorch 深度学习
2023-03-13 00:03

回答 3 已采纳可以使用numpy.transpose()函数进行部分转置，如： ndarray_transposed = numpy.transpose(ndarray, (0,2,1)) ndarray_tra
深度学习与语言模型
2023-08-08 01:04

AI天才研究院的博客在实际应用中，语言模型能够实现诸如文本生成、文本摘要、机器翻译等功能，还能提升语言数据的质量和效率。但是，如何有效地训练语言模型并让其真正运用起来仍然是一个棘手的问题。目前，深度学习技术已经为解决这个...
Tensorflow中张量问题 python tensorflow
2022-03-19 20:18

回答 1 已采纳 tf.convert_to_tensor(np.array(range(11, 31)).reshape(B, W, D))B, W, D你自己定
pytorch的tensor张量如何逐像素比较计算 python pytorch 算法
2023-03-29 16:06

回答 3 已采纳 import torch def cal_shadow(h, z): # 计算每个元素和之前的元素的最大值 cummax = torch.cummax(z, dim=-1).valu
tensorflow张量dtype=float_ref keras python tensorflow
2022-02-28 21:08

回答 1 已采纳 https://github.com/tensorflow/tens
从零开始构建大语言模型（MEAP）
2024-04-29 01:46

绝不原创的飞龙的博客 "大型"语言模型中的"大"既指模型在参数方面的规模，也指其所训练的庞大数据集。这样的模型通常具有数百亿甚至数百亿个参数，这些参数是网络中的可调权重，在训练过程中进行优化，以预测序列中的下一个词。下一个词的...
LSTM神经网络模型张量与变量维度不匹配 lstm python tensorflow
2023-04-03 17:51

回答 3 已采纳与之前模型的checkpoint路径重合，新建一个路径保存即可
请问大家在LaTeX中半张量符号代码是什么？其他
2021-11-24 15:34

回答 1 已采纳已解决半张量符号代码：\ltimes
如何用tensorrt实现两个维度大小不同的张量点乘mul c++ python 深度学习
2023-04-17 21:42

回答 2 已采纳在TensorRT中，可以使用plugin来自定义计算算法，实现两个维度大小不同的张量的点乘操作。具体流程如下：实现一个自定义的TensorRT插件，可以继承IPluginV2接口。在实现该插件时，
学习多层感知器在多层分类中的应用
2024-06-14 23:38

Slow_Fade的博客第一个目的是减少这种不平衡——原始数据集中70%以上是俄文，这可能是由于抽样偏差或俄文姓氏的增多。为此，我们通过选择标记为俄语的姓氏的随机子集对这个过度代表的类进行子样本。接下来，我们根据国籍对数据集...
具有多个值的张量的布尔值是不明确的 python 有问必答
2021-07-05 18:01

回答 1 已采纳建议打印看看这两个输出的值，看看数据和类型什么的，这样比较容易理解
QLORA：高效微调量化大型语言模型
2024-10-18 10:45

人工智能培训咨询叶梓的博客他们随机抽样标记的比较集来计算Elo评分。研究者们发现，经过QLORA调整的顶级模型，Guanaco 65B，是在变体OASST1上微调的，是表现最好的开源聊天机器人模型，有着与ChatGPT相媲美的性能。与GPT-4相比，Guanaco 65B...
利用Tensorflow 2框架搭建端到端的语音识别模型，并实践其性能
2023-08-13 00:47

AI天才研究院的博客端到端的语音识别方法的主要特点是把声学模型、语言模型、分类器等模块全部整合成一个系统，从而实现一体化、高效率、可靠的语音识别。在本文中，作者将详细介绍如何利用Tensorflow 2和Kaldi库进行端到端的语音识别...
python多维数据_python多维数据
2020-11-21 01:48

weixin_39683598的博客平行坐标图中每条垂直的线代表一个特征，表中一行的数据在图中表现为一条折线，不同颜色的线表示不同的类别。 import pandas as pdimport matplotlib.pyplot as pltfrom pandas.plotting importparallel_coor...
大数据与人工智能的应用
2023-08-06 01:34

AI天才研究院的博客数据增长已经成为经济学中的一个重要话题，从数据采集到存储、计算、分析、传输、处理等各个环节的数据量都在飞速增长。与此同时，越来越多的人参与了数据的分析过程，并用机器学习的方式提升产品和服务的效果。作为...
AskPython 博客中文翻译（四十七）
2024-10-30 00:23

绝不原创的飞龙的博客【Matplotlib 等高线图——完整参考Plotly提供了各种数据可视化库来绘制图表和图形。我们可以从大量的绘图库和工具中进行选择，这些工具专用于创建各种不同类型的图表。在本文中，我们将主要使用单个导入包和单个...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月19日

悬赏问题

¥15 有两个非常“自以为是”烦人的问题急期待大家解决！
¥30 STM32 INMP441无法读取数据
¥15 R语言绘制密度图，一个密度曲线内fill不同颜色如何实现
¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
¥15 用visualstudio2022创建vue项目后无法启动
¥15 x趋于0时tanx-sinx极限可以拆开算吗
¥15 pyqt信号槽连接写法
¥500 把面具戴到人脸上，请大家贡献智慧，别用大模型回答，大模型的答案没啥用
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急

张量数据的分类别随机抽样

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新