机器学习自制数据集，关于将图片处理成数值过程中array数组reshape的问题

训练集有60000张图片，测试集10000，图片大小是28×28=784
关于代码中 x_train_save = np.reshape(x_train, (len(x_train), -1))这句
我不明白为什么还要对x_train进行形状重塑，这个x_train在函数generateds()中就已经被弄成array类型的二维数组了（60000×784）


import tensorflow as tf
from PIL import Image
import numpy as np
import os

train_path = './mnist_image_label/mnist_train_jpg_60000/'
train_txt = './mnist_image_label/mnist_train_jpg_60000.txt'
x_train_savepath = './mnist_image_label/mnist_x_train.npy'
y_train_savepath = './mnist_image_label/mnist_y_train.npy'

test_path = './mnist_image_label/mnist_test_jpg_10000/'
test_txt = './mnist_image_label/mnist_test_jpg_10000.txt'
x_test_savepath = './mnist_image_label/mnist_x_test.npy'
y_test_savepath = './mnist_image_label/mnist_y_test.npy'


def generateds(path, txt):
    f = open(txt, 'r')  # 以只读形式打开txt文件
    contents = f.readlines()  # 读取文件中所有行
    f.close()  # 关闭txt文件
    x, y_ = [], []  # 建立空列表
    for content in contents:  # 逐行取出
        value = content.split()  # 以空格分开，图片路径为value[0] , 标签为value[1] , 存入列表
        img_path = path + value[0]  # 拼出图片路径和文件名
        img = Image.open(img_path)  # 读入图片
        img = np.array(img.convert('L'))  # 图片变为8位宽灰度值的np.array格式
        img = img / 255.  # 数据归一化 （实现预处理）
        x.append(img)  # 归一化后的数据，贴到列表x
        y_.append(value[1])  # 标签贴到列表y_
        print('loading : ' + content)  # 打印状态提示

    x = np.array(x)  # 变为np.array格式
    y_ = np.array(y_)  # 变为np.array格式
    y_ = y_.astype(np.int64)  # 变为64位整型
    return x, y_  # 返回输入特征x，返回标签y_


if os.path.exists(x_train_savepath) and os.path.exists(y_train_savepath) and os.path.exists(
        x_test_savepath) and os.path.exists(y_test_savepath):
    print('-------------Load Datasets-----------------')
    x_train_save = np.load(x_train_savepath)
    y_train = np.load(y_train_savepath)
    x_test_save = np.load(x_test_savepath)
    y_test = np.load(y_test_savepath)
    x_train = np.reshape(x_train_save, (len(x_train_save), 28, 28))
    x_test = np.reshape(x_test_save, (len(x_test_save), 28, 28))
else:
    print('-------------Generate Datasets-----------------')
    x_train, y_train = generateds(train_path, train_txt)
    x_test, y_test = generateds(test_path, test_txt)

    print('-------------Save Datasets-----------------')
    x_train_save = np.reshape(x_train, (len(x_train), -1))  # 此处-1表示列数由行数连带确定
    x_test_save = np.reshape(x_test, (len(x_test), -1))
    np.save(x_train_savepath, x_train_save)
    np.save(y_train_savepath, y_train)
    np.save(x_test_savepath, x_test_save)
    np.save(y_test_savepath, y_test)

model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
              metrics=['sparse_categorical_accuracy'])

model.fit(x_train, y_train, batch_size=32, epochs=5, validation_data=(x_test, y_test), validation_freq=1)
model.summary()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
狗小那条花 2022-05-13 21:33
关注
为了满足框架中模型的输入格式要求

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

利用Python对MNIST手写数据集进行数字识别（初学者入门级）
2020-10-08 00:13

仲子_real的博客本文利用Python语言，在Jupyter Notebook进行程序编写，通过神经网络学习算法对MNIST手写数据集进行数字识别，并且对学习率（learning rate）、节点数（nodes）进行分析，找出最佳的学习率和节点数，使得神经网络对...
TensorFlow学习笔记（二）
2021-07-31 18:42

钟良堂的博客一、神经网络优化神经元模型：用数学公式表示为：神经网络是以神经元为基本单元构成的。激活函数：引入非线性激活因素，提高模型的表达力。...神经网络的复杂度：可用神经网络的层数和神经网络中待
人工智能实践：Tensorflow笔记
2021-09-22 16:18

Saber_e的博客 Tensorflow2.0入门学习笔记tensorflow2-GPU安装神经网络的计算过程，搭建出第一个神经网络准备数据：采集大量的“特征/标签”数据搭建网络：搭建神经网络结构（前向传播）优化参数：训练数据网络获取最佳参数（反向...
【深度学习】计算机视觉（七）——使用GPU进行目标检测详解（上）
2022-08-05 13:20

RK_Dangerous的博客这里注意，如果狗用0表示，猫用1表示，即类别数组为[0, 1]，在实际标记锚框的过程中，我们需要将背景表示为0，其他类别的标签均+1，即类别数组为[0, 1, 2]分别表示背景、狗、猫。我们将锚框与边缘框对应就是标记...
制作自己的数据集
2022-06-20 21:58

西伯利亚大草原的狼的博客当你有了本领域的数据集 又有了标签你怎么给x_train,y_train,x_test,x_test赋值呢——自制数据集当你数据量过少，模型见识不足，泛化力会弱——数据增强当每次模型训练都从0开始，很不方便——断点续训，实时保存...
AidLux“身体互换”案例源码详解（Python）
2021-07-14 16:02

Schzonysis的博客 “身体互换”案例源码详解（Python） facemovie_gui.py用于身体互换，...初始化处理函数(首先被调用) 程序入口打开facemovie_gui.py身体互换案例在VScode中进入代码编辑状态。导入相关库 '''facemovie_gui.py用
大模型资料总结
2024-02-26 20:21

ydp15755423176的博客 1 gpt介绍 transformer的介绍 output是label gpt1——gpt4的经历 gpt1 主要背下面的这段结构就是tansformer的encoder gpt2 Zero-shot learning（零样本学习）是机器学习中的一个概念，指的是模型在没有接收到任何...
keras教程-静态图编程框架keras-学习心得以及知识点总结
2020-07-30 11:06

~泊舟~的博客和朋友一起对着官网的keras教程学习了一遍，学习的过程中发现有一些解释的不清楚的地方，我们自己做了实验，探索了这些个问题以及每个函数的参数的含义，并将这些内容总结了出来，写成了文章，总结如下面的链接所示...
OpenCV4 机器学习（二）
2025-09-22 00:20

绝不原创的飞龙的博客在这一章中，我们学习了所有形式的 SVM。我们现在知道如何在二维空间中绘制决策边界，在高维空间中绘制超平面。我们学习了不同的 SVM 核，并探讨了如何在 OpenCV 中实现它们。此外，我们还把新获得的知识应用到行人...
Sklearn 与 TensorFlow 机器学习实用指南第二版（四）
2025-09-14 00:21

绝不原创的飞龙的博客尽管 Scikit-Learn 提供了许多有用的转换器，你还是需要自己动手写转换器执行任务，比如自定义的清理操作，或属性组合。...这个超参数可以让你方便地发现添加了这个属性是否对机器学习算法有帮助。
【Python】机器学习-线性回归
2025-06-18 20:42

宅男很神经的博客在我们深入任何机器学习算法之前，必须首先面对一个根本性的问题：我们选择的工具——Python，其性能的本质是什么？Python以其语法的简洁和开发的迅速而著称，但在计算密集型任务中，纯Python代码的执行效率是出了名...
生成式深度学习
2022-12-31 12:31

after 19.的博客 机器学习模型能够对图像、音乐和故事的统计潜在空间（latent space）进行学习，然后从这个空间中采样（sample），创造出与模型在训练数据中所见到的艺术作品具有相似特征的新作品。当然，这种采样本身并不是艺术...
生产中的大语言模型（MEAP）（一）
2024-05-03 01:37

绝不原创的飞龙的博客如你所见，有很多原因使得公司想要...LLMs 之所以令人兴奋，是因为它们与人类一起工作，而不是反对他们社会是建立在语言之上的，因此有效的语言模型具有无限的应用，如聊天机器人、编程助手、视频游戏和人工智能助手。
【AI赋能工作流】一个程序员的自白：我如何利用大语言模型将工作效率提升500%—慢慢学AI137
2024-08-16 16:28

AI决策者洞察的博客我并不认为“AI”模型 (人工智能模型) 这个词有多好，我甚至讨厌它。（我指的是：大语言模型）。我认为现在对它的宣传有点过火了。的确，任何新技术都会吸引投机者。许多公司喜欢宣称他们在“使用 AI (人工智能)”，...
TowardsDataScience 博客中文翻译 2022（一百一十四）
2024-10-19 01:42

绝不原创的飞龙的博客你刚刚学习了如何创建漂亮的 D3 图表，特别是使用 D3 的力定向网络，以及如何将它集成到 Python 中。我希望这个博客能给你创建任何你想要的 D3 图表所需要的知识，不管有没有 Python。D3 图形库将帮助你使用 Python ...
TensorFlow保姆级完整教程（原理讲解+代码实战）
2025-05-07 14:36

Cola_Coder的博客内容包括环境配置（Anaconda安装、虚拟环境创建、GPU支持配置）、神经网络基础（人工智能三大流派、全连接网络搭建）、优化策略（学习率衰减、激活函数、损失函数设计、正则化）、经典网络架构（LeNet、VGG、ResNet...
AI算法实现解析-C++实例
2025-07-29 20:57

KENYCHEN奉孝的博客本文摘要：本文汇总了基于C++实现的多种AI/机器学习技术，涵盖计算机视觉、自然语言处理和强化学习等领域。主要内容包括：计算机视觉：目标检测（YOLOv3/YOLO Tiny）人脸识别（OpenCV Haar级联/OpenFace）图像...
TowardsDataScience 博客中文翻译 2020（五百六十八）
2024-10-07 01:34

绝不原创的飞龙的博客它接收混合数据并且基于数据中的模式将数据分成小的组/簇。(又名sklearn)是一个针对 Python 的机器学习库。它包括各种分类回归、和聚类算法以及支持向量机(SVM)随机森林梯度提升k-means和DBSCAN，并且被设计为与像...
TowardsDataScience 博客中文翻译 2019（三百八十六）
2024-09-27 01:14

绝不原创的飞龙的博客当然，数据科学家的工资取决于他们的具体角色，但他们通常在分析或机器学习领域工作，经常处理大型数据集。他们需要有优秀的分析能力，编程或数据库经验，以及很强的写作能力。想想你的特定数据代表什么:如果它是一...
TowardsDataScience 博客中文翻译 2020（九百二十一）
2024-10-05 01:08

绝不原创的飞龙的博客在 CNN 架构中，有几个层的组合，其中有一组单元或神经元。这些单元接收来自前一层中类似子部分的相应单元的输入。在传统的全连接前馈神经网络中，层内的单元/神经元接收来自前一层的所有单元的输入。曾经想知道为...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月13日

机器学习自制数据集，关于将图片处理成数值过程中array数组reshape的问题

1条回答 默认 最新

问题事件

1条回答默认最新