利用pandas将数据读取并清洗后导入keras，出现迭代信息不连续的情况

问题遇到的现象和发生背景

在使用keras搭建简单模型时，利用pandas将数据读取并清洗后，采用np.array()转化为np.array格式导入keras网络（只有简单的全连接层，采用sigmoid作为输出函数），但是在调用fit方法时，选择的batchsize为40，epochs为10，出现迭代信息不连续的情况，从40跳跃到1000，接着就是2000，不应该从40到80再到120嘛？见下图：

问题相关代码，请勿粘贴截图

import numpy as np
import pandas as pd
import keras as k

original_data = pd.read_csv("E:\Desktop\stroke_data.csv")
def data_process(original_data):
data = original_data.dropna(axis=0, how='any')

data = data.drop(columns='id')

data = data.reset_index(drop=True)
gender = np.zeros(data.shape[0])
for i in range(gender.shape[0]):
    if data.loc[i, 'gender'] == 'Male':
        gender[i] = 1
    else:
        gender[i] = 0
data = data.drop(columns='gender')
data.insert(0, 'gender', gender)

ever_married = np.zeros(data.shape[0])
for i in range(ever_married.shape[0]):
    if data['ever_married'][i] == 'Yes':
        ever_married[i] = 1
    else:
        ever_married[i] = 0
data = data.drop(columns='ever_married')
data.insert(4, 'ever_married', ever_married)

Residence_type = np.zeros(data.shape[0])
for i in range(Residence_type.shape[0]):
    if data['Residence_type'][i] == 'Urban':
        Residence_type[i] = 1
    else:
        Residence_type[i] = 0
data = data.drop(columns='Residence_type')
data.insert(6, 'Residence_type', Residence_type)

data['heart_disease'] = data['heart_disease'].apply(lambda x: x * 10)
data['hypertension'] = data['hypertension'].apply(lambda x: x * 10)

work_type = np.zeros(data.shape[0])
for i in range(work_type.shape[0]):
    if data['work_type'][i] == 'Self-employed':
        work_type[i] = 5
    elif data['work_type'][i] == 'Private':
        work_type[i] = 4
    elif data['work_type'][i] == 'Self-children':
        work_type[i] = 3
    elif data['work_type'][i] == 'Govt_job':
        work_type[i] = 2
    else:
        work_type[i] = 1
data = data.drop(columns='work_type')
data.insert(5, 'work_type', work_type)

rows = [x for x in data.index if data.loc[x]['smoking_status'] == 'Unknown']
data = data.drop(rows, axis=0)

data = data.reset_index(drop=True)
smoking_status = np.zeros(data.shape[0])
for i in range(smoking_status.shape[0]):
    if data['smoking_status'][i] == 'never smoked':
        smoking_status[i] = 0
    elif data['smoking_status'][i] == 'formerly smoked':
        smoking_status[i] = 10
    else:
        smoking_status[i] = 20
data = data.drop(columns='smoking_status')
data.insert(9, 'smoking_status', smoking_status)

bmi_max = data.bmi.max()
bmi_min = data.bmi.min()
data['bmi'] = data['bmi'].apply(lambda x: (x - bmi_min) / ((bmi_max - bmi_min) / 10))

age_max = data.age.max()
age_min = data.age.min()
data['age'] = data['age'].apply(lambda x: (x - age_min) / ((age_max - age_min) / 10))

glucose_max = data.avg_glucose_level.max()
glucose_min = data.avg_glucose_level.min()
data['avg_glucose_level'] = data['avg_glucose_level'].apply(
    lambda x: (x - glucose_min) / ((glucose_max - glucose_min) / 10))

return data

processed_data = data_process(original_data)
data = np.array(processed_data.iloc[:, :-1])
labels = np.expand_dims(np.array(processed_data.iloc[:, -1]), axis=-1)

train_data = data[0:3200, :]
train_label = labels[0:3200, :]

test_data = data[3200:, :]
test_label = labels[3200:, :]

model = k.Sequential()
model.add(k.layers.Dense(8, activation='relu',input_shape=(10,)))
model.add(k.layers.Dense(6, activation='relu'))
model.add(k.layers.Dense(4, activation='relu'))
model.add(k.layers.Dense(1, activation='sigmoid'))

model.compile(optimizer='adam',
loss='binary_crossentropy',
metrics=['acc'])

model.fit(train_data, train_label, epochs=10, batch_size=40, verbose=1, validation_data=(test_data, test_label))
model.evaluate(test_data, test_label)

我想要达到的结果

我想知道这是什么原因造成的，以及怎么修复？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lukas_dsc 2022-07-11 00:09
关注
其中数据来自于 https://www.heywhale.com/mw/dataset/605caf20cb6d360015a2d280

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

pandas读取execl后的数据如何引用第一列为列表 python
2022-10-11 20:19

回答 2 已采纳删除index_col参数即可，你对这个参数理解有误useclos参数表示你需要读取哪些列，index_col表示用这作为行索引，所以name列当索引列了 import pandas as pd i
pandas打包后不能读取xlsx python
2022-06-22 20:08

回答 1 已采纳 excel加密问题。更换exe文件名试试
Pandas读取文件后列名无法对应 python 数据分析
2021-12-29 15:23

回答 2 已采纳用逗号分隔读取列，表头数了一下18个，但是行不止18个，可能是某一列里的内容包括逗号，你可以先处理下文件，把含有逗号的内容加上双引号，或者读入后再合并处理
keras从dataframe中读取数据并进行数据增强进行训练（分类+分割）
2019-03-21 13:35

chestnut--的博客 keras的数据读取并进行在线数据增强进行训练，此处使用pandas dataframe的形式～ dataframe 的数据存储分类 def make_image_gen(in_df, batch_size = BATCH_SIZE): file = in_df['filepath'].values label = in...
Python pandas_datareader.data 在导入数据时出现错误，如何解决？ python 数据分析
2022-04-12 17:50

回答 1 已采纳雅虎网站好像爬取不了数据了，但可以用akshare第三方库Python量化交易策略及回测系统_貮叁的博客-CSDN博客_python回测股票如有用请采纳
Python怎么利用sklearn将pandas读取的数据拆分成训练集和验证集开发语言
2020-04-17 16:05

回答 3 已采纳提供下数据切分思路： ``` 第一，pandas 导入数据，有 load API 方法可以直接用；第二，对 DataFrame 进行数据切割，就是按照索引规则取不同部分的数据。 ``` 参
用pandas进行数据清洗，遇到3.5万这样的str类型数据不知道怎么转换 python 数据挖掘
2021-03-05 16:57

回答 2 已采纳 df['付款人数']=df['付款人数'].str.replace('.0万','0000') 方法没有问题 df.head()看一下数据结构
Pandas数据分析库
2024-07-25 23:19

Littleluck_Dream的博客目录就是HDF5中的group, 描述了数据集dataset的分类信息，通过group 有效的将多种dataset 进行管理和区分；这些运算是关系型数据库的核心操作。DataFrame是由多种类型的列构成的二维标签数据结构，类似于 Excel 、...
pandas读取csv获取到一行数据后怎么获取这一行中单独一列的内容呢 python
2022-08-11 16:24

回答 2 已采纳 data = df.loc[df['ID']==1701][['行号','ID','Name']]
python中用pandas读取dat文件读取不出来数据怎么解决？ python 有问必答
2021-04-22 12:32

回答 5 已采纳 python读取字节文件 filename = r'xxx.bat' with open(filename,'rb') as f: bs = ['{:0>2X}'.format(x)
pandas如何只处理切片数据而不修改导入excel的格式 python
2021-12-03 12:22

回答 3 已采纳写回去用to_excel不可行，只能是用xlwings等操作excel的库
利用keras使用神经网络预测销量操作
2020-12-17 06:18

在Python中，我们可以使用pandas库读取Excel文件，并对数据进行预处理。将类别标签（如“好”、“是”、“高”）转换为二进制形式（1代表“是”，0代表“否”），以便神经网络可以理解。例如，将所有“好”转换为1，...
jupyterlab利用pandas库导入csv出现报错 python sklearn 有问必答
2021-10-08 16:19

回答 2 已采纳你在程序中写如上完整路径试试。
采用TensorFlow实现的神经网络模型，主要用于训练流体模拟数据，包括数据读入，数据预处理.zip
2024-03-03 11:43

数据预处理是机器学习流程中的关键步骤，它包括数据清洗、缺失值处理、异常值检测、标准化或归一化、特征编码等。在这个项目中，由于我们的数据是流体模拟数据，可能涉及到复杂的数值和物理特性，因此预处理显得尤为...
keras处理csv数据流程
2023-04-12 10:53

我叫杨傲天的博客【代码】keras处理csv数据流程。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月11日

悬赏问题

¥100 复现论文：matlab仿真代码编写
¥15 esp32驱动GC9A01循环播放视频
¥15 惠普360g9的最新bios
¥30 这个功能用什么软件发合适？
¥60 微信小程序，取消订单，偶尔订单没有改变状态
¥15 用pytorch实现PPO算法
¥15 关于调制信号的星座图？
¥30 前端传参时，后端接收不到参数
¥15 这是有什么问题吗，我检查许可证了但是显示有呢
¥15 机器学习预测遇到的目标函数问题