轴承故障诊断的预处理

轴承故障诊断，数据是西储大学轴承故障诊断数据集。预处理那里我没太明白，为什么number选1000？mat文件里有这么多数据，为什么还需要数据增强？我没明白


```python
from scipy.io import loadmat
import numpy as np
import os
from sklearn import preprocessing  # 0-1编码
from sklearn.model_selection import StratifiedShuffleSplit  # 随机划分，保证每一类比例相同


def prepro(d_path, length=864, number=10000, normal=True, rate=[0.7, 0.2, 0.1], enc=True, enc_step=28):
    """对数据进行预处理,返回train_X, train_Y, valid_X, valid_Y, test_X, test_Y样本.

    :param d_path: 源数据地址
    :param length: 信号长度，默认2个信号周期，864
    :param number: 每种信号个数,总共10类,默认每个类别1000个数据
    :param normal: 是否标准化.True,False.默认True
    :param rate: 训练集/验证集/测试集比例.默认[0.5,0.25,0.25],相加要等于1
    :param enc: 训练集、验证集是否采用数据增强.Bool,默认True
    :param enc_step: 增强数据集采样顺延间隔
    :return: Train_X, Train_Y, Valid_X, Valid_Y, Test_X, Test_Y

    ```
    import preprocess.preprocess_nonoise as pre

    train_X, train_Y, valid_X, valid_Y, test_X, test_Y = pre.prepro(d_path=path,
                                                                    length=864,
                                                                    number=1000,
                                                                    normal=False,
                                                                    rate=[0.5, 0.25, 0.25],
                                                                    enc=True,
                                                                    enc_step=28)
    ```
    """
    # 获得该文件夹下所有.mat文件名
    filenames = os.listdir(d_path)

    def capture(original_path):
        """读取mat文件，返回字典

        :param original_path: 读取路径
        :return: 数据字典
        """
        files = {}
        for i in filenames:
            # 文件路径
            file_path = os.path.join(d_path, i)
            file = loadmat(file_path)
            file_keys = file.keys()
            for key in file_keys:
                if 'DE' in key:
                    files[i] = file[key].ravel()
        return files

    def slice_enc(data, slice_rate=rate[1] + rate[2]):
        """将数据切分为前面多少比例，后面多少比例.

        :param data: 单挑数据
        :param slice_rate: 验证集以及测试集所占的比例
        :return: 切分好的数据
        """
        keys = data.keys()
        Train_Samples = {}
        Test_Samples = {}
        for i in keys:
            slice_data = data[i]
            all_lenght = len(slice_data)
            end_index = int(all_lenght * (1 - slice_rate))
            samp_train = int(number * (1 - slice_rate))  # 700
            Train_sample = []
            Test_Sample = []
            if enc:
                enc_time = length // enc_step
                samp_step = 0  # 用来计数Train采样次数
                for j in range(samp_train):
                    random_start = np.random.randint(low=0, high=(end_index - 2 * length))
                    label = 0
                    for h in range(enc_time):
                        samp_step += 1
                        random_start += enc_step
                        sample = slice_data[random_start: random_start + length]
                        Train_sample.append(sample)
                        if samp_step == samp_train:
                            label = 1
                            break
                    if label:
                        break
            else:
                for j in range(samp_train):
                    random_start = np.random.randint(low=0, high=(end_index - length))
                    sample = slice_data[random_start:random_start + length]
                    Train_sample.append(sample)

            # 抓取测试数据
            for h in range(number - samp_train):
                random_start = np.random.randint(low=end_index, high=(all_lenght - length))
                sample = slice_data[random_start:random_start + length]
                Test_Sample.append(sample)
            Train_Samples[i] = Train_sample
            Test_Samples[i] = Test_Sample
        return Train_Samples, Test_Samples

    # 仅抽样完成，打标签
    def add_labels(train_test):
        X = []
        Y = []
        label = 0
        for i in filenames:
            x = train_test[i]
            X += x
            lenx = len(x)
            Y += [label] * lenx
            label += 1
        return X, Y

    # one-hot编码
    def one_hot(Train_Y, Test_Y):
        Train_Y = np.array(Train_Y).reshape([-1, 1])
        Test_Y = np.array(Test_Y).reshape([-1, 1])
        Encoder = preprocessing.OneHotEncoder()
        Encoder.fit(Train_Y)
        Train_Y = Encoder.transform(Train_Y).toarray()
        Test_Y = Encoder.transform(Test_Y).toarray()
        Train_Y = np.asarray(Train_Y, dtype=np.int32)
        Test_Y = np.asarray(Test_Y, dtype=np.int32)
        return Train_Y, Test_Y

    def scalar_stand(Train_X, Test_X):
        # 用训练集标准差标准化训练集以及测试集
        scalar = preprocessing.StandardScaler().fit(Train_X)
        Train_X = scalar.transform(Train_X)
        Test_X = scalar.transform(Test_X)
        return Train_X, Test_X

    def valid_test_slice(Test_X, Test_Y):
        test_size = rate[2] / (rate[1] + rate[2])
        ss = StratifiedShuffleSplit(n_splits=1, test_size=test_size)
        for train_index, test_index in ss.split(Test_X, Test_Y):
            X_valid, X_test = Test_X[train_index], Test_X[test_index]
            Y_valid, Y_test = Test_Y[train_index], Test_Y[test_index]
            return X_valid, Y_valid, X_test, Y_test

    # 从所有.mat文件中读取出数据的字典
    data = capture(original_path=d_path)
    # 将数据切分为训练集、测试集
    train, test = slice_enc(data)
    # 为训练集制作标签，返回X，Y
    Train_X, Train_Y = add_labels(train)
    # 为测试集制作标签，返回X，Y
    Test_X, Test_Y = add_labels(test)
    # 为训练集Y/测试集One-hot标签
    Train_Y, Test_Y = one_hot(Train_Y, Test_Y)
    # 训练数据/测试数据 是否标准化.
    if normal:
        Train_X, Test_X = scalar_stand(Train_X, Test_X)
    else:
        # 需要做一个数据转换，转换成np格式.
        Train_X = np.asarray(Train_X)
        Test_X = np.asarray(Test_X)
    # 将测试集切分为验证集合和测试集.
    Valid_X, Valid_Y, Test_X, Test_Y = valid_test_slice(Test_X, Test_Y)
    return Train_X, Train_Y, Valid_X, Valid_Y, Test_X, Test_Y


if __name__ == "__main__":
    path = 'D:\\Learn\\Learn\\Jupyter_File\\Learn\\data\\cwru1'
    train_X, train_Y, valid_X, valid_Y, test_X, test_Y = prepro(d_path=path,
                                                                length=864,
                                                                number=1000,
                                                                normal=False,
                                                                rate=[0.5, 0.25, 0.25],
                                                                enc=False,
                                                                enc_step=28)

```

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
狗小那条花 2022-08-22 16:05
关注
每类1000个数据，这就是自己定的，没啥道理，自己愿意用多少就用多少吧。我觉得吧，这个就是随便做的，每个人的方法可能都有差别，不用把他当教程。至于数据增强，我觉得无所谓。不过这种数据增强是图像数据那种吧，可能也并不适合机械振动数据，翻转剪裁啥的搞得没啥意义。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

轴承故障诊断的预处理 python 深度学习
2022-08-22 09:11

回答 1 已采纳每类1000个数据，这就是自己定的，没啥道理，自己愿意用多少就用多少吧。我觉得吧，这个就是随便做的，每个人的方法可能都有差别，不用把他当教程。至于数据增强，我觉得无所谓。不过这种数据增强是图像数据那种
轴承故障振动数据预处理问题 python
2022-04-26 15:14

回答 1 已采纳一般要保障采样的周期性，即保障信号段采样时间内轴承转过了一周或以上，再结合采样频率计算出每段信号的长度。截图没有说的太明白，估计随便取的吧！
数据挖掘 预处理语言模型大数据有问必答
2021-09-22 12:02

回答 1 已采纳 预处理语言模型是文本处理，其目的是，从原始html形式的文本中提取有效数据，并处理成构造语言模型(Language Model)所需要的格式。　步骤如下：预处理。[包括全半角字符转化，去掉注释、CSS
【故障诊断分析】基于matlab FFT轴承故障诊断【含Matlab源码 1397期】
2021-10-14 19:24

海神之光的博客 FFT轴承故障诊断完整的代码，方可运行；可提供运行操作视频！适合小白！
Java语言为什么没有使用预处理命令？ java
2019-08-08 16:08

回答 2 已采纳因为C语言诞生的年代计算机都很原始，内存很小，代码一次性处理不完，所以要“预处理”。你的问题好比问，为什么汽车不需要像拖拉机那样有一个拉线来发动，因为汽车内置了点火器，可以通过电瓶来驱动，所以
使用python对csv表格预处理 python 大数据
2022-10-16 09:40

回答 2 已采纳这篇文章：Python csv的使用及遇到问题的解决方法也许有你想要的答案，你可以看看同时，你还可以查看手册：python-csv --- CSV 文件读写中的内容
yolov7需要预处理图片吗 python 深度学习目标检测
2022-10-19 15:25

回答 1 已采纳所有的操作目的都是为了能够更好的完成任务，可以直接训练，但是如果你的检测效果不太好的话，建议还是回过头来对数据集进行一定的处理
计算机仿真应用于诊断什么故障,基于MATLAB/Simulink的机械故障诊断研究
2021-07-11 06:20

小球喵的博客摘要：机械故障诊断技术能够提供高质量的监控系统，提升管理效率，降低维护成本。通过MATLAB/Simulink仿真技术可以简洁地将故障诊断的结果图像化表达出来，提高故障诊断的质量和效率。该文模拟了机械故障诊断的全...
中文文本分类数据预处理 python 有问必答
2022-04-13 06:36

回答 3 已采纳你的是简单清洗处理，如果要分词，用jieba模块可以满足你需求
综合性数据预处理问题 python
2022-05-28 15:45

回答 1 已采纳（3）Type字段，通过pd.get_dummies方法做OneHotEncode处理（4）Total_visits字段，通过sklearn.preprocssing.MinMaxScaler方法做归
怎么才能用这个双井号预处理指令输出groupleapple(语言-c语言) c语言
2023-01-12 11:45

回答 1 已采纳你要把他俩写成字符串才可以不加引号的话，这俩是变量 #include <stdio.h> #define V(a,b) a b int main() { printf("%s"
基于小波时频图和2D-CNN的滚动轴承故障检测
2023-02-28 16:41

suyu87098的博客 轴承故障诊断 附python和matlab代码
python 数据预处理 python 有问必答
2022-03-12 11:26

回答 5 已采纳使用pandas读取成数据框用replace方法来做，参考代码如下： import pandas as pd df=pd.DataFrame({'id':[1,2,3,4],'v':[332,'1d
基于极限学习机的轴承故障分类（西储大学数据）
2022-08-20 11:20

大明的分享空间的博客基于极限学习机的轴承故障分类（西储大学数据）
神经网络 | 基于多种神经网络模型的轴承故障检测
2024-02-03 00:27

半亩花海的博客本文主要源自《第二届全国技能大赛智能制造工程技术项目比赛试题（样题）模块 E 工业大数据与人工智能应用》，基于给出的已知轴承状态的振动信号样本，对数据进行分析，建立轴承故障诊断模型，对未知状态的振动信号...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月22日

悬赏问题

¥15 帮我写一个c++工程
¥30 Eclipse官网打不开，官网首页进不去，显示无法访问此页面，求解决方法
¥15 关于smbclient 库的使用
¥15 微信小程序协议怎么写
¥15 c语言怎么用printf（“\b \b”）与getch（）实现黑框里写入与删除？
¥20 怎么用dlib库的算法识别小麦病虫害
¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
¥15 java写代码遇到问题，求帮助
¥15 uniapp uview http 如何实现统一的请求异常信息提示？
¥15 有了解d3和topogram.js库的吗？有偿请教

轴承故障诊断的预处理

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新