轴承故障诊断的预处理

轴承故障诊断，数据是西储大学轴承故障诊断数据集。预处理那里我没太明白，为什么number选1000？mat文件里有这么多数据，为什么还需要数据增强？我没明白


```python
from scipy.io import loadmat
import numpy as np
import os
from sklearn import preprocessing  # 0-1编码
from sklearn.model_selection import StratifiedShuffleSplit  # 随机划分，保证每一类比例相同


def prepro(d_path, length=864, number=10000, normal=True, rate=[0.7, 0.2, 0.1], enc=True, enc_step=28):
    """对数据进行预处理,返回train_X, train_Y, valid_X, valid_Y, test_X, test_Y样本.

    :param d_path: 源数据地址
    :param length: 信号长度，默认2个信号周期，864
    :param number: 每种信号个数,总共10类,默认每个类别1000个数据
    :param normal: 是否标准化.True,False.默认True
    :param rate: 训练集/验证集/测试集比例.默认[0.5,0.25,0.25],相加要等于1
    :param enc: 训练集、验证集是否采用数据增强.Bool,默认True
    :param enc_step: 增强数据集采样顺延间隔
    :return: Train_X, Train_Y, Valid_X, Valid_Y, Test_X, Test_Y

    ```
    import preprocess.preprocess_nonoise as pre

    train_X, train_Y, valid_X, valid_Y, test_X, test_Y = pre.prepro(d_path=path,
                                                                    length=864,
                                                                    number=1000,
                                                                    normal=False,
                                                                    rate=[0.5, 0.25, 0.25],
                                                                    enc=True,
                                                                    enc_step=28)
    ```
    """
    # 获得该文件夹下所有.mat文件名
    filenames = os.listdir(d_path)

    def capture(original_path):
        """读取mat文件，返回字典

        :param original_path: 读取路径
        :return: 数据字典
        """
        files = {}
        for i in filenames:
            # 文件路径
            file_path = os.path.join(d_path, i)
            file = loadmat(file_path)
            file_keys = file.keys()
            for key in file_keys:
                if 'DE' in key:
                    files[i] = file[key].ravel()
        return files

    def slice_enc(data, slice_rate=rate[1] + rate[2]):
        """将数据切分为前面多少比例，后面多少比例.

        :param data: 单挑数据
        :param slice_rate: 验证集以及测试集所占的比例
        :return: 切分好的数据
        """
        keys = data.keys()
        Train_Samples = {}
        Test_Samples = {}
        for i in keys:
            slice_data = data[i]
            all_lenght = len(slice_data)
            end_index = int(all_lenght * (1 - slice_rate))
            samp_train = int(number * (1 - slice_rate))  # 700
            Train_sample = []
            Test_Sample = []
            if enc:
                enc_time = length // enc_step
                samp_step = 0  # 用来计数Train采样次数
                for j in range(samp_train):
                    random_start = np.random.randint(low=0, high=(end_index - 2 * length))
                    label = 0
                    for h in range(enc_time):
                        samp_step += 1
                        random_start += enc_step
                        sample = slice_data[random_start: random_start + length]
                        Train_sample.append(sample)
                        if samp_step == samp_train:
                            label = 1
                            break
                    if label:
                        break
            else:
                for j in range(samp_train):
                    random_start = np.random.randint(low=0, high=(end_index - length))
                    sample = slice_data[random_start:random_start + length]
                    Train_sample.append(sample)

            # 抓取测试数据
            for h in range(number - samp_train):
                random_start = np.random.randint(low=end_index, high=(all_lenght - length))
                sample = slice_data[random_start:random_start + length]
                Test_Sample.append(sample)
            Train_Samples[i] = Train_sample
            Test_Samples[i] = Test_Sample
        return Train_Samples, Test_Samples

    # 仅抽样完成，打标签
    def add_labels(train_test):
        X = []
        Y = []
        label = 0
        for i in filenames:
            x = train_test[i]
            X += x
            lenx = len(x)
            Y += [label] * lenx
            label += 1
        return X, Y

    # one-hot编码
    def one_hot(Train_Y, Test_Y):
        Train_Y = np.array(Train_Y).reshape([-1, 1])
        Test_Y = np.array(Test_Y).reshape([-1, 1])
        Encoder = preprocessing.OneHotEncoder()
        Encoder.fit(Train_Y)
        Train_Y = Encoder.transform(Train_Y).toarray()
        Test_Y = Encoder.transform(Test_Y).toarray()
        Train_Y = np.asarray(Train_Y, dtype=np.int32)
        Test_Y = np.asarray(Test_Y, dtype=np.int32)
        return Train_Y, Test_Y

    def scalar_stand(Train_X, Test_X):
        # 用训练集标准差标准化训练集以及测试集
        scalar = preprocessing.StandardScaler().fit(Train_X)
        Train_X = scalar.transform(Train_X)
        Test_X = scalar.transform(Test_X)
        return Train_X, Test_X

    def valid_test_slice(Test_X, Test_Y):
        test_size = rate[2] / (rate[1] + rate[2])
        ss = StratifiedShuffleSplit(n_splits=1, test_size=test_size)
        for train_index, test_index in ss.split(Test_X, Test_Y):
            X_valid, X_test = Test_X[train_index], Test_X[test_index]
            Y_valid, Y_test = Test_Y[train_index], Test_Y[test_index]
            return X_valid, Y_valid, X_test, Y_test

    # 从所有.mat文件中读取出数据的字典
    data = capture(original_path=d_path)
    # 将数据切分为训练集、测试集
    train, test = slice_enc(data)
    # 为训练集制作标签，返回X，Y
    Train_X, Train_Y = add_labels(train)
    # 为测试集制作标签，返回X，Y
    Test_X, Test_Y = add_labels(test)
    # 为训练集Y/测试集One-hot标签
    Train_Y, Test_Y = one_hot(Train_Y, Test_Y)
    # 训练数据/测试数据 是否标准化.
    if normal:
        Train_X, Test_X = scalar_stand(Train_X, Test_X)
    else:
        # 需要做一个数据转换，转换成np格式.
        Train_X = np.asarray(Train_X)
        Test_X = np.asarray(Test_X)
    # 将测试集切分为验证集合和测试集.
    Valid_X, Valid_Y, Test_X, Test_Y = valid_test_slice(Test_X, Test_Y)
    return Train_X, Train_Y, Valid_X, Valid_Y, Test_X, Test_Y


if __name__ == "__main__":
    path = 'D:\\Learn\\Learn\\Jupyter_File\\Learn\\data\\cwru1'
    train_X, train_Y, valid_X, valid_Y, test_X, test_Y = prepro(d_path=path,
                                                                length=864,
                                                                number=1000,
                                                                normal=False,
                                                                rate=[0.5, 0.25, 0.25],
                                                                enc=False,
                                                                enc_step=28)

```

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
狗小那条花 2022-08-22 16:05
关注
每类1000个数据，这就是自己定的，没啥道理，自己愿意用多少就用多少吧。我觉得吧，这个就是随便做的，每个人的方法可能都有差别，不用把他当教程。至于数据增强，我觉得无所谓。不过这种数据增强是图像数据那种吧，可能也并不适合机械振动数据，翻转剪裁啥的搞得没啥意义。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

西储大学轴承故障诊断[代码]
2025-11-15 07:01

西储大学轴承故障诊断数据集是目前在旋转机械故障诊断领域使用极为广泛的数据集。该数据集由美国西储大学电气工程和计算机科学系的教授及其学生制作，包含了大量不同条件下轴承的振动信号数据。数据集的制作目的是...
【轴承故障诊断】用于轴承故障诊断的集中时频分析研究（Matlab代码实现）
2026-02-09 22:39

【轴承故障诊断】用于轴承故障诊断的集中时频分析研究（Matlab代码实现）内容概要：本文围绕“用于轴承故障诊断的集中时频分析研究”展开，介绍了一种基于Matlab代码实现的轴承故障诊断方法，重点利用集中时频分析...
轴承故障诊断+python+注意力机制和卷积神经网络代码
2025-02-28 14:57

利用注意力机制和CNN的轴承故障诊断方法，配合Python编程语言实现的系统，能够为现代工业提供一种高效、准确的故障诊断手段，有助于提升设备维护水平，保障生产线稳定运行，减少意外停机带来的损失，对于推动工业...
故障诊断复合轴承故障诊断的稀疏贝叶斯学习方法（Matlab代码实现）
2025-10-26 15:24

内容概要：本文介绍了基于稀疏贝叶斯学习方法的复合轴承故障诊断技术，并提供了相应的Matlab代码实现。该方法利用稀疏贝叶斯模型对轴承振动信号进行特征提取与分类，有效提升了故障识别的准确性与鲁棒性，尤其适用...
PythonPytorch基于小波时频图与SwinTransformer的轴承故障诊断研究
2025-12-17 11:32

轴承故障诊断是机械设备维护中的一项重要技术，能够有效预防事故，延长设备使用寿命。本文研究了基于Python Pytorch和小波时频图技术结合SwinTransformer的轴承故障诊断方法。小波时频图是一种将信号的时间域信息...
1DCNN滚动轴承轴承故障诊断python
2022-04-18 08:38

这四个标签概括了项目的关键技术：1DCNN是核心算法，深度学习是其所属的领域，Python是实现这个项目的编程语言，而滚动轴承故障诊断是具体的应用场景。在压缩包“1DCNN轴承故障诊断”中，可能包含了以下文件： 1....
Python 轴承故障诊断 卷积神经网络
2023-07-21 10:22

首先，轴承故障诊断通常涉及到对设备运行状态的分析，特别是通过分析振动信号来识别潜在的故障模式。振动分析是故障诊断中的一个关键步骤，因为它可以反映出机器内部的异常情况。Python因其强大的数据处理能力和丰富...
【轴承故障诊断】基于SE-TCN和SE-TCN-SVM西储大学轴承故障诊断研究（Matlab代码实现）
2025-11-11 15:08

【轴承故障诊断】基于SE-TCN和SE-TCN-SVM西储大学轴承故障诊断研究（Matlab代码实现）内容概要：本文围绕轴承故障诊断展开，重点研究了基于SE-TCN（Squeeze-and-Excitation Temporal Convolutional Network）和SE-...
故障诊断pytorch基于CNN-LSTM故障分类的轴承故障诊断研究[西储大学数据]（Python代码实现）
2025-11-28 06:51

【故障诊断】【pytorch】基于CNN-LSTM故障分类的轴承故障诊断研究[西储大学数据]（Python代码实现）内容概要：本文介绍了基于CNN-LSTM混合神经网络模型的轴承故障诊断研究，采用西储大学公开的轴承数据集进行实验...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月22日

轴承故障诊断的预处理

1条回答 默认 最新

问题事件

1条回答默认最新