怎样进行样本不均衡抽样？

下面是对样本数据的预处理，包含九种故障类型，一种正常类型，将数据分为测试集、训练集和验证集，比例为7:2:1，样本量为1000，如果要进行不均衡样本分类，将正常类样本与故障样本比例设置为200:1，应该怎么写代码呢？

    for data_type in range(10):
        fs = 12000
        t = 0.1
        opt = "0-"
        N = 1024
        data = all_data[data_type]

        for load_type in range(1):
            load_data = data

            start = 0
            for i in range(700):
                temp = load_data[start: start + N]
           
                start += 100
                
                temp = ([i for arr in temp for i in arr])
                f, t, nd = signal.stft(temp, fs=fs, window='hann', nperseg=64, noverlap=None, nfft=None,
                                       detrend=False, return_onesided=True, boundary='zeros', padded=True, axis=-1)
                Gaussian = cv2.GaussianBlur(abs(nd), (3, 3), 1)
                stfts_train_pics.append(Gaussian)
                stfts_train_labels.append(data_type)

            for i in range(200):
                temp = load_data[start: start + N]
                
                start += 100
                
                temp = ([i for arr in temp for i in arr])
                f, t, nd = signal.stft(temp, fs=fs, window='hann', nperseg=64, noverlap=None, nfft=None,
                                       detrend=False, return_onesided=True, boundary='zeros', padded=True, axis=-1)
                Gaussian = cv2.GaussianBlur(abs(nd), (3, 3), 1)
                stfts_test_pics.append(Gaussian)
                stfts_test_labels.append(data_type)

            for i in range(100):
                temp = load_data[start: start + N]
                start += 100
               
                temp = ([i for arr in temp for i in arr])
                f, t, nd = signal.stft(temp, fs=fs, window='hann', nperseg=64, noverlap=None, nfft=None,
                                       detrend=False, return_onesided=True, boundary='zeros', padded=True, axis=-1)
                Gaussian = cv2.GaussianBlur(abs(nd), (3, 3), 1)
                stfts_validation_pics.append(Gaussian)
                stfts_validation_labels.append(data_type)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-09-08 17:02
关注
【以下回答由 GPT 生成】

问题的关键在于如何实现不均衡样本抽样，将正常类样本和故障样本的比例设置为200:1。下面是一个可能的解决方案和代码示例：

确定每个类别需要的样本数量：

num_normal_samples = 200 num_fault_samples = num_normal_samples * 200

对于不均衡样本的分类，可以使用分层抽样方法来确保每个类别的比例正确。首先，创建一个空的列表来存储正常样本和故障样本：

balanced_data = []

对每个数据类型进行循环处理，调整样本数量并将其添加到balanced_data列表中：

for data_type in range(10): fs = 12000 t = 0.1 opt = "0-" N = 1024 data = all_data[data_type] # 调整正常样本数量 num_normal_samples_adjusted = min(num_normal_samples, len(data)) for i in range(num_normal_samples_adjusted): temp = load_data[start: start + N] start += 100 temp = ([i for arr in temp for i in arr]) f, t, nd = signal.stft(temp, fs=fs, window='hann', nperseg=64, noverlap=None, nfft=None, detrend=False, return_onesided=True, boundary='zeros', padded=True, axis=-1) Gaussian = cv2.GaussianBlur(abs(nd), (3, 3), 1) balanced_data.append((Gaussian, data_type)) # 调整故障样本数量 num_fault_samples_adjusted = min(num_fault_samples, len(data) - num_normal_samples_adjusted) for i in range(num_fault_samples_adjusted): temp = load_data[start: start + N] start += 100 temp = ([i for arr in temp for i in arr]) f, t, nd = signal.stft(temp, fs=fs, window='hann', nperseg=64, noverlap=None, nfft=None, detrend=False, return_onesided=True, boundary='zeros', padded=True, axis=-1) Gaussian = cv2.GaussianBlur(abs(nd), (3, 3), 1) balanced_data.append((Gaussian, data_type))

上述代码将正常样本和故障样本添加到balanced_data列表中，并将它们与它们对应的数据类型一起存储为元组。

现在，balanced_data列表中的样本已经按照所需的比例进行了分类，并且可以继续使用它进行训练集、测试集和验证集的划分。

请注意，上述示例代码仅仅是一种可能的解决方案，具体代码实现可能还需要根据实际情况进行调整。但这个示例可以作为一个起点来进行进一步的优化和开发。

【相关推荐】

你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7611545
你也可以参考下这篇文章：【机器学习】处理样本不均衡问题的方法，样本权重的处理方法及代码
您还可以看一下贺利坚老师的数据结构基础系列(4)：串课程中的串的链式存储及其基本操作实现小节, 巩固相关知识点
除此之外, 这篇博客: 【无标题】中的 十二、样本不均衡怎么办，数据集如何预处理 部分也许能够解决你的问题。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何将这个pytorch自带的CE函数优化？解决样本不均衡问题？ python pytorch 有问必答神经网络
2021-09-12 17:14

回答 2 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，已经为您补发到账户，我们后续会持续优化，扩大我们的服务范围，为您带来更好地服务。
R语言数据框随机抽样。 r语言
2020-04-17 16:30

回答 1 已采纳 R语言-随机数和抽样前言在Matlab、R或者S-PLUS等软件中做随机数模拟时，经过会遇到set.seed()这个函数。随机数的产生需要有一个随机的种子，因为用计算机产生的随机数是
r语言进行数据筛选，请问怎么按照已有样本名过滤 r语言
2023-03-27 19:30

回答 1 已采纳文章：R语言安装包过程中的一个问题解决中也许有你想要的答案，请看下吧除此之外, 这篇博客: R可视化散点图并进行特殊目标样本点的标记中的 R可视化散点图并进行特殊目标样本点的标记部分也许能够解决你
AI时代，我该选择什么编程语言？
2019-11-30 07:56

robot_learner的博客关注微信公众号, id： robot-learner 或者扫描关注，持续更新文章。 ...该网站分析了过去5年的招聘需求，对用人单位的程序员相关职位需要的编程语言或者技能要求做出了统计。下图反映了当前...
R语言决策树对样本量的要求是多少 r语言
2022-07-28 23:52

回答 1 已采纳多少样本是没有限制的，除了样本数量以外，更重要是要看问题的任务难度和数据的质量，建议先收集一部分数据，然后通过交叉验证等方法去看效果，如果效果很好那就可以了，如果不行的话，看看是增加样本数量或者改进数
关于#机器学习#的问题，如何解决？(语言-python) python 开发语言机器学习
2023-03-12 14:43

回答 2 已采纳这个错误提示表明，在计算距离的时候使用了字符串类型的数据，而距离计算一般是针对数值型数据的。你需要检查你的数据，看看是否有些特征是字符串类型的，如果有，你需要进行相应的处理，将其转换为数值类型，比如使
机器学习二分类样本少可以做吗？分类机器学习
2022-02-27 18:35

回答 2 已采纳理论上可以做，但样本量太少。首先，你的问题不是很明确，你是聚类问题（59个样本没有分类标记），还是分类问题（59个样本已标记属于那种分类）。如果是聚类问题，这些特征和样本也是可以做的，只是效果很难说。
R语言—使用函数sample进行抽样
2018-11-13 12:36

weixin_30485291的博客在医学统计学或者流行病学里的现场调查、样本选择经常会提到一个词：随机抽样。随机抽样是为了保证各比较组之间均衡性的一个很重要的方法。那么今天介绍的第一个函数就是用于抽样的函数sample： > x=1:...
遇到一指标的抽样均值的分布并不符合正态分布，这是为什么？ python 有问必答
2022-02-15 17:32

回答 3 已采纳试试增大数据量看看效果如何
用深度学习做文本分类，需要多大的样本量？准备自己构建数据集，正负样本比例最大不能大于多少？ tensorflow 人工智能数据挖掘深度学习自然语言处理
2020-07-30 11:12

回答 1 已采纳这个不可一概而论。看你是在什么场景下分类，如果是特定的一些内容，比如用户简单的评价做正面负面分类，很少的样本就可以了。如果要在自然语境中无限的分类，那么就需要很大的样本。另外和你的模型、模型的
如何将多样本单细胞matrix拆分成单样本Seurat r语言
2022-07-31 12:05

回答 1 已采纳 library(dplyr) cell_8w <- cell %>% filter(condition == "8w") %>% select(CellID) %>% un
数据标签化：如何通过标签化数据进行文本分类和自然语言处理自然语言处理教程
2023-07-18 00:42

光剑书架上的书的博客在自然语言处理中，词性标注、命名实体识别、句法分析、语义理解、语音合成、信息检索、文档摘要等功能需要对输入文本进行分析处理。这些任务通常都涉及到大量的数据处理工作。例如，给定一个文本序列（如一段话或一...
求助，SAS语言编程题，在线等，急～！开发语言有问必答
2021-06-10 22:37

回答 1 已采纳已解答，望采纳！
【机器学习基础】kaggle竞赛中数据抽样方式
2020-12-12 11:00

风度78的博客什么情况下需要会用到抽样数据量太大，计算能力不足。抽样调查，小部分数据即可反应全局情况。时效要求，通过抽样快速实现概念验证。定性分析的工作需要。无法实现全覆盖的场景，比如满意度调查等。解...
垂直领域出海，多语言预训练好使吗？
2021-01-27 18:42

PaperWeekly的博客 ©PaperWeekly 原创 ·作者｜刘世兴、程任清单位｜腾讯游戏知几AI团队研究方向｜自然语言处理简介垂直领域业务出海，往往面临着新语种、低资源语言数据不足等多语言挑战，其中一条技...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月8日

悬赏问题

¥15 更换了一个新的win10系统，再下载VS时碰到的问题，是C++组件的？
¥15 关于罗技鼠标宏lua文件的问题
¥15 halcon ocr mlp 识别问题
¥15 已知曲线满足正余弦函数，根据其峰值，还原出整条曲线
¥20 无法创建新的堆栈防护界面
¥15 sessionStorage在vue中的用法
¥15 wordpress更换域名后用户图片头像不显示
¥15 如何在ubunto上安装CEF (Chromium Embedded Framework)，并且基于qt实现打开一个web
¥30 AD9854 为什么输出波形幅度受限，AI机器人勿扰
¥15 如何在ubunto上安装CEF (Chromium Embedded Framework

怎样进行样本不均衡抽样？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新