麻烦哪位大佬用行一下这段代码

## 1.导入第三方包
import pandas as pd
import numpy as np

import lightgbm as lgb
import xgboost as xgb
from catboost import CatBoostRegressor
from sklearn.linear_model import SGDRegressor, LinearRegression, Ridge
from sklearn.preprocessing import MinMaxScaler


from sklearn.model_selection import StratifiedKFold, KFold
from sklearn.metrics import log_loss
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder

from tqdm import tqdm
import matplotlib.pyplot as plt
import time
import warnings
warnings.filterwarnings('ignore')
import multiprocessing

import re

def gen_tsfresh_features():

    # 数据读取
    data_train = pd.read_csv("./datasets/train.csv")

    # print(data_train.shape)
    # data_train = data_train.loc[99000:, :]
    # print(data_train.shape)

    # print(data_train.head())

    # print(data_test_A.shape)
    # data_test_A = data_test_A.loc[19000:, :]
    # print(data_test_A.shape)

    # print(data_test_A.head())

    # 对训练数据处理

    # 对心电特征进行行转列处理，同时为每个心电信号加入时间步特征time
    train_heartbeat_df = data_train["heartbeat_signals"].str.split(",", expand=True).stack()
    train_heartbeat_df = train_heartbeat_df.reset_index()
    train_heartbeat_df = train_heartbeat_df.set_index("level_0")
    train_heartbeat_df.index.name = None
    train_heartbeat_df.rename(columns={"level_1": "time", 0: "heartbeat_signals"}, inplace=True)
    train_heartbeat_df["heartbeat_signals"] = train_heartbeat_df["heartbeat_signals"].astype(float)

    # print(train_heartbeat_df)

    # 将处理后的心电特征加入到训练数据中，同时将训练数据label列单独存储
    data_train_label = data_train["label"]
    data_train = data_train.drop("label", axis=1)
    data_train = data_train.drop("heartbeat_signals", axis=1)
    data_train = data_train.join(train_heartbeat_df)

    # print(data_train)

    # print(data_train[data_train["id"] == 1])

    from tsfresh import extract_features

    print(data_train.info())
    print(data_train.tail())
    # 减少内存
    data_train = reduce_mem_usage(data_train)
    data_train.heartbeat_signals = data_train.heartbeat_signals.astype(np.float32) # extract_features 中有函数不支持 float16
    print('data_train done Memory usage of dataframe is {:.2f} MB'.format(data_train.memory_usage().sum() / 1024 ** 2))
    print(data_train.info())
    print(data_train.tail())

    # 特征提取
    from tsfresh.feature_extraction import ComprehensiveFCParameters
    settings = ComprehensiveFCParameters()
    # from tsfresh.feature_extraction import MinimalFCParameters
    # settings = MinimalFCParameters()
    from tsfresh.feature_extraction import extract_features
    train_features = extract_features(data_train, default_fc_parameters=settings, column_id='id', column_sort='time')

    # 特征提取
    # train_features = extract_features(data_train, column_id='id', column_sort='time')
    # print(train_features)

    from tsfresh.utilities.dataframe_functions import impute

    # 去除抽取特征中的NaN值
    impute(train_features)
    # print(f"train_features.columns:{train_features.columns} {len(train_features.columns)}")

    # from tsfresh import select_features

    # 按照特征和数据label之间的相关性进行特征选择
    # train_features_filtered = select_features(train_features, data_train_label)
    train_features_filtered = train_features # 不错特征筛选 全部用于训练

    # print(train_features_filtered)
    # print(f"train_features_filtered.columns:{train_features_filtered.columns} {len(train_features_filtered.columns)}")

    # 对测试数据处理

    data_test_A = pd.read_csv("./datasets/testA.csv")

    # 对心电特征进行行转列处理，同时为每个心电信号加入时间步特征time
    test_heartbeat_df = data_test_A["heartbeat_signals"].str.split(",", expand=True).stack()
    test_heartbeat_df = test_heartbeat_df.reset_index()
    test_heartbeat_df = test_heartbeat_df.set_index("level_0")
    test_heartbeat_df.index.name = None
    test_heartbeat_df.rename(columns={"level_1": "time", 0: "heartbeat_signals"}, inplace=True)
    test_heartbeat_df["heartbeat_signals"] = test_heartbeat_df["heartbeat_signals"].astype(float)

    # print(test_heartbeat_df)

    # 将处理后的心电特征加入到训练数据中，同时将训练数据label列单独存储
    data_test_A = data_test_A.drop("heartbeat_signals", axis=1)
    data_test_A = data_test_A.join(test_heartbeat_df)

    # print(data_test_A)

    # print(data_test_A[data_test_A["id"] == 1])

    from tsfresh import extract_features

    # 减少内存
    data_test_A = reduce_mem_usage(data_test_A)
    data_test_A.heartbeat_signals = data_test_A.heartbeat_signals.astype(np.float32)  # extract_features 中有函数不支持 float16
    print('data_test_A done Memory usage of dataframe is {:.2f} MB'.format(data_test_A.memory_usage().sum() / 1024 ** 2))
    print(data_test_A.info())
    print(data_test_A.tail())

    # 特征提取
    from tsfresh.feature_extraction import ComprehensiveFCParameters
    settings = ComprehensiveFCParameters()
    # from tsfresh.feature_extraction import MinimalFCParameters
    # settings = MinimalFCParameters()
    from tsfresh.feature_extraction import extract_features
    test_features = extract_features(data_test_A, default_fc_parameters=settings, column_id='id', column_sort='time')

    # 特征提取
    # test_features = extract_features(data_test_A, column_id='id', column_sort='time')
    # print(test_features)

    from tsfresh.utilities.dataframe_functions import impute

    # 去除抽取特征中的NaN值
    impute(test_features)
    # 测试数据的特征列与训练数据最终筛选出来的列对齐
    # print(f"test_features.columns:{test_features.columns} {len(test_features.columns)}")
    test_features_filtered = test_features[train_features_filtered.columns]
    # print(f"test_features_filtered.columns:{test_features_filtered.columns} {len(test_features_filtered.columns)}")

    return train_features_filtered, data_train_label, test_features_filtered

def reduce_mem_usage(df):
    start_mem = df.memory_usage().sum() / 1024 ** 2
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))

    for col in df.columns:
        col_type = df[col].dtype

        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')

    end_mem = df.memory_usage().sum() / 1024 ** 2
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))

    return df

def lightgbm_train_test(train, label, test):
    # 简单预处理
    train = reduce_mem_usage(train)
    test = reduce_mem_usage(test)

    ## 4.训练数据/测试数据准备

    x_train = train
    x_train.reset_index(drop=True, inplace=True)

    y_train = label
    y_train.reset_index(drop=True, inplace=True)

    x_test = test
    x_test.reset_index(drop=True, inplace=True)

    # print("x_train.columns:", x_train.columns)
    # print("x_test.columns:", x_test.columns)
    x_train = x_train.rename(columns=lambda x: re.sub('[^A-Za-z0-9_]+', 'z', x))
    x_test = x_test.rename(columns=lambda x: re.sub('[^A-Za-z0-9_]+', 'z', x))
    # print("x_train.columns:", x_train.columns)
    # print("x_test.columns:", x_test.columns)

    print(x_train.shape, x_test.shape, y_train.shape)

    ## 5.模型训练

    def abs_sum(y_pre, y_tru):
        y_pre = np.array(y_pre)
        y_tru = np.array(y_tru)
        loss = sum(sum(abs(y_pre - y_tru)))
        return loss

    def cv_model(clf, train_x, train_y, test_x, clf_name):
        folds = 5
        seed = 2021
        kf = KFold(n_splits=folds, shuffle=True, random_state=seed)
        test = np.zeros((test_x.shape[0], 4))

        cv_scores = []
        onehot_encoder = OneHotEncoder(sparse=False)
        for i, (train_index, valid_index) in enumerate(kf.split(train_x, train_y)):
            print('************************************ {} ************************************'.format(str(i + 1)))
            trn_x, trn_y, val_x, val_y = train_x.iloc[train_index], train_y[train_index], train_x.iloc[valid_index], train_y[valid_index]
            if clf_name == "lgb":
                train_matrix = clf.Dataset(trn_x, label=trn_y)
                valid_matrix = clf.Dataset(val_x, label=val_y)

                params = {
                    'boosting_type': 'gbdt',
                    'objective': 'multiclass',
                    'num_class': 4,
                    'num_leaves': 2 ** 5,
                    'feature_fraction': 0.8,
                    'bagging_fraction': 0.8,
                    'bagging_freq': 4,
                    'learning_rate': 0.1,
                    'seed': seed,
                    'n_jobs': 40,
                    'verbose': -1,
                }

                model = clf.train(params,
                                  train_set=train_matrix,
                                  valid_sets=valid_matrix,
                                  num_boost_round=2000,
                                  verbose_eval=100,
                                  early_stopping_rounds=200)
                val_pred = model.predict(val_x, num_iteration=model.best_iteration)
                test_pred = model.predict(test_x, num_iteration=model.best_iteration)

            print("val_y:", val_y.shape)
            val_y = np.array(val_y).reshape(-1, 1)
            val_y = onehot_encoder.fit_transform(val_y)
            print("val_y:", val_y.shape)
            print('预测的概率矩阵为：')
            print(test_pred)
            test += test_pred
            score = abs_sum(val_y, val_pred)
            cv_scores.append(score)
            print(cv_scores)
        print("%s_scotrainre_list:" % clf_name, cv_scores)
        print("%s_score_mean:" % clf_name, np.mean(cv_scores))
        print("%s_score_std:" % clf_name, np.std(cv_scores))
        test = test / kf.n_splits

        return test

    def lgb_model(x_train, y_train, x_test):
        lgb_test = cv_model(lgb, x_train, y_train, x_test, "lgb")
        return lgb_test

    lgb_test = lgb_model(x_train, y_train, x_test)

    ## 6.预测结果

    temp = pd.DataFrame(lgb_test)
    result = pd.read_csv('./datasets/sample_submit.csv')
    result['label_0'] = temp[0]
    result['label_1'] = temp[1]
    result['label_2'] = temp[2]
    result['label_3'] = temp[3]
    result.to_csv('lightgbm_tsfresh_submit.csv', index=False)

if __name__ == '__main__':

    multiprocessing.freeze_support()

    ## 2.读取数据
    train, label, test = gen_tsfresh_features()

    ## 3.数据预处理
    lightgbm_train_test(train, label, test)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
远方_流浪 2021-04-29 00:13
关注
你这个是要从本地读取csv数据的，没法运行呀

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

有大佬帮忙解读一下这段代码的功能实现吗 c++ c语言
2020-05-26 15:25

回答 1 已采纳看上去好像是约瑟夫环的问题 https://www.cnblogs.com/cmmdc/p/7216726.html
那位大佬帮忙看看这段代码，python小白 python
2019-07-16 21:56

回答 2 已采纳 self.spiderMan = self.createDict() 不要括号
哪位大佬告诉我JAVA怎么读取文件，我这段代码问题出在哪里 eclipse java
2020-05-01 12:34

回答 2 已采纳路径有问题，不能直接写文件名称要加相对路径，比如把这个文件放在 src 目录下，那么代码就是这样，异常打印要用 e.printStack 看异常堆栈信息 ``` BufferedReader
月薪30k大佬教你用10行Python代码让Python数据处理脚本获得4倍提速
2020-08-04 16:48

搬砖的苦行僧的博客 Python是一门非常适合处理数据和自动化完成重复性工作的编程语言，我们在用数据训练机器学习模型之前，通常都需要对数据进行预处理，而Python就非常适合完成这项工作，比如需要重新调整几十万张图像的尺寸，用Python...
求大佬们帮忙分析一下这段代码。 java
2019-08-01 19:12

回答 6 已采纳 else和最接近的if配对所以 if (a<0) { if (b<0) { c=10; }
哪位大佬麻烦问一下怎么连接国信证券的股票实盘？ python 有问必答
2021-06-05 12:10

回答 2 已采纳您好，我是有问必答小助手，您的问题已经有小伙伴解答了，您看下是否解决，可以追评进行沟通哦~ 如果有您比较满意的答案 / 帮您提供解决思路的答案，可以点击【采纳】按钮，给回答的小伙伴一些鼓励哦～～
大佬能不能给我讲解一下这段代码的意思 java 有问必答
2021-05-29 21:33

回答 4 已采纳很简单，就是定义了一个人的类Person，有四个属性，分别是身份证号（id），姓名（name），住址（add）和电话（tel）定义了一个默认构造函数和一个有四个参数的构造函数，把四个参数传递给四个
智地平线人工智能（ChatGPT&豆包&讯飞星火）实际使用体验
2023-08-20 10:30

Money鹏同学的博客 ChatGPT是OpenAI开发的基于GPT-3.5架构的语言模型，专注于自然语言的生成和理解。ChatGPT能够生成新颖、流畅的自然语言文本，适用于各种应用领域，如写作、对话模拟等。可以用于多种任务，包括答疑、文本生成、翻译...
请问大佬，如何执行这段代码 android
2020-03-05 12:41

回答 1 已采纳。。。把后面的注释去掉，复制粘贴回车-_-||
这个是我的作业，有哪位大佬可以指导一下吗 c语言有问必答
2021-06-03 19:38

回答 4 已采纳这个系统非常简单可以参考这个网址https://blog.csdn.net/qq_42780025/article/details/94453068
各位大佬麻烦看一下，这一段加了红框的代码是什么意思？ c++
2020-07-16 14:46

回答 1 已采纳往表格里面插入配置项的节点具体的文档 http://c.biancheng.net/view/1869.html
ChatGPT 引领的 AI 革命爆发了，一起上车吧！
2023-03-23 21:38

ghostwritten的博客 ChatGPT是由总部位于旧金山的初创公司 OpenAI 开发的人工智能聊天机器人。该公司于 2022 年 11 月 30 日推出了 ChatGPT。OpenAI 于 2015 年由 Elon Musk 和 Sam Altman 共同创立，并得到了知名投资者的支持——最...
python哪位大佬帮忙看一下那里有问题，谢谢 python 有问必答
2021-06-06 22:39

回答 3 已采纳你for中循环变量名与列表变量名同名了，循环变量的值覆盖了列表变量的值。改成不同变量名就好
618大促将至，用AI挖掘差评，零代码实现亿级评论观点情感分析
2022-06-07 21:56

夕小瑶的博客毫不夸张的说，这个写了0行代码、花了3个小时部署得到的评论极性判别的API，可能比许多专业的算法工程师折腾数天搞出来的API都好用。至此，作为一个AI算法工程师，卖萌酱深深的感慨：我们开发了AI，但AI开发可能...
北大AI公开课第一课——人工智能前沿产业趋势by雷鸣老师
2018-05-28 11:02

汪汪小白狗的博客最近听了北大的AI课程，为了更好地吸收课程的精华，将知识变成自己血肉里的力量（认真脸），决定要把课程的笔记重新梳理一遍，一直以来记笔记的习惯是（1）只记感觉对自己很有用的，如很新颖的、很经典又容易忘的、...
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

麻烦哪位大佬用行一下这段代码

1条回答 默认 最新

悬赏问题

1条回答默认最新