m0_74420115 2024-04-29 21:50 采纳率: 71.9%
浏览 3

python对股票预测的时候下标的值变得不可控

运行一下我的程序,用LSTM方法来预测股票价格,为什么在进行最后一步绘图的时候下表直接到了3100年

import pandas as pd
file_path = r"D:\\findata.csv"  
df = pd.read_csv(file_path)
def Stock_Price_LSTM_Data_Precesing(df,mem_his_days,pre_days):
    df.dropna(inplace=True)
    df.sort_index(inplace=True)
    df['label']= df['Close'].shift(-pre_days)
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    sca_X=scaler.fit_transform(df.iloc[:,:-1])   
    mem_his_days = 10
    
    from collections import deque
    deq = deque(maxlen=mem_his_days)
    
    X = []
    for i in sca_X:
        deq.append(list(i))
        if len(deq)==mem_his_days:
            X.append(list(deq))
    X_lately = X[-pre_days:]
    X = X[:-pre_days]
    y = df['label'].values[mem_his_days-1:-pre_days]
    
    
    import numpy as np
    X = np.array(X)
    y = np.array(y)
    return X,y,X_lately
 
X,y,X_lately = Stock_Price_LSTM_Data_Precesing(df,5,10)
pre_days = 10
# mem_days=[5,10,15]
# lstm_layers=[1,2,3]
# dense_layers=[1,2,3]
# units = [16,32]
mem_days=[5]
lstm_layers=[3]
dense_layers=[2]
units =[32]
from tensorflow.keras.callbacks import ModelCheckpoint
 
for the_mem_days in mem_days:
    for the_lstm_layers in lstm_layers:
        for the_dense_layers in dense_layers:
            for the_units in units:
                filepath=f"./minefinalldata1/{{val_mape:.2f}}{{epoch:02d}}men{the_mem_days}lstm{the_lstm_layers}dense{the_dense_layers}unit{the_units}.keras"
                checkpoint = ModelCheckpoint(
                    filepath=filepath,
                    save_weights_only=False,
                    monitor='val_mape',
                    mode='min',
                    save_best_only=True)
                X,y,X_lately = Stock_Price_LSTM_Data_Precesing(df,the_mem_days,pre_days)
                from sklearn.model_selection import train_test_split
                X_train,X_test,y_train,y_test = train_test_split(X,y,shuffle=False,test_size=0.1)
                import tensorflow as tf
                from tensorflow.keras.models import Sequential
                from tensorflow.keras.layers import LSTM,Dense,Dropout
                model = Sequential()
                model.add(LSTM(the_units,input_shape=X.shape[1:],activation='relu',return_sequences=True))
                model.add(Dropout(0.1))
                for i in range(the_lstm_layers):
                    model.add(LSTM(the_units,activation='relu',return_sequences=True))
                    model.add(Dropout(0.1))
                
                model.add(LSTM(the_units,activation='relu'))
                model.add(Dropout(0.1))
                for i in range(the_dense_layers):
                    model.add(Dense(the_units,activation='relu'))
                    model.add(Dropout(0.1))
                
                model.add(Dense(1))
                model.compile(optimizer='adam',
                             loss='mse',
                             metrics=['mape'])
                model.fit(X_train,y_train,batch_size=32,epochs=50,validation_data=(X_test,y_test),callbacks=[checkpoint])
from tensorflow.keras.models import load_model
best_model = load_model('./minefinalldata1/7.3003men5lstm3dense2unit32.keras')
best_model.summary()
best_model.evaluate(X_test,y_test)
pre = best_model.predict(X_test)
print(len(pre))
import matplotlib.pyplot as plt
df_time = df.index[- len(y_test):]
plt.plot(df_time,y_test,color='red',label='price')
plt.plot(df_time,pre,color='green',label='predict')
plt.show()

  • 写回答

5条回答 默认 最新

  • 专家-皆知 2024-04-29 21:53
    关注

    参考免费微信小程序:皆我百晓生 作答,经由专家-皆知整理回复,如问题解决,望采纳;如仍有疑问,请评论回复。

    你的问题在于绘图时日期范围突然扩展到3100年,这通常是因为在处理时间序列数据时,预测部分的索引没有正确设置,导致了错误的日期生成。在你的代码中,直接使用了df.index[- len(y_test):]来获取时间索引,但预测后的数据并没有对应的真实日期,所以你需要创建一个逻辑来生成预测日期的索引。

    以下是修复这个问题的方法,主要集中在如何为预测结果生成正确的日期索引,并用于绘图:

    首先,确保你的原始DataFrame df 的索引是日期类型。如果原始CSV文件中的日期不是日期类型,你需要将其转换为pd.to_datetime。然后,我们创建一个新的日期范围来匹配预测数据的长度。

    修改后的绘图部分代码如下:

    import pandas as pd
    import matplotlib.pyplot as plt
    
    # 假设df的索引已经是日期类型,如果不是,请先转换:
    # df.index = pd.to_datetime(df.index)
    
    # 获取训练数据结束日期和预测数据的长度
    end_date = df.index[-1]
    forecast_dates = pd.date_range(end=end_date, periods=len(y_test) + len(pre), closed='right')[1:]
    
    plt.figure(figsize=(14,7))
    plt.plot(forecast_dates, y_test, color='red', label='Actual Price')
    plt.plot(forecast_dates, pre, color='green', label='Predicted Price')
    
    # 设置图表标题和标签
    plt.title('Stock Price Prediction')
    plt.xlabel('Date')
    plt.ylabel('Price')
    plt.legend()
    plt.grid(True)
    plt.show()
    

    这段代码的关键点在于创建了forecast_dates,它从训练数据的最后一个日期开始,向后扩展出与预测结果相同长度的日期序列。这样,无论预测的长度如何,都能确保日期索引是正确的,并且不会莫名地延伸到未来很远的日期。请确保你的DataFrame索引正确反映了时间序列的日期。如果原始数据索引不是日期格式,记得先进行转换。

    评论 编辑记录

报告相同问题?

问题事件

  • 创建了问题 4月29日