LSTM的格式 与卷积 。。。。。。。。。。。
inputs = Input(shape=(28, 140, 1))  
s_model = Sequential()
s_model.add(LSTM(11, input_shape=(28, 140, 1)))
s_model.add(LSTM(11, dropout=0.2, recurrent_dropout=0.2))
x = Conv2D(5, (3, 3), activation='relu')(inputs)
s_model.add(x=Conv2D(5, (3, 3), activation='relu')(x))
s_model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
s_model.fit(x_train, y_train, batch_size=32, epochs=1)

predict_test = s_model.predict(x_test)
predict_list = []

错误:

Using TensorFlow backend.
WARNING:tensorflow:From D:\Python\lib\site-packages\tensorflow\python\framework\op_def_library.py:263: colocate_with (from tensorflow.python.framework.ops) is deprecated and will be removed in a future version.
Instructions for updating:
Colocations handled automatically by placer.
2019-06-18 23:20:57.371797: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2
Traceback (most recent call last):
  File "C:/Users/13544/Documents/yhz-internship/work.py", line 86, in <module>
    s_model.add(LSTM(11, input_shape=(28, 140, 1)))
  File "D:\Python\lib\site-packages\keras\engine\sequential.py", line 165, in add
    layer(x)
  File "D:\Python\lib\site-packages\keras\layers\recurrent.py", line 532, in __call__
    return super(RNN, self).__call__(inputs, **kwargs)
  File "D:\Python\lib\site-packages\keras\engine\base_layer.py", line 414, in __call__
    self.assert_input_compatibility(inputs)
  File "D:\Python\lib\site-packages\keras\engine\base_layer.py", line 311, in assert_input_compatibility
    str(K.ndim(x)))
ValueError: Input 0 is incompatible with layer lstm_1: expected ndim=3, found ndim=4
4

2个回答

inputs = Input(shape=(28, 140, 1))

s_model = Sequential()
s_model.add(LSTM(140))
s_model.add(LSTM(140, dropout=0.2, recurrent_dropout=0.2))
第二个维度140要和lstm cell的值一致
你应该取学习一下基础的lstm网络和cnn的东西,你这段代码完全都是问题啊

你需要安装sse版的tensorflow,或者找一台Core i5/i7 4系列以上的CPU的计算机(比如i7 4770K i7 7700K等)
你的CPU太老,不支持AVX2指令。

另外nput 0 is incompatible with layer lstm_1: expected ndim=3, found ndim=4
你的lstm输入层应该是3维度的,是不是你把y维度也放进去了

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
LSTM输入数据格式问题

输入样本train_x1 标签train_y1 样本与标签都是(20000,10) 然后我reshape变成三维(20000,1,10)报错 求该如何修改格式 输入十个数值,输出十个数值。 train_x1 = np.reshape(train_x1, (train_x1.shape[0],1,train_x1.shape[1])) train_y1 = np.reshape(train_y1, (train_y1.shape[0],1,train_y1.shape[1])) model = Sequential() model.add(LSTM(50, input_shape=(train_x1.shape[1], train_x1.shape[2]))) model.add(Dense(10)) model.compile(loss='mse', optimizer='adam') model.fit(train_x1, train_y1, nb_epoch = 300, batch_size = 10) model.save_weights('LSTM.model')

theano框架的lstm数据集格式讲解

theano的lstm,dataset是怎样的一个格式。 我看官网的解释,说是train y和test y都是0和1,就是二分类,这个没问题。但是train x和test x,是一个二维数组?那行数表示什么,列数呢? 我想输入自己的数据,比如我有100个样本,每个样本1024维,想对它们进行二分类,那数据格式怎么写呢

keras下用RNN中的lstm来进行图片分类,输入维数的错误

1.如题,我是在keras下用lstm来对本地文件夹中六类垃圾进行图片分类 这是我的部分代码: (我本地的图片是512 ✖384的,进行resize为200✖160了) ``` nb_lstm_outputs = 128 #神经元个数 nb_time_steps = 200 #时间序列长度 nb_input_vector = 160 #输入序列 # 读取数据和标签 print("------开始读取数据------") data = [] labels = [] # 拿到图像数据路径,方便后续读取 imagePaths = sorted(list(utils_paths.list_images('./dataset-resized'))) random.seed(42) random.shuffle(imagePaths) # 遍历读取数据 for imagePath in imagePaths: # 读取图像数据 image = cv2.imread(imagePath) image = cv2.resize(image, (160,200)) data.append(image) # 读取标签 label = imagePath.split(os.path.sep)[-2] labels.append(label) # 对图像数据做scale操作 data=np.array(data, dtype="float") / 255.0 labels = np.array(labels) # 数据集切分 (trainX, testX, trainY, testY) = train_test_split(data,labels, test_size=0.25, random_state=42) # 转换标签为one-hot encoding格式 lb = LabelBinarizer() trainY = lb.fit_transform(trainY) testY = lb.transform(testY) # 设置初始化超参数 EPOCHS = 5 BS = 71 ``` 以上就是我的数据预处理操作 下面是我构建的模型: ``` model = Sequential() model.add(LSTM(units=nb_lstm_outputs, return_sequences=True, input_shape=(nb_time_steps, nb_input_vector))) # returns a sequence of vectors of dimension 30 model.add(LSTM(units=nb_lstm_outputs, return_sequences=True)) # returns a sequence of vectors of dimension 30 model.add(LSTM(units=nb_lstm_outputs)) # return a single vector of dimension 30 model.add(Dense(1, activation='softmax')) model.add(Dense(6, activation='softmax')) adam=Adam(lr=1e-4) model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) model.fit(trainX, trainY, epochs = EPOCHS, batch_size = BS, verbose = 1, validation_data = (testX,testY)) ``` 后续就是优化和生成loss等的代码了。 然而运行时遇到了以下维度错误: ![图片说明](https://img-ask.csdn.net/upload/202004/26/1587884348_141131.png) 然后我我试着修改不同的尺寸,发现都有上述错误,感觉应该是维度错误,但是不太明白1895是怎么来的? 2.遇到上述维度问题后,不太清楚怎么解决,于是我将代码中读取图片cv2.imread,将图像进行了灰度化: ``` image = cv2.imread(imagePath,CV2.IMREAD_GRAYSCALE) ``` 调整后,代码可以运行,然而并未按照预先设定的Batchsize进行训练,而是直接以划分的整体比例进行训练,想请问下这是怎么回事?已经输入BS到batch_size的参数了 ![图片说明](https://img-ask.csdn.net/upload/202004/26/1587884791_796238.png) 所以想请问各位大神,怎么解决维度问题,还有就是为什么后面BS传进去不管用啊,有没有清楚怎么一回事的啊? 谢谢各位大神了!!是个小白QAQ谢谢!

如何理解LSTM中的timestep,并与大神博客中的示意图对应起来?

本人初学LSTM神经网络,看了一些博客,如:[Understanding LSTM Networks](http://colah.github.io/posts/2015-08-Understanding-LSTMs/ "") 但还是有些疑问,请大神不吝赐教。 问题:LSTM神经网络的输入输出格式是[samples, timesteps, features],那么请问对于1个samples,此图中 ![图片说明](https://img-ask.csdn.net/upload/201907/01/1561968109_105645.png) t就对应的是timesteps吗?也就是说,如果输入数据形状为[1,2,3],即1个样本假设为[[0 1 2] [3 4 5]],那么是否按上图展开就变成 ![图片说明](https://img-ask.csdn.net/upload/201907/01/1561975042_466235.png) 其中,X0 = [0 1 2], X1 = [3 4 5]? 对于h0,h1的长度,如果使用python中的keras库,是由model.add(LSTM(len))决定的? 即如果len=10,则len(h0) = 10? 由于本人是初学,理解可能有误,请大家不要笑话。 目前已经查看过[LSTM的神经元个数](https://www.cnblogs.com/wushaogui/p/9176617.html "")这篇文章,但没有具体解释timesteps

关于LSTM模型提取数据特征

# define model model = Sequential() model.add(LSTM(128, activation='relu', input_shape=(timesteps,n_features), return_sequences=True)) model.add(LSTM(64, activation='relu', return_sequences=False)) model.add(RepeatVector(timesteps)) model.add(LSTM(64, activation='relu', return_sequences=True)) model.add(LSTM(128, activation='relu', return_sequences=True)) model.add(TimeDistributed(Dense(n_features))) model.compile(optimizer='adam', loss='mse') model.summary() 代码如上,我需要提取一段语音序列的特征,我的理解是需要得到编码后的结果,也就是model.add(LSTM(64, activation='relu', return_sequences=False))的这一模型的输出作为特征,那么我应该怎样用代码实现这个特征输出呢?

pytorch训练LSTM模型的代码疑问

原博文链接地址:https://blog.csdn.net/Sebastien23/article/details/80574918 其中有不少代码完全看不太懂,想来这里求教下各位大神~~ ``` class Sequence(nn.Module): def __init__(self): super(Sequence,self).__init__() self.lstm1 = nn.LSTMCell(1,51) self.lstm2 = nn.LSTMCell(51,51) self.linear = nn.Linear(51,1) #上面三行代码是设置网络结构吧?为什么用的是LSTMCell,而不是LSTM?? def forward(self,inputs,future= 0): #这里的前向传播名称必须是forward,而不能随意更改??因为后面的模型调用过程中,并没有看到该方法的实现 outputs = [] h_t = torch.zeros(inputs.size(0),51) c_t = torch.zeros(inputs.size(0),51) h_t2 = torch.zeros(inputs.size(0),51) c_t2 = torch.zeros(inputs.size(0),51) #下面的代码中,LSTM的原理是要求三个输入:前一层的细胞状态、隐藏层状态和当前层的数据输入。这里却只有2个输入?? for i,input_t in enumerate(inputs.chunk(inputs.size(1),dim =1)): h_t,c_t = self.lstm1(input_t,(h_t,c_t)) h_t2,c_t2 = self.lstm2(h_t,(h_t2,c_t2)) output = self.linear(h_t2) outputs +=[output] for i in range(future): h_t,c_t = self.lstm1(output,(h_t,c_t)) h_t2,c_t2 = self.lstm2(h_t,(h_t2,c_t2)) output = self.linear(h_t2) outputs +=[output] #下面将所有的输出在第一维上相拼接,并剪除维度为2的数据??目的是什么? outputs = torch.stack(outputs,1).squeeze(2) return outputs ```

LSTM时间序列分类的输出结果和输出单元h有什么关系?

打算用时间序列做分类,即单纯每个序列做分类。我是这么想的,可以分别理解为单纯的lstm的两个问题,many to one 和 many to many 1.多对一,就是直接输出分类结果,但是分类结果是怎么计算来的?和lstm的输出单元h与最后的分类结果有什么关系? 2.多对多,就是输出每个类别的概率,比如3个类别做分类,输出一个3个元素的概率向量,那么这个向量和lstm的输出单元h是什么关系?

Keras实现LSTM进行情感分析的问题,如何正确增加隐层

源代码如下: ``` model = Sequential() model.add(Embedding(max_features, 256, input_length=maxlen)) model.add(LSTM(output_dim=128, activation='sigmoid', inner_activation='hard_sigmoid')) ``` 为什么总显示错误: TypeError: Expected int32, got <tf.Variable 'lstm_27_W_i:0' shape=(256, 128) dtype=float32_ref> of type 'Variable' instead.

LSTM神经网络预测值与实际值偏差过大

在使用博主https://blog.csdn.net/u010866505/article/details/74910525 的改编代码进行预测时,发现预测值与实际值相差过大,我用的数据:输入两个10以内的整数,输出为这两个整数的加和,代码如下: ```%接下来就是LSTM的Matlab代码,我也进行了注释,用英文注释的,也比较容易懂: % implementation of LSTM clc % clear close all % %% training dataset generation % binary_dim = 8; % % % largest_number = 2^binary_dim - 1; % binary = cell(largest_number, 1); % % % for i = 1:largest_number + 1 % binary{i} = dec2bin(i-1, binary_dim); % int2binary{i} = binary{i}; % end load('datta.mat') x = datta(:,1:2); Y = datta(:,3); %% input variables alpha = 0.0001; input_dim = 2; hidden_dim = 256; output_dim = 1; allErr = []; %% initialize neural network weights % in_gate = sigmoid(X(t) * X_i + H(t-1) * H_i) ------- (1) X_i = 2 * rand(input_dim, hidden_dim) - 1; H_i = 2 * rand(hidden_dim, hidden_dim) - 1; X_i_update = zeros(size(X_i)); H_i_update = zeros(size(H_i)); bi = 2*rand(1,1) - 1; bi_update = 0; % forget_gate = sigmoid(X(t) * X_f + H(t-1) * H_f) ------- (2) X_f = 2 * rand(input_dim, hidden_dim) - 1; H_f = 2 * rand(hidden_dim, hidden_dim) - 1; X_f_update = zeros(size(X_f)); H_f_update = zeros(size(H_f)); bf = 2*rand(1,1) - 1; bf_update = 0; % out_gate = sigmoid(X(t) * X_o + H(t-1) * H_o) ------- (3) X_o = 2 * rand(input_dim, hidden_dim) - 1; H_o = 2 * rand(hidden_dim, hidden_dim) - 1; X_o_update = zeros(size(X_o)); H_o_update = zeros(size(H_o)); bo = 2*rand(1,1) - 1; bo_update = 0; % g_gate = tanh(X(t) * X_g + H(t-1) * H_g) ------- (4) X_g = 2 * rand(input_dim, hidden_dim) - 1; H_g = 2 * rand(hidden_dim, hidden_dim) - 1; X_g_update = zeros(size(X_g)); H_g_update = zeros(size(H_g)); bg = 2*rand(1,1) - 1; bg_update = 0; out_para = 2 * rand(hidden_dim, output_dim) - 1; out_para_update = zeros(size(out_para)); % C(t) = C(t-1) .* forget_gate + g_gate .* in_gate ------- (5) % S(t) = tanh(C(t)) .* out_gate ------- (6) % Out = sigmoid(S(t) * out_para) ------- (7) % Note: Equations (1)-(6) are cores of LSTM in forward, and equation (7) is % used to transfer hiddent layer to predicted output, i.e., the output layer. % (Sometimes you can use softmax for equation (7)) % train iter = 1000; % training iterations for j = 1:iter % total error overallError = 0; % difference in output layer, i.e., (target - out) output_deltas = []; % values of hidden layer, i.e., S(t) hidden_layer_values = []; cell_gate_values = []; % initialize S(0) as a zero-vector hidden_layer_values = [hidden_layer_values; zeros(1, hidden_dim)]; cell_gate_values = [cell_gate_values; zeros(1, hidden_dim)]; % initialize memory gate % hidden layer H = []; H = [H; zeros(1, hidden_dim)]; % cell gate C = []; C = [C; zeros(1, hidden_dim)]; % in gate I = []; % forget gate F = []; % out gate O = []; % g gate G = []; % start to process a sequence, i.e., a forward pass % Note: the output of a LSTM cell is the hidden_layer, and you need to % transfer it to predicted output for position = 0:length(Y)-1 % X ------> input, size: 1 x input_dim X = x(position + 1,:); % y ------> label, size: 1 x output_dim y = Y(position+ 1); % use equations (1)-(7) in a forward pass. here we do not use bias in_gate = sigmoid(X * X_i + H(end, :) * H_i + bi); % equation (1) forget_gate = sigmoid(X * X_f + H(end, :) * H_f + bf); % equation (2) out_gate = sigmoid(X * X_o + H(end, :) * H_o + bo); % equation (3) g_gate = tan_h(X * X_g + H(end, :) * H_g + bg); % equation (4) C_t = C(end, :) .* forget_gate + g_gate .* in_gate; % equation (5) H_t = tan_h(C_t) .* out_gate; % equation (6) % store these memory gates I = [I; in_gate]; F = [F; forget_gate]; O = [O; out_gate]; G = [G; g_gate]; C = [C; C_t]; H = [H; H_t]; % compute predict output pred_out = sigmoid(H_t * out_para); % compute error in output layer output_error = y - pred_out % compute difference in output layer using derivative 用导数计算输出层的差分 % output_diff = output_error * sigmoid_output_to_derivative(pred_out); output_deltas = [output_deltas; output_error*sigmoid_output_to_derivative(pred_out)]; %output_deltas = [output_deltas; output_error*(pred_out)]; % compute total error % note that if the size of pred_out or target is 1 x n or m x n, % you should use other approach to compute error. here the dimension % of pred_out is 1 x 1 overallError = overallError + abs(output_error(1)); % decode estimate so we can print it out d(length(Y) - position) = round(pred_out); end % from the last LSTM cell, you need a initial hidden layer difference future_H_diff = zeros(1, hidden_dim); % stare back-propagation, i.e., a backward pass % the goal is to compute differences and use them to update weights % start from the last LSTM cell for position = 0:length(Y)-1 X = x(position+1,:); % hidden layer H_t = H(end - position, :); % H(t) % previous hidden layer H_t_1 = H(end- position-1, :); % H(t-1) C_t = C(end-position, :); % C(t) C_t_1 = C(end-position-1, :); % C(t-1) O_t = O(end-position, :); F_t = F(end-position, :); G_t = G(end-position, :); I_t = I(end-position, :); output_diff = output_deltas(end-position, :); % output layer difference % hidden layer difference % note that here we consider one hidden layer is input to both % output layer and next LSTM cell. Thus its difference also comes % from two sources. In some other method, only one source is taken % into consideration. % use the equation: delta(l) = (delta(l+1) * W(l+1)) .* f'(z) to % compute difference in previous layers. look for more about the % proof at http://neuralnetworksanddeeplearning.com/chap2.html % H_t_diff = (future_H_diff * (H_i' + H_o' + H_f' + H_g') + output_diff * out_para') ... % .* sigmoid_output_to_derivative(H_t); H_t_diff = output_diff * (out_para').* sigmoid_output_to_derivative(H_t); % H_t_diff = output_diff * (out_para') .* sigmoid_output_to_derivative(H_t); % future_H_diff = H_t_diff; % out_para_diff = output_diff * (H_t) * sigmoid_output_to_derivative(out_para); out_para_diff = (H_t') * output_diff;%输出层权重 % out_gate diference O_t_diff = H_t_diff .* tan_h(C_t) .* sigmoid_output_to_derivative(O_t); % C_t difference C_t_diff = H_t_diff .* O_t .* tan_h_output_to_derivative(C_t); % % C(t-1) difference % C_t_1_diff = C_t_diff .* F_t; % forget_gate_diffeence F_t_diff = C_t_diff .* C_t_1 .* sigmoid_output_to_derivative(F_t); % in_gate difference I_t_diff = C_t_diff .* G_t .* sigmoid_output_to_derivative(I_t); % g_gate difference G_t_diff = C_t_diff .* I_t .* tan_h_output_to_derivative(G_t); % differences of X_i and H_i X_i_diff = X' * I_t_diff.* sigmoid_output_to_derivative(X_i); H_i_diff = (H_t_1)' * I_t_diff .* sigmoid_output_to_derivative(H_i); % differences of X_o and H_o X_o_diff = X' * O_t_diff .* sigmoid_output_to_derivative(X_o); H_o_diff = (H_t_1)' * O_t_diff .* sigmoid_output_to_derivative(H_o); % differences of X_o and H_o X_f_diff = X' * F_t_diff .* sigmoid_output_to_derivative(X_f); H_f_diff = (H_t_1)' * F_t_diff .* sigmoid_output_to_derivative(H_f); % differences of X_o and H_o X_g_diff = X' * G_t_diff .* tan_h_output_to_derivative(X_g); H_g_diff = (H_t_1)' * G_t_diff.* tan_h_output_to_derivative(H_g); % update X_i_update = X_i_update + X_i_diff; H_i_update = H_i_update + H_i_diff; X_o_update = X_o_update + X_o_diff; H_o_update = H_o_update + H_o_diff; X_f_update = X_f_update + X_f_diff; H_f_update = H_f_update + H_f_diff; X_g_update = X_g_update + X_g_diff; H_g_update = H_g_update + H_g_diff; bi_update = bi_update + I_t_diff; bo_update = bo_update + O_t_diff; bf_update = bf_update + F_t_diff; bg_update = bg_update + G_t_diff; out_para_update = out_para_update + out_para_diff; end X_i = X_i + X_i_update * alpha; H_i = H_i + H_i_update * alpha; X_o = X_o + X_o_update * alpha; H_o = H_o + H_o_update * alpha; X_f = X_f + X_f_update * alpha; H_f = H_f + H_f_update * alpha; X_g = X_g + X_g_update * alpha; H_g = H_g + H_g_update * alpha; bi = bi + bi_update * alpha; bo = bo + bo_update * alpha; bf = bf + bf_update * alpha; bg = bg + bg_update * alpha; out_para = out_para + out_para_update * alpha; X_i_update = X_i_update * 0; H_i_update = H_i_update * 0; X_o_update = X_o_update * 0; H_o_update = H_o_update * 0; X_f_update = X_f_update * 0; H_f_update = H_f_update * 0; X_g_update = X_g_update * 0; H_g_update = H_g_update * 0; bi_update = 0; bf_update = 0; bo_update = 0; bg_update = 0; out_para_update = out_para_update * 0; % if(mod(j,1000) == 0) % if 1%overallError > 1 % err = sprintf('Error:%s\n', num2str(overallError)); fprintf(err); % end allErr = [allErr overallError]; % % try % d = bin2dec(num2str(d)); % % catch % % disp(d); % % end % if 1 % overallError>1 % pred = sprintf('Pred:%s\n',dec2bin(d,8)); fprintf(pred); % Tru = sprintf('True:%s\n', num2str(c)); fprintf(Tru); % end % out = 0; % tmp = dec2bin(d,8); % for i = 1:8 % out = out + str2double(tmp(8-i+1)) * power(2,i-1); % end % if 1 % overallError > 1 % fprintf('%d + %d = %d\n',a_int,b_int,out); % sep = sprintf('-------%d------\n', j); fprintf(sep); % end % end end figure;plot(allErr); function output = sigmoid(x) output = 1./(1+exp(-x)); end function y = sigmoid_output_to_derivative(output) y = output.*(1-output); end function y = tan_h_output_to_derivative(x) y = (1-x.^2); end function y=tan_h(x) y=(exp(x)-exp(-x))./(exp(x)+exp(-x)); end ``` 不知道哪里出了问题,运行误差都是相当大的,看起来不是预测而像是随机输出,同时,通过观测每次输出与实际是之间的误差,发现误差的改变量微乎其微,好像梯度下降并没有起作用。

LSTM模型如何进行新数据的预测?

训练好LSTM模型(单变量)后,现在需要进行数据预测。请教下该怎么做? 早期的LSTM模型训练时,数据是每隔4小时为一个数据,time-step设置为7. 现在要预测未来7天的数据。有点不清楚具体该如何处理了。。求指点。。 个人想法:按照理论做法,需要事先反向提取最后7个数据,以预测第一个新值。然后利用第一个新值,并结合前面6个的数据,预测第二个新值,依次循环下去,直到第7天。。 但是LSTM模型训练时,对数据的处理很麻烦,要归一化处理,还要切分X和Y(原来是单变量,需要按照time_step切分出新的X和Y,且是一一对应的)。问题在于: 1. 我如果要进行预测的话,不需要再去切分X和Y吧,直接视为X就是了吧? 2. 如何利用预测出来的第1个数值,结合之前的6个值,来预测第2个数值呢?

想请问各位老师,应该用什么函数来构造LSTM与SVR的全连接层呢,顶层用SVR做预测的,麻烦啦,我比较着急呢!

直接高速我就行啦,我想画一个LSTM-SVR的模型结构图但是

为什么LSTM用于分类任务效果很差?

新人一枚,之前见过有教程使用LSTM对MNIST手写数字进行分类识别,取的是LSTM最后一步的输出进行分类,准确率能达到95左右。后来我按照这个思想使用LSTM进行文本分类,为什么效果很差,loss降低的很慢,train与test的准确率始终维持在0.5左右?

新手用2层LSTM做NLP时遇到一个问题

本来是想把文章输入后,第一层lstm取每个句子的最后作为输出,输入到第二层的LSTM,但是这样一想,每篇文章句子数不一样,是不是要按句子padding,然后每个句子字数也不一样,还要按单词做padding,一下子感觉好蠢。请问有没有简单明了点的方法? 如果用句向量的话,是不是也要按句子padding?目前了解的句向量是相当于这句话的词向量的平均值,这样padding的句向量是一个[embedding size,1]的0矩阵吗?

请大佬告知keras lstm输出问题

``` ip = Input(shape=(1,10)) op = BatchNormalization()(ip) print(ip.shape) op = LSTM(10, return_sequences=True, dropout=0.1, #input_shape=(1, 193), recurrent_dropout=0.2)(op) print(op.shape) op = Flatten()(op) out = Dense(5,activation='softmax')(op) model = Model(ip,out) model.summary() model.compile(loss='mse', optimizer='adam', metrics=['accuracy']) x = train_x1 kfold = StratifiedKFold(n_splits=10, shuffle=True) x = x.reshape(-1,1,10) cvscores = [] for train, test in kfold.split(x, y): print(x[train].shape,x[test].shape) model.compile(loss='mse', optimizer='adam', metrics=['accuracy']) history = model.fit(x[train], y[train], epochs=300, batch_size=128) scores = model.evaluate(x[test], y[test], verbose=0) print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100)) cvscores.append(scores[1] * 100) ``` Layer (type) Output Shape Param # ================================================================= input_22 (InputLayer) (None, 1, 10) 0 _________________________________________________________________ batch_normalization_9 (Batch (None, 1, 10) 40 _________________________________________________________________ lstm_16 (LSTM) (None, 1, 10) 840 _________________________________________________________________ flatten_5 (Flatten) (None, 10) 0 _________________________________________________________________ dense_23 (Dense) (None, 5) 55 ================================================================= Total params: 935 Trainable params: 915 Non-trainable params: 20 我这是个语音模型,输入数据是几百条语音,每条语音有10个压缩特征。我reshape成(-1,1,10)输入到lstm里面,但是最后想做一个5分类。但是总报错 ValueError: Error when checking target: expected dense_23 to have shape (5,) but got array with shape (1,) 求问大佬这个lstm层输出后应该怎么做?还是我之前的步骤有问题?

LSTM模型可以训练怎样的数据集?

现有数据集Y={X1,X2,X3.....Xn},其中,X5与X4没有关系,但是X5与X2有关系,具有这种特点的数据集可以用LSTM模型进行训练吗?

lstm做时序预测一直过拟合该怎么解决

做的8推1的时序预测,但是不管怎么修改模型,一直都是过拟合的状态,loss下降 val loss上升,val loss一点下降趋势也没有,直接往上走, 已经用了dropout(0.5)也试过用BatchNormalization(),但都没办法完全改善 想知道到底问题出在哪里 训练集和测试集(x,y)大小是(80000, 10, 8) (25000, 10, 8) (80000,) (25000,) ``` #数据整理 train = values[0:timestep*num] valid =values[timestep*num:] time_stamp = 10 scaled_data = scaler.fit_transform(train) x_train, y_train = [], [] for i in range(time_stamp, len(train)): x_train.append(scaled_data[i - time_stamp:i,0:8]) y_train.append(scaled_data[i, 8]) # y_train.append(scaled_data[i - time_stamp, 8]) # y_train.append(scaled_data[i - time_stamp:i, 8]) x_train, y_train = np.array(x_train), np.array(y_train) scaled_data = scaler.fit_transform(valid) x_valid, y_valid = [], [] for i in range(time_stamp, len(valid)): x_valid.append(scaled_data[i - time_stamp:i,0:8]) y_valid.append(scaled_data[i, 8]) # y_valid.append(scaled_data[i - time_stamp, 8]) # y_valid.append(scaled_data[i - time_stamp:i, 8]) x_valid, y_valid = np.array(x_valid), np.array(y_valid) print(x_train.shape,x_valid.shape, y_train.shape, y_valid.shape) #lstm模型 epochs = 60 batch_size = 256 model = Sequential() model.add(LSTM(units=128, return_sequences=True, input_dim=x_train.shape[-1], input_length=x_train.shape[1])) model.add(Dropout(0.5)) model.add(LSTM(units=64)) model.add(Dropout(0.5)) model.add(Dense(1)) model.compile(loss='mean_squared_error', optimizer='rmsprop') history =model.fit(x_train, y_train, epochs=epochs, batch_size=batch_size,validation_data=(x_valid,y_valid), verbose=2) ``` ![图片说明](https://img-ask.csdn.net/upload/202004/21/1587482938_348380.png) 上图中蓝色为loss曲线,黄色为val loss

tensorflow RNN LSTM代码运行不正确?

报错显示是ValueError: None values not supported. 在cross_entropy处有问题。谢谢大家 ``` #7.2 RNN import tensorflow as tf #tf.reset_default_graph() from tensorflow.examples.tutorials.mnist import input_data #载入数据集 mnist = input_data.read_data_sets("MNIST_data/", one_hot = True) #输入图片是28*28 n_inputs = 28 #输入一行,一行有28个数据 max_time = 28 #一共28行 lstm_size = 100 #隐层单元 n_classes = 10 #10个分量 batch_size = 50 #每批次50个样本 n_batch = mnist.train.num_examples//batch_size #计算共由多少个批次 #这里的none表示第一个维度可以是任意长度 x = tf.placeholder(tf.float32, [batch_size, 784]) #正确的标签 y = tf.placeholder(tf.float32, [batch_size, 10]) #初始化权值 weights = tf.Variable(tf.truncated_normal([lstm_size, n_classes], stddev = 0.1)) #初始化偏置 biases = tf.Variable(tf.constant(0.1, shape = [n_classes])) #定义RNN网络 def RNN(X, weights, biases): #input = [batch_size, max_size, n_inputs] inputs = tf.reshape(X, [-1, max_time, n_inputs]) #定义LSTM基本CELL lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(lstm_size) #final_state[0]是cell_state #final_state[1]是hidden_state outputs, final_state = tf.nn.dynamic_rnn(lstm_cell, inputs, dtype = tf.float32) results = tf.nn.softmax(tf.matmul(final_state[1], weights) + biases) #计算RNN的返回结果 prediction = RNN(x, weights, biases) #损失函数 cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels = y,logits = prediction)) #使用AdamOptimizer进行优化 train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) #结果存放在一个布尔型列表中 correct_prediction = tf.equal(tf.argmax(y, 1),tf.argmax(prediction, 1)) #求准确率 accuracy = tf.reduce_mean(tf.cast(correct_precdition,tf.float32)) #初始化 init = tf.global_variable_initializer() with tf.Session() as sess: sess.run(init) for epoch in range(6): for batch in range(n_batch): batch_xs,batch_ys=mnist.train.next_batch(batch_size) sess.run(train_step,feed_dict={x:batch_xs,y:batch_ys}) acc = sess.run(accuracy, feed_dict={x:mnist.test.images,y:mnist.test.labels}) print('Iter' + str(epoch) + ',Testing Accuracy = ' + str(acc)) ```

LSTM模型预测股票,为什么预测结果为水平直线?

``` import numpy as np import tensorflow as tf import matplotlib as mpl import pandas as pd from matplotlib import pyplot as plt HIDDEN_SIZE =128 NUM_LAYERS=2 TIMESTEPS=10 TRAINING_STEPS=10000 BATCH_SIZE=60 def generate_data(seq): x=[] y=[] for i in range(len(seq)-TIMESTEPS): x.append([seq[i:i+TIMESTEPS]]) y.append([seq[i+TIMESTEPS]]) return np.array(x,dtype=np.float32),np.array(y,dtype=np.float32) def lstm_model(x,y,is_training): lstm_cell=tf.nn.rnn_cell.BasicLSTMCell cell=tf.nn.rnn_cell.MultiRNNCell([lstm_cell(HIDDEN_SIZE) for _ in range(NUM_LAYERS)]) ''' cell=tf.nn.rnn_cell.MultiRNNCell( [tf.nn.rnn_cell.DropoutWrapper(lstm_cell(HIDDEN_SIZE)) for _ in range(NUM_LAYERS)]) ''' outputs,_=tf.nn.dynamic_rnn(cell,x,dtype=tf.float32) output=outputs[:,-1,:] predictions=tf.contrib.layers.fully_connected(output,1,activation_fn=tf.nn.relu) if not is_training: return predictions,None,None loss=tf.losses.mean_squared_error(labels=y,predictions=predictions) train_op=tf.contrib.layers.optimize_loss(loss,tf.train.get_global_step(),optimizer="Adam",learning_rate=0.01) return predictions,loss,train_op def train(sess,train_x,train_y): ds=tf.data.Dataset.from_tensor_slices((train_x,train_y)) ds=ds.repeat().shuffle(1000).batch(BATCH_SIZE) x,y=ds.make_one_shot_iterator().get_next() with tf.variable_scope("model"): predictions,loss,train_op=lstm_model(x,y,True) sess.run(tf.global_variables_initializer()) for i in range(TRAINING_STEPS): _,l=sess.run([train_op,loss]) if i%100==0: print("train step:"+str(i)+", loss:"+str(l)) def run_eval(sess,test_X,test_y): ds=tf.data.Dataset.from_tensor_slices((test_X,test_y)) ds=ds.batch(1) x,y=ds.make_one_shot_iterator().get_next() with tf.variable_scope("model",reuse=True): prediction,_,_=lstm_model(x,[0.0],False) predictions=[] labels=[] for i in range(200): p,l=sess.run([prediction,y]) predictions.append(p) labels.append(l) predictions=np.array(predictions).squeeze() labels=np.array(labels).squeeze() rmse=np.sqrt(((predictions-labels)**2).mean(axis=0)) print("Mean Square Error is %f" % rmse) plt.figure() plt.plot(predictions,label='predictions') plt.plot(labels,label='real') plt.legend() plt.show() f=open('IBM.csv') df=pd.read_csv(f) seq=df.iloc[:,1].values train_data=seq[2:504] test_data=seq[505:750] train_x,train_y=generate_data(train_data) test_x,test_y=generate_data(test_data) with tf.Session() as sess: train(sess,train_x,train_y) run_eval(sess,test_x,test_y) ``` ![图片说明](https://img-ask.csdn.net/upload/201905/13/1557747213_945902.png)

关于LSTM输入的具体过程?

比如我有5句话: 我爱学习 我不爱睡觉 我觉得学习很快乐 楼上其实并不爱学习 楼上凭什么说我不爱学习 要投入训练的话,每次训练是一句一句还是,几句一起,如果是几句一起,长度不一样又要怎么处理呢? 有没有大佬能生动地说一下输入过程......

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

我以为我学懂了数据结构,直到看了这个导图才发现,我错了

数据结构与算法思维导图

String s = new String(" a ") 到底产生几个对象?

老生常谈的一个梗,到2020了还在争论,你们一天天的,哎哎哎,我不是针对你一个,我是说在座的各位都是人才! 上图红色的这3个箭头,对于通过new产生一个字符串(”宜春”)时,会先去常量池中查找是否已经有了”宜春”对象,如果没有则在常量池中创建一个此字符串对象,然后堆中再创建一个常量池中此”宜春”对象的拷贝对象。 也就是说准确答案是产生了一个或两个对象,如果常量池中原来没有 ”宜春” ,就是两个。...

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

Linux面试题(2020最新版)

文章目录Linux 概述什么是LinuxUnix和Linux有什么区别?什么是 Linux 内核?Linux的基本组件是什么?Linux 的体系结构BASH和DOS之间的基本区别是什么?Linux 开机启动过程?Linux系统缺省的运行级别?Linux 使用的进程间通信方式?Linux 有哪些系统日志文件?Linux系统安装多个桌面环境有帮助吗?什么是交换空间?什么是root帐户什么是LILO?什...

将一个接口响应时间从2s优化到 200ms以内的一个案例

一、背景 在开发联调阶段发现一个接口的响应时间特别长,经常超时,囧… 本文讲讲是如何定位到性能瓶颈以及修改的思路,将该接口从 2 s 左右优化到 200ms 以内 。 二、步骤 2.1 定位 定位性能瓶颈有两个思路,一个是通过工具去监控,一个是通过经验去猜想。 2.1.1 工具监控 就工具而言,推荐使用 arthas ,用到的是 trace 命令 具体安装步骤很简单,大家自行研究。 我的使用步骤是...

学历低,无法胜任工作,大佬告诉你应该怎么做

微信上收到一位读者小涛的留言,大致的意思是自己只有高中学历,经过培训后找到了一份工作,但很难胜任,考虑要不要辞职找一份他能力可以胜任的实习工作。下面是他留言的一部分内容: 二哥,我是 2016 年高中毕业的,考上了大学但没去成,主要是因为当时家里经济条件不太允许。 打工了三年后想学一门技术,就去培训了。培训的学校比较垃圾,现在非常后悔没去正规一点的机构培训。 去年 11 月份来北京找到了一份工...

JVM内存结构和Java内存模型别再傻傻分不清了

讲一讲什么是Java内存模型 Java内存模型虽说是一个老生常谈的问题 ,也是大厂面试中绕不过的,甚至初级面试也会问到。但是真正要理解起来,还是相当困难,主要这个东西看不见,摸不着。 这是一个比较开放的题目,面试官主要想考察的是对Java内存模型的了解到了什么程度了,然后根据回答进行进一步的提问 下面,我们就这个问题的回答列一下我们的思路 具体的思路如下: 说一说Java内存模型的缘由 简略辨析...

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

Google 与微软的浏览器之争

浏览器再现“神仙打架”。整理 | 屠敏头图 | CSDN 下载自东方 IC出品 | CSDN(ID:CSDNnews)从 IE 到 Chrome,再从 Chrome 到 Edge,微软与...

讲一个程序员如何副业月赚三万的真实故事

loonggg读完需要3分钟速读仅需 1 分钟大家好,我是你们的校长。我之前讲过,这年头,只要肯动脑,肯行动,程序员凭借自己的技术,赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时...

上班一个月,后悔当初着急入职的选择了

最近有个老铁,告诉我说,上班一个月,后悔当初着急入职现在公司了。他之前在美图做手机研发,今年美图那边今年也有一波组织优化调整,他是其中一个,在协商离职后,当时捉急找工作上班,因为有房贷供着,不能没有收入来源。所以匆忙选了一家公司,实际上是一个大型外包公司,主要派遣给其他手机厂商做外包项目。**当时承诺待遇还不错,所以就立马入职去上班了。但是后面入职后,发现薪酬待遇这块并不是HR所说那样,那个HR自...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

搜狗输入法也在挑战国人的智商!

故事总是一个接着一个到来...上周写完《鲁大师已经彻底沦为一款垃圾流氓软件!》这篇文章之后,鲁大师的市场工作人员就找到了我,希望把这篇文章删除掉。经过一番沟通我先把这篇文章从公号中删除了...

85后蒋凡:28岁实现财务自由、34岁成为阿里万亿电商帝国双掌门,他的人生底层逻辑是什么?...

蒋凡是何许人也? 2017年12月27日,在入职4年时间里,蒋凡开挂般坐上了淘宝总裁位置。 为此,时任阿里CEO张勇在任命书中力赞: 蒋凡加入阿里,始终保持创业者的冲劲,有敏锐的...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

什么时候跳槽,为什么离职,你想好了么?

都是出来打工的,多为自己着想

程序员为什么千万不要瞎努力?

本文作者用对比非常鲜明的两个开发团队的故事,讲解了敏捷开发之道 —— 如果你的团队缺乏统一标准的环境,那么即使勤劳努力,不仅会极其耗时而且成果甚微,使用...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

终于懂了TCP和UDP协议区别

终于懂了TCP和UDP协议区别

立即提问
相关内容推荐