当前面临一个场景,每一个时间步内接受了若干个输入(数量不定),我想将这些输入的对应embedding值求和用作当前时刻的输入。
我做的是,将输入数据表示成为这样的格式:[batch_size, sequence_len, max_input_size]。其中第二维表示每个序列,第三维表示序列中的每个时间步的输入。由于每个序列的时间步数不同,且每一步的输入数量不同,以0值做padding。
之后,将输入进行tf.keras.layers.Embedding并对最后一维求和。
这样做我是很心虚的,因为我发现即使Embedding层的mask_zero设为True,0值做embedding后并不为0。
所以想求教,更好的对multihot进行embedding的方法。