我有一批数据,是深度学习提取的图像特征到高维空间的映射,具体表现为一个高斯分布,高斯的存储形式是只记录他的均值A和方差B
现在我设置一个在0-1之间的常数μ。
我的数据是分批记录的,比如第一批数据得到a1(均值)和b1(方差)之后
令A1 = a1 , B1 = b1
此时学习第二批数据,得到这批数据的a2和b2,我需要对A、B进行更新
令A2 = (1-μ)× A1 + μ × a2
令B2 = (1-μ)× B1 + μ × b2
以此类推,通过上述式子的形式来不断更新A和B,即
学习第n批数据,得到这批数据的an和bn
令An = (1-μ)× An-1 + μ × an
令Bn = (1-μ)× Bn-1 + μ × bn
最后,当数据都学习并更新完,我希望获得一个将每批数据的均值方法所代表的分布融合得比较全面的A和B。
问题:
但是我现在的更新公式是一个比较粗暴线性公式,且受μ影响很大,比如μ为0.9的话,其实最后A几乎被最后的数据特征“占据”了,四舍五入前面白练。
这只是一个极端的例子,我的意思是这个公式会导致学习的数据“遗忘”,更新到第5代时,A1在A5在中的占比仅为原来的(1-μ)^4,几乎可以约等于0了,即将第一代数据“遗忘”了。
因此,请问可不可以推荐一个高级一点的更新公式,有效克服“遗忘”现象,非线性啊什么的都行,我感觉这种在数据处理领域会有可借鉴的公式。