大模型的长期且动态的记忆能力出路在哪里?Google提出的Titans会是答案吗?
起因
年初,Google提出了新架构Titans,是一种神经长期记忆模块,可以在测试时也学习记忆,而且还可以实现选择性记忆、动态更新,在各个任务上超过了transformer等模型,听起来是十分的美好。
这个研究一下把题主的思路拉回好多年前第一次接触深度学习,很激动的认为会有一种神经网络结构,会像是海马体和大脑皮层一样,能在训练和推理过程中不断的形成新记忆,不过由于当时深度神经网络的发展还没到现在那么强,单单依靠lstm这些简单的网络,难以完成复杂任务,这个想法在后续的学习中也就不了了之。
回到现在,谷歌提出的这个titans,题主在网上搜了一圈后,发现并未开源,只有非官方的几个实现。同时题主也并未感受到有技术狂欢,不禁对这项研究产生了些许怀疑。
思考
但不论这个研究后续会进展到什么程度,它也还是激发了一点题主对大模型记忆能力的思考:
前两年向量知识库火爆,现在也已经是rag的通用技术之一,向量检索这件事本身就有极大的价值。如果说大模型的本质就是向量计算,那么是不是可以把大模型和向量知识库结合起来,以向量为隐式的记忆,为大模型提供长期且动态的记忆能力呢?
这里指的并不是大模型输出后的结果,转向量,利用向量知识库进行模糊搜索。而是通过设计大模型中的某一模块或隐藏层,使其输出的向量能被用于向量知识库的操作,实现对向量的存储和检索。通过检索得出来的向量,或者说记忆,可以作为后续模块的输入。
通过这种内嵌的“原生”的记忆,形成新的模型框架,大模型是否就能在训练以及推理的过程中,利用外置的记忆模块完成自己的隐式操作,实现记忆的长期存储与动态更新呢?
希望各位能多多指点,大家一起交流想法。