qq_40470180 2025-04-30 15:37 采纳率: 0%
浏览 18

大模型的长期且动态的记忆能力出路在哪里?Google提出的Titans会是答案吗?

大模型的长期且动态的记忆能力出路在哪里?Google提出的Titans会是答案吗?

起因

年初,Google提出了新架构Titans,是一种神经长期记忆模块,可以在测试时也学习记忆,而且还可以实现选择性记忆、动态更新,在各个任务上超过了transformer等模型,听起来是十分的美好。

这个研究一下把题主的思路拉回好多年前第一次接触深度学习,很激动的认为会有一种神经网络结构,会像是海马体和大脑皮层一样,能在训练和推理过程中不断的形成新记忆,不过由于当时深度神经网络的发展还没到现在那么强,单单依靠lstm这些简单的网络,难以完成复杂任务,这个想法在后续的学习中也就不了了之。

回到现在,谷歌提出的这个titans,题主在网上搜了一圈后,发现并未开源,只有非官方的几个实现。同时题主也并未感受到有技术狂欢,不禁对这项研究产生了些许怀疑。

思考

但不论这个研究后续会进展到什么程度,它也还是激发了一点题主对大模型记忆能力的思考:

前两年向量知识库火爆,现在也已经是rag的通用技术之一,向量检索这件事本身就有极大的价值。如果说大模型的本质就是向量计算,那么是不是可以把大模型和向量知识库结合起来,以向量为隐式的记忆,为大模型提供长期且动态的记忆能力呢?

这里指的并不是大模型输出后的结果,转向量,利用向量知识库进行模糊搜索。而是通过设计大模型中的某一模块或隐藏层,使其输出的向量能被用于向量知识库的操作,实现对向量的存储和检索。通过检索得出来的向量,或者说记忆,可以作为后续模块的输入。

通过这种内嵌的“原生”的记忆,形成新的模型框架,大模型是否就能在训练以及推理的过程中,利用外置的记忆模块完成自己的隐式操作,实现记忆的长期存储与动态更新呢?

希望各位能多多指点,大家一起交流想法。

  • 写回答

6条回答 默认 最新

  • 阿里嘎多学长 2025-04-30 15:38
    关注

    阿里嘎多学长整理AIGC生成,因移动端显示问题导致当前答案未能完全显示,请使用PC端查看更加详细的解答过程

    大模型的长期且动态的记忆能力出路在哪里?Google提出的Titans会是答案吗?

    Titans 是 Google 提出的一个神经长期记忆模块,旨在解决大模型的长期记忆问题。Titans 可以在测试时也学习记忆,并且可以实现选择性记忆。这个架构的主要特点是,它使用了一个专门的记忆模块来存储和更新记忆,而不是像传统的神经网络那样使用全连接层。

    Titans 的长期记忆能力来自于以下几个方面:

    1. Memory-augmented neural networks:Titans 使用了一个专门的记忆模块来存储和更新记忆,这个模块可以在训练和测试时都被访问和更新。
    2. Recurrent neural networks:Titans 使用了循环神经网络来实现记忆的更新和访问。
    3. Attention mechanism:Titans 使用了注意力机制来选择性地访问和更新记忆。

    Titans 的长期记忆能力可以解决一些常见的问题,例如:

    1. Long-term dependency:Titans 可以解决长期依赖的问题,例如在语言模型中解决长期依赖关系。
    2. Selective memory:Titans 可以实现选择性记忆,例如在图像识别中选择性地记忆某些特征。

    总的来说,Titans 是一个有前途的架构,可以解决大模型的长期记忆问题。但是,Titans 还需要进一步的研究和改进,以满足实际应用的需求。

    评论

报告相同问题?

问题事件

  • 创建了问题 4月30日