没有记忆的LLM

对话窗口是离散的、上下文是短暂的、用户又不愿意写长 prompt,于是模型面对的就是高熵输入——一句话脱离语境,等价于在巨大解释空间里做反演(inverse problem)。约束太少导致“有效解释空间”巨大。

人类交流其实一直靠一堆隐形约束在降熵:

  • 共同背景(我们在同一个项目里/同一个公司/同一个关系里)
  • 共同目标(这句话是要做决定、要安慰人、要写文案还是要算账)
  • 共同语境(刚刚聊过什么、你现在处在什么场景、你更偏好哪种输出)

LLM的现状:每次打开新窗口,模型的先验几乎被重置,用户的“长期状态”没有可用载体,于是模型只能胡猜(问题1:用户得不到最想要的答案),或者不断追问(问题2:追问的问题可能就是上一个对话的某个内容,导致沟通效率低下)。所以提升用户体验的关键不是“让模型更聪明”,而是:把约束以低摩擦的方式带回对话

为什么记忆突然被重视

记忆这个问题,在具身领域被重视的时代变得更加严峻。

LLM领域,由于人类也会在交流的过程中忘记之前说过的特定的话,只会记忆自己所坚信的“事实”。而LLM的输出就是大量事实。这两点加起来导致人类对LLM的记忆缺失感知并不明显。你不会因为一个人健忘而觉得他是智力障碍,如果他说地球是方的,那你一定要骂他一句了。

而来到具身领域,缺失记忆的表现变为:找不到操作的物品…这些行为放在人类身上,你也一定要骂他一句智力障碍了。这些反映的问题更多在于模型缺少记忆,而非VLA操作成功率的高低。

一个GPT设计的记忆系统

用户有一个隐含目标 GG,他说的话 XX 是目标在某个语境下的投影。模型要做的是估计 P(GX,C)P(G \mid X, C)

关键在 CC:上下文(长期偏好、项目状态、资料库、最近活动)。所以算法需要“分层记忆”:

  • 短期:窗口内上下文(token)
  • 中期:会话摘要(可编辑、可校验)
  • 长期:用户画像/项目画像(结构化 + 可控)
  • 外部:检索到的资料证据(RAG)

并且要有“门控”(gating):只把相关的记忆拿进来,否则噪声反而增熵。

AI变得比人更像人

AI在科幻小说中的定位是全知全能,也理应会是AGI的最终目标。但是一个全知全能的AI,会反驳人类错误观点的AI,一定会是一个具有自我意识的AI了吧。

我理想中的记忆应当不是一个单独的模块,也不应该叫记忆这个名字,记忆带有天生的缺陷——会被遗忘。更应该是世界的历史,每一秒都事无巨细的历史,全知全能永不遗忘的记忆。

我理想中的记忆是基于认知学习思考能力这些抽象能力的基座模型之外的一组参数,这组参数包含了世界的事实(规律和历史)。为什么是参数呢?只有参数会在流过的那一刻就运算得到结果。如果是人类可以理解的介质,一来会产生浩瀚的数据量,二来浩瀚的数据量带来检索的延迟。

总归是畅想,现如今对于“类人记忆”的探索总归是技术发展不足下的平替。但总归不应该是正解。