当上下文越来越长,模型不一定更聪明,反而可能更混乱。
我开始怀疑,下一代 Agent 的关键,不是继续堆上下文窗口,而是重新设计“记忆”。

引子

今天的大模型越来越强,但它们也越来越贵。

在很多真实使用场景里,我们会很快遇到两个问题:

  1. 对话越长,Token 消耗越大,成本持续上升
  2. 上下文越长,模型越容易迟钝、跑偏,甚至陷入混乱

Anthropic 曾提到过一个很形象的概念:上下文焦虑(context anxiety)

这个词很准确。因为当一个模型被塞进过多上下文时,它并不一定因此获得更好的理解,反而可能失去重点。

如果换一个角度想象:

假如你自己就是一个 LLM,当你面前摊开几十页甚至上百页杂乱的信息时,你也很难稳定地抓住重点。你会犹豫、混乱、分散注意力,最后处理能力下降。

所以问题也许不是:

如何让模型一次读得更多?

而是:

如何让模型在需要的时候,只想起真正相关的内容?

这就是我最近在尝试的一种 Agent 设计思路:

一切皆记忆


上下文窗口,不等于真正的智能

我们常常用“上下文窗口”来衡量一个模型的强弱。

128K200K、甚至百万级上下文,听起来都很震撼。
如果换算成文本量,128K token 已经接近一本长篇小说。

这当然很厉害。人类几乎不可能在极短时间内完整处理这么多信息,而模型可以“读进去”。
但“能读进去”,不代表“能组织好”。

这正是我越来越在意的一点:

大上下文窗口,本质上解决的是装载能力,不是认知组织能力。

人类其实就是一个很好的对照样本。

当我们阅读一本长篇小说时,真实发生的事情往往是:

  • 看到后面,会忘掉前面的一些细节
  • 遇到关键情节,会回头翻看
  • 不会逐字保留全文,而是记住印象、关系、重点和线索

换句话说,人类并不是靠“把一切都放进当前工作区”来思考的。
人类依赖的是:

  • 一个很小的即时工作窗口
  • 一个更大的长期记忆系统
  • 一套按需提取、按需回忆的机制

忽略细节,不是缺陷,而是一种必要能力。

因为只有忽略不重要的信息,我们才能把有限的注意力留给真正重要的内容。


人类的“上下文窗口”其实很小

如果我们把 LLM 的上下文窗口类比成“当前正在脑中处理的信息量”,那人类的这个窗口其实小得惊人。

常见的心理学结论是,人类短时工作记忆通常只能稳定处理有限数量的信息单元。
很多时候,甚至连一个 6 位验证码,我们都可能看一眼就输错。

这件事很值得深思。

因为它说明:

智能未必来自超大的当前窗口,反而可能来自小窗口 + 好记忆 + 好机制。

于是我开始越来越确信:

也许实现更强 Agent 的关键,不是无限扩张上下文,也不是无止境堆参数,
而是给它建立一种更接近“记忆系统”的结构。


一切皆记忆:一种新的 Agent 组织方式

“一切皆记忆”,不是一句口号,而是我想提出的一种 Agent 设计原则:

Agent 不应把能力建立在持续膨胀的上下文上,
而应把自身组织为一个可积累、可检索、可注入、可演化的记忆系统。

在这个思路里,Agent 不再只是“一个 prompt + 一个模型 + 一堆工具”。

它更像一个由不同类型记忆构成的系统。

这些记忆可以包括:

  • 经验是记忆
  • 能力是记忆
  • 工具是记忆
  • 知识是记忆
  • 用户画像是记忆
  • 人格是记忆
  • 系统提示词也是记忆

也就是说,Agent 的“形状”不再只由模型参数决定,
而是由它长期积累、组织和调用记忆的方式决定。

记忆是什么样,Agent 就是什么样。

这也是我说“这一次,AI 有了形状”的原因。


白龙马实验:我对这个理念的一次实现

基于这个想法,我做了一个实验项目:BaiLongma(白龙马)

它现在还不算强,甚至可以说能力很基础。
联网、操作、执行复杂任务,这些方面它都还远谈不上成熟。

但它已经具备了一个我认为非常关键的特征:

它可以围绕记忆持续扩展自身。

例如:

  • 它可以通过 skills 扩展能力
  • 它可以积累与用户相关的长期记忆
  • 它可以根据场景按需注入相关记忆
  • 它的行为方式,可以随着记忆系统而演化

对我来说,这比单纯让它“多会几个工具”更重要。
因为工具只是表层能力,记忆组织方式才决定 Agent 能不能真正长期成长。

项目已经开源:

https://github.com/xiaoyuanda666-ship-it/BaiLongma

目前安装和使用还比较偏实验性,但这套理念本身,我认为已经得到了初步验证。


不是先做“工作搭子”,而是先做“机制”

今天很多 Agent 项目都在强调“帮我做事”。

这当然没错,但我越来越觉得,如果底层机制不对,能力堆得越多,系统只会越重、越贵、越不稳定。

所以白龙马现阶段的目标,并不是立刻变成一个万能工作搭子。
我更关心的是另一件事:

先把 Agent 的长期运行机制整理出来。

也就是回答这些问题:

  • 它如何形成记忆?
  • 它如何筛选记忆?
  • 它如何在合适的时候想起合适的内容?
  • 它如何根据任务节奏调整自己的运行状态?
  • 它如何在长期使用中变得越来越像“同一个体”?

如果这些机制成立,那么“工作搭子”只是自然结果,而不是一开始就要硬做出来的外壳。


AI 给自己定闹钟:让 Agent 进入时间维度

围绕这套机制,我还做了一个很有意思的小能力:

让 AI 自己给自己定闹钟。

这件事看起来很简单,但我认为它很重要。

因为一旦 Agent 能够调度自己的时间,它就不再只是“被动响应输入”,
而是开始具备了一种最初级的持续性。

例如,我让 BaiLongma 每天早上跟踪 AI 行业动态,它已经可以稳定完成这类定时任务。
背后依托的是系统级的 TICK 心跳机制。

在我看来,这是一种很优雅的方式,因为它没有强行制造复杂调度系统,而是让 Agent 通过“心跳”维持存在感和行动节奏。

更进一步,我们还设计了一套动态心跳机制:

  • 夜间降低心跳频率,例如 30 分钟一次
  • 有任务时提高频率,甚至缩短到几秒钟一次

这意味着 Agent 不只是“有记忆”,还开始拥有自己的节奏感。


为什么这套方式更省 Token

从工程角度看,“一切皆记忆”还有一个直接收益:

省 Token。

因为它试图解决的,正是当前 Agent 系统里最昂贵的两个问题:

  1. 无限制堆叠上下文带来的成本问题
  2. 过长上下文导致的理解退化问题

白龙马目前主要依赖两类机制:

  • 记忆识别器
  • 记忆注入器

前者负责判断:当前任务需要哪些记忆。
后者负责执行:把真正相关的记忆注入当前上下文。

这样做的核心不是“让模型记得更多”,
而是“让模型在当前时刻,只看到它应该看到的那部分”。

按需注入相关记忆,排除无关干扰,
理论上这会让 Agent 更快,也更稳定。

这套机制还在持续优化中,但从实际测试来看,它已经表现出明确的方向价值。


最后,再回到“一切皆记忆”

如果要用一句话概括我的想法,那就是:

下一代 Agent 的核心,不是拥有一个无限膨胀的上下文窗口,
而是拥有一套成熟的记忆机制。

在这套机制里:

  • 记忆不是附属模块,而是 Agent 的主体结构
  • 记忆不是静态存档,而是会参与决策、行动和成长
  • Agent 的能力边界,也不再由一次对话决定,而由长期记忆系统决定

所以,“一切皆记忆”既是一种设计理念,也是一种实践方向。

把真正需要的记忆,在真正需要的时候,注入到 Agent 的“脑子”里;
把不相关的干扰排除在外。

如果这件事成立,Agent 才可能真正变成一个长期存在、持续成长、具备个体形状的系统。

而我相信,这会是下一代 Agent 的重要方向。


项目地址

作者

肖远大