当上下文越来越长,模型不一定更聪明,反而可能更混乱。
我开始怀疑,下一代 Agent 的关键,不是继续堆上下文窗口,而是重新设计“记忆”。
引子
今天的大模型越来越强,但它们也越来越贵。
在很多真实使用场景里,我们会很快遇到两个问题:
- 对话越长,Token 消耗越大,成本持续上升
- 上下文越长,模型越容易迟钝、跑偏,甚至陷入混乱
Anthropic 曾提到过一个很形象的概念:上下文焦虑(context anxiety)。
这个词很准确。因为当一个模型被塞进过多上下文时,它并不一定因此获得更好的理解,反而可能失去重点。
如果换一个角度想象:
假如你自己就是一个 LLM,当你面前摊开几十页甚至上百页杂乱的信息时,你也很难稳定地抓住重点。你会犹豫、混乱、分散注意力,最后处理能力下降。
所以问题也许不是:
如何让模型一次读得更多?
而是:
如何让模型在需要的时候,只想起真正相关的内容?
这就是我最近在尝试的一种 Agent 设计思路:
一切皆记忆
上下文窗口,不等于真正的智能
我们常常用“上下文窗口”来衡量一个模型的强弱。
128K、200K、甚至百万级上下文,听起来都很震撼。
如果换算成文本量,128K token 已经接近一本长篇小说。
这当然很厉害。人类几乎不可能在极短时间内完整处理这么多信息,而模型可以“读进去”。
但“能读进去”,不代表“能组织好”。
这正是我越来越在意的一点:
大上下文窗口,本质上解决的是装载能力,不是认知组织能力。
人类其实就是一个很好的对照样本。
当我们阅读一本长篇小说时,真实发生的事情往往是:
- 看到后面,会忘掉前面的一些细节
- 遇到关键情节,会回头翻看
- 不会逐字保留全文,而是记住印象、关系、重点和线索
换句话说,人类并不是靠“把一切都放进当前工作区”来思考的。
人类依赖的是:
- 一个很小的即时工作窗口
- 一个更大的长期记忆系统
- 一套按需提取、按需回忆的机制
忽略细节,不是缺陷,而是一种必要能力。
因为只有忽略不重要的信息,我们才能把有限的注意力留给真正重要的内容。
人类的“上下文窗口”其实很小
如果我们把 LLM 的上下文窗口类比成“当前正在脑中处理的信息量”,那人类的这个窗口其实小得惊人。
常见的心理学结论是,人类短时工作记忆通常只能稳定处理有限数量的信息单元。
很多时候,甚至连一个 6 位验证码,我们都可能看一眼就输错。
这件事很值得深思。
因为它说明:
智能未必来自超大的当前窗口,反而可能来自小窗口 + 好记忆 + 好机制。
于是我开始越来越确信:
也许实现更强 Agent 的关键,不是无限扩张上下文,也不是无止境堆参数,
而是给它建立一种更接近“记忆系统”的结构。
一切皆记忆:一种新的 Agent 组织方式
“一切皆记忆”,不是一句口号,而是我想提出的一种 Agent 设计原则:
Agent 不应把能力建立在持续膨胀的上下文上,
而应把自身组织为一个可积累、可检索、可注入、可演化的记忆系统。
在这个思路里,Agent 不再只是“一个 prompt + 一个模型 + 一堆工具”。
它更像一个由不同类型记忆构成的系统。
这些记忆可以包括:
- 经验是记忆
- 能力是记忆
- 工具是记忆
- 知识是记忆
- 用户画像是记忆
- 人格是记忆
- 系统提示词也是记忆
也就是说,Agent 的“形状”不再只由模型参数决定,
而是由它长期积累、组织和调用记忆的方式决定。
记忆是什么样,Agent 就是什么样。
这也是我说“这一次,AI 有了形状”的原因。
白龙马实验:我对这个理念的一次实现
基于这个想法,我做了一个实验项目:BaiLongma(白龙马)。
它现在还不算强,甚至可以说能力很基础。
联网、操作、执行复杂任务,这些方面它都还远谈不上成熟。
但它已经具备了一个我认为非常关键的特征:
它可以围绕记忆持续扩展自身。
例如:
- 它可以通过
skills扩展能力 - 它可以积累与用户相关的长期记忆
- 它可以根据场景按需注入相关记忆
- 它的行为方式,可以随着记忆系统而演化
对我来说,这比单纯让它“多会几个工具”更重要。
因为工具只是表层能力,记忆组织方式才决定 Agent 能不能真正长期成长。
项目已经开源:
https://github.com/xiaoyuanda666-ship-it/BaiLongma
目前安装和使用还比较偏实验性,但这套理念本身,我认为已经得到了初步验证。
不是先做“工作搭子”,而是先做“机制”
今天很多 Agent 项目都在强调“帮我做事”。
这当然没错,但我越来越觉得,如果底层机制不对,能力堆得越多,系统只会越重、越贵、越不稳定。
所以白龙马现阶段的目标,并不是立刻变成一个万能工作搭子。
我更关心的是另一件事:
先把 Agent 的长期运行机制整理出来。
也就是回答这些问题:
- 它如何形成记忆?
- 它如何筛选记忆?
- 它如何在合适的时候想起合适的内容?
- 它如何根据任务节奏调整自己的运行状态?
- 它如何在长期使用中变得越来越像“同一个体”?
如果这些机制成立,那么“工作搭子”只是自然结果,而不是一开始就要硬做出来的外壳。
AI 给自己定闹钟:让 Agent 进入时间维度
围绕这套机制,我还做了一个很有意思的小能力:
让 AI 自己给自己定闹钟。
这件事看起来很简单,但我认为它很重要。
因为一旦 Agent 能够调度自己的时间,它就不再只是“被动响应输入”,
而是开始具备了一种最初级的持续性。
例如,我让 BaiLongma 每天早上跟踪 AI 行业动态,它已经可以稳定完成这类定时任务。
背后依托的是系统级的 TICK 心跳机制。
在我看来,这是一种很优雅的方式,因为它没有强行制造复杂调度系统,而是让 Agent 通过“心跳”维持存在感和行动节奏。
更进一步,我们还设计了一套动态心跳机制:
- 夜间降低心跳频率,例如 30 分钟一次
- 有任务时提高频率,甚至缩短到几秒钟一次
这意味着 Agent 不只是“有记忆”,还开始拥有自己的节奏感。
为什么这套方式更省 Token
从工程角度看,“一切皆记忆”还有一个直接收益:
省 Token。
因为它试图解决的,正是当前 Agent 系统里最昂贵的两个问题:
- 无限制堆叠上下文带来的成本问题
- 过长上下文导致的理解退化问题
白龙马目前主要依赖两类机制:
记忆识别器记忆注入器
前者负责判断:当前任务需要哪些记忆。
后者负责执行:把真正相关的记忆注入当前上下文。
这样做的核心不是“让模型记得更多”,
而是“让模型在当前时刻,只看到它应该看到的那部分”。
按需注入相关记忆,排除无关干扰,
理论上这会让 Agent 更快,也更稳定。
这套机制还在持续优化中,但从实际测试来看,它已经表现出明确的方向价值。
最后,再回到“一切皆记忆”
如果要用一句话概括我的想法,那就是:
下一代 Agent 的核心,不是拥有一个无限膨胀的上下文窗口,
而是拥有一套成熟的记忆机制。
在这套机制里:
- 记忆不是附属模块,而是 Agent 的主体结构
- 记忆不是静态存档,而是会参与决策、行动和成长
- Agent 的能力边界,也不再由一次对话决定,而由长期记忆系统决定
所以,“一切皆记忆”既是一种设计理念,也是一种实践方向。
把真正需要的记忆,在真正需要的时候,注入到 Agent 的“脑子”里;
把不相关的干扰排除在外。
如果这件事成立,Agent 才可能真正变成一个长期存在、持续成长、具备个体形状的系统。
而我相信,这会是下一代 Agent 的重要方向。
项目地址
- GitHub: BaiLongma
作者
肖远大

