BaiLongma Blog

把 Agent 从“超长上下文”转向“按需记忆注入”：一种更省 Token、更接近长期成长的设计思路。

当上下文越来越长，模型不一定更聪明，反而可能更混乱。
我开始怀疑，下一代 Agent 的关键，不是继续堆上下文窗口，而是重新设计“记忆”。

引子

今天的大模型越来越强，但它们也越来越贵。

在很多真实使用场景里，我们会很快遇到两个问题：

对话越长，Token 消耗越大，成本持续上升
上下文越长，模型越容易迟钝、跑偏，甚至陷入混乱

Anthropic 曾提到过一个很形象的概念：上下文焦虑（context anxiety）。

这个词很准确。因为当一个模型被塞进过多上下文时，它并不一定因此获得更好的理解，反而可能失去重点。

如果换一个角度想象：

假如你自己就是一个 LLM，当你面前摊开几十页甚至上百页杂乱的信息时，你也很难稳定地抓住重点。你会犹豫、混乱、分散注意力，最后处理能力下降。

所以问题也许不是：

如何让模型一次读得更多？

而是：

如何让模型在需要的时候，只想起真正相关的内容？

这就是我最近在尝试的一种 Agent 设计思路：

一切皆记忆

上下文窗口，不等于真正的智能

我们常常用“上下文窗口”来衡量一个模型的强弱。

128K、200K、甚至百万级上下文，听起来都很震撼。
如果换算成文本量，128K token 已经接近一本长篇小说。

这当然很厉害。人类几乎不可能在极短时间内完整处理这么多信息，而模型可以“读进去”。
但“能读进去”，不代表“能组织好”。

这正是我越来越在意的一点：

大上下文窗口，本质上解决的是装载能力，不是认知组织能力。

人类其实就是一个很好的对照样本。

当我们阅读一本长篇小说时，真实发生的事情往往是：

看到后面，会忘掉前面的一些细节
遇到关键情节，会回头翻看
不会逐字保留全文，而是记住印象、关系、重点和线索

换句话说，人类并不是靠“把一切都放进当前工作区”来思考的。
人类依赖的是：

一个很小的即时工作窗口
一个更大的长期记忆系统
一套按需提取、按需回忆的机制

忽略细节，不是缺陷，而是一种必要能力。

因为只有忽略不重要的信息，我们才能把有限的注意力留给真正重要的内容。

人类的“上下文窗口”其实很小

如果我们把 LLM 的上下文窗口类比成“当前正在脑中处理的信息量”，那人类的这个窗口其实小得惊人。

常见的心理学结论是，人类短时工作记忆通常只能稳定处理有限数量的信息单元。
很多时候，甚至连一个 6 位验证码，我们都可能看一眼就输错。

这件事很值得深思。

因为它说明：

智能未必来自超大的当前窗口，反而可能来自小窗口 + 好记忆 + 好机制。

于是我开始越来越确信：

也许实现更强 Agent 的关键，不是无限扩张上下文，也不是无止境堆参数，
而是给它建立一种更接近“记忆系统”的结构。

一切皆记忆：一种新的 Agent 组织方式

“一切皆记忆”，不是一句口号，而是我想提出的一种 Agent 设计原则：

Agent 不应把能力建立在持续膨胀的上下文上，
而应把自身组织为一个可积累、可检索、可注入、可演化的记忆系统。

在这个思路里，Agent 不再只是“一个 prompt + 一个模型 + 一堆工具”。

它更像一个由不同类型记忆构成的系统。

这些记忆可以包括：

经验是记忆
能力是记忆
工具是记忆
知识是记忆
用户画像是记忆
人格是记忆
系统提示词也是记忆

也就是说，Agent 的“形状”不再只由模型参数决定，
而是由它长期积累、组织和调用记忆的方式决定。

记忆是什么样，Agent 就是什么样。

这也是我说“这一次，AI 有了形状”的原因。

白龙马实验：我对这个理念的一次实现

基于这个想法，我做了一个实验项目：BaiLongma（白龙马）。

它现在还不算强，甚至可以说能力很基础。
联网、操作、执行复杂任务，这些方面它都还远谈不上成熟。

但它已经具备了一个我认为非常关键的特征：

它可以围绕记忆持续扩展自身。

例如：

它可以通过 skills 扩展能力
它可以积累与用户相关的长期记忆
它可以根据场景按需注入相关记忆
它的行为方式，可以随着记忆系统而演化

对我来说，这比单纯让它“多会几个工具”更重要。
因为工具只是表层能力，记忆组织方式才决定 Agent 能不能真正长期成长。

项目已经开源：

https://github.com/xiaoyuanda666-ship-it/BaiLongma

目前安装和使用还比较偏实验性，但这套理念本身，我认为已经得到了初步验证。

不是先做“工作搭子”，而是先做“机制”

今天很多 Agent 项目都在强调“帮我做事”。

这当然没错，但我越来越觉得，如果底层机制不对，能力堆得越多，系统只会越重、越贵、越不稳定。

所以白龙马现阶段的目标，并不是立刻变成一个万能工作搭子。
我更关心的是另一件事：

先把 Agent 的长期运行机制整理出来。

也就是回答这些问题：

它如何形成记忆？
它如何筛选记忆？
它如何在合适的时候想起合适的内容？
它如何根据任务节奏调整自己的运行状态？
它如何在长期使用中变得越来越像“同一个体”？

如果这些机制成立，那么“工作搭子”只是自然结果，而不是一开始就要硬做出来的外壳。

AI 给自己定闹钟：让 Agent 进入时间维度

围绕这套机制，我还做了一个很有意思的小能力：

让 AI 自己给自己定闹钟。

这件事看起来很简单，但我认为它很重要。

因为一旦 Agent 能够调度自己的时间，它就不再只是“被动响应输入”，
而是开始具备了一种最初级的持续性。

例如，我让 BaiLongma 每天早上跟踪 AI 行业动态，它已经可以稳定完成这类定时任务。
背后依托的是系统级的 TICK 心跳机制。

在我看来，这是一种很优雅的方式，因为它没有强行制造复杂调度系统，而是让 Agent 通过“心跳”维持存在感和行动节奏。

更进一步，我们还设计了一套动态心跳机制：

夜间降低心跳频率，例如 30 分钟一次
有任务时提高频率，甚至缩短到几秒钟一次

这意味着 Agent 不只是“有记忆”，还开始拥有自己的节奏感。

为什么这套方式更省 Token

从工程角度看，“一切皆记忆”还有一个直接收益：

省 Token。

因为它试图解决的，正是当前 Agent 系统里最昂贵的两个问题：

无限制堆叠上下文带来的成本问题
过长上下文导致的理解退化问题

白龙马目前主要依赖两类机制：

记忆识别器
记忆注入器

前者负责判断：当前任务需要哪些记忆。
后者负责执行：把真正相关的记忆注入当前上下文。

这样做的核心不是“让模型记得更多”，
而是“让模型在当前时刻，只看到它应该看到的那部分”。

按需注入相关记忆，排除无关干扰，
理论上这会让 Agent 更快，也更稳定。

这套机制还在持续优化中，但从实际测试来看，它已经表现出明确的方向价值。

最后，再回到“一切皆记忆”

如果要用一句话概括我的想法，那就是：

下一代 Agent 的核心，不是拥有一个无限膨胀的上下文窗口，
而是拥有一套成熟的记忆机制。

在这套机制里：

记忆不是附属模块，而是 Agent 的主体结构
记忆不是静态存档，而是会参与决策、行动和成长
Agent 的能力边界，也不再由一次对话决定，而由长期记忆系统决定

所以，“一切皆记忆”既是一种设计理念，也是一种实践方向。

把真正需要的记忆，在真正需要的时候，注入到 Agent 的“脑子”里；
把不相关的干扰排除在外。

如果这件事成立，Agent 才可能真正变成一个长期存在、持续成长、具备个体形状的系统。

而我相信，这会是下一代 Agent 的重要方向。

项目地址

GitHub: BaiLongma

作者

肖远大

一切皆记忆，一种新的 Agent 设计思路

引子