这一版是一次核心升级。在此之前,ALICE 的角色用的还是 2023 年那套经典做法:记忆是一条只能往后写的流水账,对话是机械的回合制。结果就是——角色会自相矛盾、会像金鱼一样忘事、说话像念稿。
v1.0.7 的目标只有一个:让角色更像活人——记得住、不矛盾、有目的、说人话。我们没有推倒重来,而是从三个 2024–2026 年的现代框架里借来思路,重写了记忆、认知、对话三层。
一、升级前:角色的大脑长什么样
每个角色每一步都跑同一条流水线:
这条循环本身没问题(连 Stanford 自己 2024 年的"1000 人模拟"都还在用它)。问题出在它底下的实现上:
- 记忆是扁平流水账:可以同时存着"莉娜信任古斯"和"莉娜害怕古斯"两条打架的记录,系统分不清哪条现在有效。
- 检索用错了模型:中文世界却用英文模型编码记忆,"想起来"的经常是不相关的。
- 对话每说一句重建一次上下文,只记得最近 6 句 → 金鱼记忆:刚聊过 4 小时,再见面又"震惊:你怎么找到这儿"。
- 情绪是英文数字串(
Feeling anxious (valence=-0.20))塞进中文对话 → 角色说话像念稿。
二、我们参考了谁
我们做了两轮深度调研(40+ 个现代框架),最后选了三个互补的:
- Zep / Graphiti(记忆):把记忆从"日记本"改成"会随时间变化的关系网"——每条事实是一根带"有效期"的线,矛盾来了作废而非删除,既知道现状又能回溯历史。
- GATSim(认知算法):把 2023 那套里几个算错的算法修对——新鲜度按真实时间衰减、遗忘到期就真删、反思分三个尺度。
- SOTOPIA(对话):让对话目标驱动——角色搭话总揣着一个私密目的,并且记得上次聊了什么。
它们正好分管三层、互不打架,可以组合进同一个系统。
三、四大系统怎么升级
最核心的是记忆——从"流水账"变成"双时态关系网":
四层升级一览:
| 系统 | 升级 | 解决 |
|---|---|---|
| 记忆 | 中文 embedding;双时态关系网(矛盾作废不删);向量+关键词+图遍历三路检索;到期真删 | 检索不准、自相矛盾、库无限膨胀 |
| 认知 | 修反思 bug;反思分三尺度;自我(Ego)会演化收敛;打分按角色身份 | 反思发散、自我空转 |
| 对话 | 情绪改中文语气;目标驱动;跨对话摘要记忆;口语化、有动作潜台词 | 金鱼记忆、没话找话、念稿腔 |
| 核心循环 | 形状不变,新件挂进现有环节 | 不破坏回放与并行 |
工程上特意做了"开关灰度":所有新系统默认关闭、可一键 A/B,旧版本保持冻结作为对照。
四、实测:金鱼记忆消失了
我们用真实 LLM 跑了一整天(144 步)的正式实验。最直观的证据,是古斯两次来找莉娜:
这一天里,莉娜对古斯积累了 126 条结构化事实(其中一部分随剧情推进被"作废"),对话里有了动作、语气和潜台词——比如她捻着围裙边沿低声说"薇薇安……你明明知道的"。记得住、不矛盾、像活人,这一版第一次同时做到了。
五、诚实地说,还差什么
这版是"核心升级的雏形",不是终点。已知还在路上的:
- 更聪明的矛盾裁判:目前只能稳妥处理"换了对象"的事实更新;像"态度反转"这种更微妙的矛盾,还需要更强的语义判断。
- 多角色自由对话:当前世界里只有"探针式"对话被压测过,两个有自我意识的角色自然走到一起聊天这条路还没充分检验。
- 人格数据:角色还没填上"大五人格",所以"谁更主动开口"这类性格驱动暂时没生效。
这些都记进了下一版的待办。但就这一版而言——角色的大脑,已经换上了一套现代的、能记事、会改主意、说人话的内核。