读：EvoForge——用群体进化优化 AI Agent

手动调参的陷阱

手动优化单 agent 有两个很难绕开的坑。

局部最优。 改一个 prompt、调一个参数，效果好了就留下来，但你可能只是在附近的小坡上反复横跳。真正的更优解在别处，手动搜索效率太低，很难跳出去。

重复踩坑。 你修好了一个 bug，过几周又犯了同样的错。没有系统性的机制把"失败经验"沉淀下来，每一轮都在重复交学费。

这两个问题的根因是同一个：手动优化本质上是单点搜索，没有结构化的探索和记忆机制。

EvoForge 的策略很简单：一个人反复刷题不如一整个班同时刷题、互相抄作业、总结错题、再进化下一轮。

具体来说，每一代会做以下几件事：

这五步形成一个闭环，不断重复。

关键突破不在"进化"这个词本身，而在"知识在群体中传播"。每一代不是从零开始，而是带着前一代的经验继续前进。

很多人以为进化算法就是"强者留下，弱者淘汰"。但 EvoForge 做了一个相反的设计：没有 agent 被抛弃，整个群体一起变强。

这是怎么做到的？

每一轮结束后，系统不是只保留最优 agent，而是汇总所有 agent 的失败模式，统一归纳错误类型，给出修复方向，写入共享知识库。下一代所有 agent 继承这些经验。

结果就是：哪怕某个 agent 本身很弱，它也不会一直弱，因为它继承了集体智慧。

这和单点优化形成了鲜明对比。单 agent 的问题是：你犯过的错，下次还可能再犯。而 EvoForge 的逻辑是：一个人踩坑，全体绕坑。

EvoForge 还有一个设计：它把"代码逻辑"和"进化策略"彻底分开了。

系统核心由三个文件驱动：

人类不直接写 agent，而是写"如何进化 agent"。这个抽象层级比普通 prompt engineering 已经高了一层。

AI 优化中最难的地方是：你根本不知道 agent 为什么失败。

EvoForge 引入了 Semantic Observability（语义可观测性），强制做"失败解剖"：

这一步把"感觉不行"变成了"具体哪里不行"。没有这一步，进化就变成了盲目试错。

EvoForge 是一个具体的工具，但它的设计思路对所有 AI 开发者都有参考价值。

手动调 prompt 最大的问题是不可追溯、不可复现。如果你能把自己的优化过程拆成"生成变体→测试→分析→总结→迭代"的循环，哪怕不用 EvoForge，效率也会提升。

修好一个 bug 不叫优化，把 bug 的分析结果写进"共享知识库"才叫优化。对我来说，这意味着在 Claude Code 的使用中，每次失败的对话都应该被记录和分析，而不是用完就丢。

还有一点：GPT-5-nano + EvoForge 能跑赢 Codex CLI，说明流程的优化空间可能比模型升级更大。在追求更强模型之前，先问问自己：优化流程本身是不是已经最优了？

EvoForge 不是在优化 agent，而是在优化"如何产生 agent"。它用群体进化代替手动调参，用语义分析代替盲目试错，用知识共享代替重复踩坑。真正的突破不在模型，而在流程设计。