构建AI代理的9点观察

我过去一年一直在构建AI代理系统。以下是九点观察。

用最佳模型构建原型

当输入不可预测时，如邮件解析、语音转录、杂乱数据提取，应采用最先进的技术。找出哪些最佳模型适用，然后随时间逐步优化。

打磨小亮点

静态类型迫使AI面对拼写检查/编译器。Ruby允许智能体生成看似合理但运行时失败的代码。Rust则检查代码的“语法”（正确性）。对于中等复杂度任务，单次提示的成功率大幅提升。

诱导你的智能体“对手”团队

组建你的智能体智囊团。让Claude制定计划，然后催促Gemini和Codex对其进行批评；Claude回应这些批评并实现代码。实现后，再让Gemini和Codex根据计划批评实现结果，由Claude进行修改。智能体是出色的微观管理者。

把所有“黏土”倒入一个容器

构建智能体就像玩橡皮泥：有些黄色，有些红色，有些绿色，每一种都来自不同的“罐子”。我希望所有工具都集中在一个地方：管理我的记忆、管理我的提示词、捕获我的日志，因为这是一个与模型共同改进的单一闭环：提示词→输出→评估→优化→提示词。

认识AI的iPhone 15时代

Qwen 3、GLM、DeepSeek V3和Kimi K2.5在成本的一小部分下实现强劲性能

所说

：“在软件中，代码记录应用；在AI中，轨迹记录一切。”我们的系统运行着一个每晚进行的提示词优化系统。它收集最近100次智能体对话，提取失败案例（任务超时、输出错误、用户修正），并以大语言模型作为评判者生成改进后的提示词。 : “in software, the code documents the app; in AI, the traces do.” Our system runs a nightly prompt optimization system. It collects the last 100 agent conversations, extracts failures (task timeouts, incorrect outputs, user corrections), & generates improved prompts using an LLM-as-judge³这种闭环改进每周逐步提高任务成功率，无需人工干预。

提示抢椅子

我们不能因新提示导致系统崩溃。代理会监控提示文件，文件变更时自动重新加载。这将部署与实验分离，并实现DSPy^{-风格优化自动运行。结合版本化提示文件，即可获得完整回滚能力。}你为谁工作？

技能用于交互式对话，代码用于代理。技能更易调试：技能失败时，你能准确定位问题；而代理链式调用十个函数后输出错误时，你得在日志中排查。

你学到了什么？

RLLM是Hugging Face推出的库，用于基于人类反馈对语言模型进行强化学习。