我过去一年一直在构建AI代理系统。以下是九点观察。

用最佳模型构建原型

当输入不可预测时,如邮件解析、语音转录、杂乱数据提取,应采用最先进的技术。找出哪些最佳模型适用,然后随时间逐步优化。

打磨小亮点

我使用rLLM微调了Qwen 3以进行任务分类rLLMB模型在零样本提示任务中表现优于GPT 5.2,并且能在我的笔记本电脑上本地运行。当任务定义明确且输入分布稳定时,微调效果显著。使用内置拼写检查

静态类型迫使AI面对拼写检查/编译器。Ruby允许智能体生成看似合理但运行时失败的代码。Rust则检查代码的“语法”(正确性)。对于中等复杂度任务,单次提示的成功率大幅提升。

诱导你的智能体“对手”团队

组建你的智能体智囊团。让Claude制定计划,然后催促Gemini和Codex对其进行批评;Claude回应这些批评并实现代码。实现后,再让Gemini和Codex根据计划批评实现结果,由Claude进行修改。智能体是出色的微观管理者。

把所有“黏土”倒入一个容器

构建智能体就像玩橡皮泥:有些黄色,有些红色,有些绿色,每一种都来自不同的“罐子”。我希望所有工具都集中在一个地方:管理我的记忆、管理我的提示词、捕获我的日志,因为这是一个与模型共同改进的单一闭环:提示词→输出→评估→优化→提示词。

认识AI的iPhone 15时代

Qwen 3、GLM、DeepSeek V3和Kimi K2.5在成本的一小部分下实现强劲性能

一小部分成本这些模型现在已经足够强大,可以进行工作流工具调用,此时更强的智能可能不会带来更具体的优势。Tau2表明许多模型已经达到了这一门槛,现在我们比较的是它们的成本而非准确性。文档至上正如Harrison Chase

所说

:“在软件中,代码记录应用;在AI中,轨迹记录一切。”我们的系统运行着一个每晚进行的提示词优化系统。它收集最近100次智能体对话,提取失败案例(任务超时、输出错误、用户修正),并以大语言模型作为评判者生成改进后的提示词。 : “in software, the code documents the app; in AI, the traces do.” Our system runs a nightly prompt optimization system. It collects the last 100 agent conversations, extracts failures (task timeouts, incorrect outputs, user corrections), & generates improved prompts using an LLM-as-judge3这种闭环改进每周逐步提高任务成功率,无需人工干预。

提示抢椅子

我们不能因新提示导致系统崩溃。代理会监控提示文件,文件变更时自动重新加载。这将部署与实验分离,并实现DSPy-风格优化自动运行。结合版本化提示文件,即可获得完整回滚能力。你为谁工作?

技能用于交互式对话,代码用于代理。技能更易调试:技能失败时,你能准确定位问题;而代理链式调用十个函数后输出错误时,你得在日志中排查。

你学到了什么?

RLLM是Hugging Face推出的库,用于基于人类反馈对语言模型进行强化学习。