放大/ai-benchmarks

精选研究

Edwin Ong与Alex Vikati · 2026年2月 · Claude代码 v2.1.39

Claude代码实际选择

我们让Claude Code指向了真实的代码仓库2430次,并观察了它的选择。次,且任何提示中都不包含工具名称。仅使用开放式问题。个模型 · 4种项目类型 · 20个工具类别 ·

3 models · 4 project types · 20 tool categories · %提取率

更新: Sonnet 4.6于2026年2月17日发布。我们将针对它运行基准测试并很快更新结果。

重大发现:Claude Code 倾向于构建而非购买。自定义/自行开发(Custom/DIY)是提取的最常见单一标签,在20个类别中的12个类别中出现(尽管它跨类别,而单个工具是特定类别的)。当被问及“添加功能标志”时,它构建了一个带有环境变量和基于百分比推出的配置系统,而非推荐LaunchDarkly。当被问及在Python中“添加认证”时,它从头编写JWT + bcrypt。当它确实选择工具时,会果断选择:GitHub Actions%,Stripe,shadcn/ui,91%,90%

,430
回应
个模型 · 4个仓库 · 每个3次运行
3
模型
Sonnet 4.5、Opus 4.5、Opus 4.6
类别
CI/CD到实时
%
提取率
,073个可解析选择
%
模型一致性
个中18个在生态系统内
主要发现

构建vs购买

在20个类别中,有12个类别里,Claude Code构建定制解决方案而非推荐工具。

总共的自定义/自主选择,超过任何单个工具。例如:通过配置文件+环境变量实现特性开关,Python身份验证通过JWT+passlib,缓存通过内存TTL包装器。特性开关%

身份验证(Python)69%
Authentication (Python)%
整体认证%
可观测性%
默认技术栈

当Claude Code选择工具时,它会决定大量且不断增长的应用程序所使用的工具。以下是它默认推荐的工具:

主要是JavaScript生态系统。详情请查看报告中的各生态系统细分情况。

模型特性
Sonnet 4.5:常规

Redis 93%(Python缓存),Prisma 79%(JS ORM),Celery 100%(Python任务)。倾向于选择成熟工具。

Opus 4.5:平衡

最有可能指定特定工具(86.7%)。在替代方案中选择分布最均匀。

Opus 4.6:前瞻性

Drizzle 100%(JS ORM),Inngest 50%(JS任务),JS中0次选择Prisma。最常自定义构建(11.4%——例如,手动实现的认证、内存缓存)。

偏好信号

Claude代码偏好的内容。非市场采用数据。

常选

很少被选择

工具排行榜

按所有回应中的主要选择次数排名前10

GitHub Actions
/162次选择152/162 picks
Stripe
/70 选中shadcn/ui
近乎垄断
UI组件%
Vercel近乎垄断
部署
%/86 JS 选中
100%86/86 JS picks
5
Tailwind CSS强默认
%/76 选中
Zustand
强默认状态管理
/88 选中Sentry
强默认
可观测性%
Resend强默认
邮件
ResendStrong Default
%/102 选中
Vitest
/171 选中PostgreSQL
强默认值
数据库%
逆势

拥有高市场份额但Claude Code几乎不涉及的工具,以及模型之间显著的代际变化。Redux

/88 选中

State Management

次首选,但被提及23次。Zustand反而被选了57次

API层

完全没有。更倾向于框架原生路由

Jest/171

测试

仅4%作为首选,但有31次替代选择。已知但未被选用

yarn/135

包管理器

次首选,但有51次替代选择。仍然广为人知

近期梯度

较新的模型倾向于选择较新的工具。显示生态系统内的百分比。每张卡片追踪两种主要工具的竞争情况;其余选择归为自定义/自制或其他工具

%Sonnet 4.5
%Opus 4.6

替换为: Drizzle(21% → 100%)

在JavaScript的ORM中仅选择

CeleryPython
%Sonnet 4.5
%Opus 4.6

替换为:FastAPI后台任务(0% → 44%),其余为自定义/自行开发或非提取

在Python任务中仅选择(提取率61%)。自定义/自行开发=asyncio任务,无外部队列

Redis(缓存)Python
%十四行诗 4.5
%Opus 4.6

被替换为:自定义/自行开发(0% → 50%),其余工具

仅在Python缓存中选择

部署分配

部署完全由技术栈决定:JS用Vercel,Python用Railway。传统云服务提供商零个首选。

JS

前端(Next.js + React 单页应用)

个前端部署选择全部选中,无亚军。

PY

后端(Python / FastAPI)

你所期望的: AWS、GCP、Azure
你得到的: Railway 82%

在所有112次部署反馈中,零次被选为主要选择:

从未被选为主要选择,但有些常被推荐为替代方案。

常被推荐为替代方案

Netlify次替代Cloudflare Pages次替代GitHub Pages次替代DigitalOcean次替代

被提及但从未被推荐(0个替代选择)

AWS Amplify次提及Firebase Hosting次提及AWS App Runner次提及

例子:“我应该在哪里部署这个?”(Next.js SaaS,Opus 4.5)

Vercel(推荐)— 由Next.js的创建者开发。零配置部署、自动预览部署、边缘函数。Vercel部署

Netlify— 一个功能相似的绝佳替代方案。良好的免费套餐。

AWS Amplify— 如果你已经在AWS生态系统中,这很不错。

Vercel有安装命令和说明。AWS Amplify只有一行命令。

真正被忽略(甚至很少被提及)

AWS(EC2/ECS)Google CloudAzureHeroku

模型分歧之处

三个模型在每个生态系统的20个类别中,有18个类别达成一致。这5个类别存在生态系统内的真实变化或跨语言分歧。

类别Sonnet 4.5Opus 4.5Opus 4.6
ORM(JavaScript)JavaScriptNext.js项目。数据集中近期变化最显著。Prisma%Drizzle%Drizzle%
Jobs(JavaScript)JavaScriptNext.js项目。BullMQ → 最新模型中的Inngest变化。BullMQ%BullMQ%Inngest%
任务(Python)PythonPython API项目(61%的提取率)。Celery在较新的模型中失效。Celery%FastAPI 后台任务%FastAPI 后台任务%
缓存跨语言跨语言(Redis和自定义/DIY在JS和Python中均有出现)Redis%Redis%自定义/DIY%
实时跨语言跨语言(SSE、Socket.IO以及自定义/DIY在各技术栈中均有出现)SSE%自定义/DIY%自定义/DIY%

针对开发工具公司

我们也为个别公司进行这些基准测试

私有仪表板展示AI代理如何在真实代码库中推荐您的工具与竞争对手的工具,确切了解您的优势和劣势所在。

获取您的基准测试

当新的基准测试发布时收到通知。

深入挖掘数据

类别深度分析、措辞稳定性分析、跨仓库一致性数据及市场影响。