XSCT Bench
排行榜第一的模型,不一定切合你的业务场景。
模型跑分无法完全映射业务场景。我们构建了覆盖文本、图像、网页生成的真实测试用例,引入视觉双轨评分与三级难度分层,还原模型在工程化场景下的实际表现。
让每一次模型选型,都基于真实效果与成本。
真实效果可查
多模型同台对比
场景定位最优解
成本一键估算
最新模型动态
Claude Sonnet 4.6 发布
最强Sonnet模型 4.6 发布:编程、电脑操作、长文本推理等全面提升,百万token上下文,性能逼近Opus,价格不变更安全。
Qwen 3.5 Plus 发布
Qwen3.5:原生多模态智能体模型,3970亿参数稀疏MoE仅激活170亿,支持201语言,推理编程视觉Agent全面提升,开放权重。
豆包 2.0 系列模型发布
豆包 Seed2.0:Pro/Lite/Mini三规格,多模态理解与Agent能力全面升级,视觉推理MathVision、动态理解MotionBench领先,擅长复杂长链推理与实时交互应用。
GLM - 5 发布
GLM-5:744B参数(40B激活)MoE,28.5T预训练+异步RL基础设施slime,推理编码Agent开源最强,支持Claude Code/OpenClaw,MIT协议。
模型榜单
排序:
综合能力评估(基础×30% + 进阶×40% + 困难×30%)
| 排名 | 模型 | 提供商 |
成本
|
综合
|
基础
|
进阶
|
困难
|
维度
|
更新时间 |
|---|---|---|---|---|---|---|---|---|---|
| 1 |
Anthropic: Claude Sonnet 4.6
|
|
$3.00 / $15.00 | 95.3 | 95.8 | 95.3 | 94.8 | 22 | 2026-02-21 |
| 2 |
qwen3.5-plus-2026-02-15
|
|
$0.12 / $0.69 | 95.2 | 96.0 | 95.1 | 94.5 | 23 | 2026-02-21 |
| 3 |
kimi-k2.5
|
|
$0.58 / $3.03 | 95.0 | 95.6 | 94.9 | 94.4 | 22 | 2026-02-21 |
| 4 |
qwen3-max
|
|
$0.36 / $1.45 | 94.8 | 96.0 | 94.5 | 93.9 | 22 | 2026-02-21 |
| 5 |
mimo-v2-flash
|
|
$0.10 / $0.29 | 94.4 | 95.7 | 94.1 | 93.4 | 21 | 2026-02-21 |
| 6 |
kimi-k2-thinking
|
|
$0.58 / $2.31 | 94.2 | 95.1 | 93.8 | 93.8 | 10 | 2026-02-19 |
| 7 |
kimi-k2-thinking-turbo
|
|
$1.16 / $8.38 | 93.5 | 95.2 | 93.4 | 91.8 | 21 | 2026-02-21 |
| 8 |
glm-4.7
|
|
$0.41 / $1.93 | 93.4 | 94.4 | 93.2 | 92.7 | 11 | 2026-02-21 |
| 9 |
Anthropic: Claude Haiku 4.5
|
|
$1.00 / $5.00 | 93.3 | 94.3 | 93.2 | 92.5 | 22 | 2026-02-21 |
| 10 |
Meituan: LongCat Flash Chat
|
|
$0.20 / $0.80 | 93.1 | 94.9 | 92.8 | 91.9 | 23 | 2026-02-21 |
| 11 |
doubao-seed-2-0-mini
|
|
$0.03 / $0.29 | 92.8 | 95.2 | 92.5 | 91.0 | 21 | 2026-02-21 |
| 12 |
glm-5
|
|
$0.55 / $2.48 | 92.4 | 95.3 | 92.4 | 89.4 | 23 | 2026-02-21 |
| 13 |
OpenAI: GPT-5 Mini
|
|
$0.25 / $2.00 | 92.1 | 93.3 | 91.8 | 91.4 | 21 | 2026-02-21 |
| 14 |
xAI: Grok 4.1 Fast
|
|
$0.20 / $0.50 | 92.1 | 93.6 | 91.7 | 91.0 | 21 | 2026-02-21 |
| 15 |
MiniMax-M2.1
|
|
$0.30 / $1.21 | 91.7 | 92.7 | 91.4 | 91.1 | 20 | 2026-02-21 |
| 16 |
MiniMax-M2.5
|
|
$0.30 / $1.21 | 91.5 | 92.5 | 91.3 | 90.7 | 20 | 2026-02-21 |
| 17 |
glm-4.5-air
|
|
$0.11 / $0.83 | 91.5 | 93.4 | 91.0 | 90.1 | 21 | 2026-02-21 |
| 18 |
deepseek-v3.2
|
|
$0.29 / $0.43 | 90.7 | 93.2 | 90.6 | 88.5 | 22 | 2026-02-21 |
| 19 |
OpenAI: gpt-oss-120b
|
|
$0.04 / $0.19 | 89.9 | 91.5 | 89.6 | 88.7 | 21 | 2026-02-21 |
| 20 |
doubao-seed-2-0-lite
|
|
$0.09 / $0.52 | 89.6 | 90.9 | 89.6 | 88.2 | 20 | 2026-02-20 |
| 21 |
doubao-seed-2-0-pro
|
|
$0.46 / $2.32 | 89.5 | 91.4 | 89.5 | 87.5 | 21 | 2026-02-21 |
| 22 |
MiniMax-M2
|
|
$0.30 / $1.21 | 89.0 | 91.5 | 88.6 | 87.1 | 1 | 2026-02-20 |
| 23 |
Google: Gemini 3 Flash Preview
|
|
$0.50 / $3.00 | 88.1 | 89.6 | 87.9 | 86.9 | 22 | 2026-02-21 |
| 24 |
OpenAI: GPT-5 Nano
|
|
$0.05 / $0.40 | 87.8 | 89.6 | 87.5 | 86.4 | 22 | 2026-02-21 |
| 25 |
MiniMax: MiniMax M2.5
|
|
$0.30 / $1.10 | 86.8 | 88.5 | 86.8 | 85.2 | 11 | 2026-02-21 |
| 26 |
OpenAI: gpt-oss-20b
|
|
$0.03 / $0.14 | 85.5 | 88.3 | 84.9 | 83.6 | 21 | 2026-02-21 |
| 27 |
hunyuan-large
|
|
$0.33 / $1.32 | 83.2 | 86.3 | 82.7 | 80.7 | 20 | 2026-02-21 |
| 28 |
hunyuan-turbo
|
|
$0.11 / $0.28 | 82.2 | 87.9 | 81.7 | 77.4 | 21 | 2026-02-21 |
| 29 |
hunyuan-pro
|
|
$0.33 / $1.32 | 79.2 | 84.1 | 78.7 | 75.2 | 19 | 2026-02-21 |
| 30 |
OpenAI: GPT-4o-mini
|
|
$0.15 / $0.60 | 79.1 | 84.4 | 78.2 | 74.9 | 21 | 2026-02-21 |
| 31 |
glm-4.5
|
|
$0.69 / $0.34 | 78.9 | 80.7 | 76.2 | 80.5 | 2 | 2026-02-19 |
| 32 |
Meta: Llama 3.3 70B Instruct
|
|
$0.10 / $0.32 | 74.5 | 80.8 | 73.7 | 69.2 | 22 | 2026-02-21 |
| 33 |
Google: Gemini 2.5 Flash Lite
|
|
$0.10 / $0.40 | 70.5 | 75.9 | 69.6 | 66.4 | 22 | 2026-02-21 |
| 34 |
Mistral: Mistral Nemo
|
|
$0.02 / $0.04 | 68.3 | 72.2 | 67.7 | 65.1 | 21 | 2026-02-21 |
| 35 |
Google: Nano Banana Pro (Gemini 3 Pro Image Preview)
|
|
$2.00 / $12.00 | — | — | — | — | — | 2026-02-21 |
| 35 |
glm-4.6
|
|
$0.41 / $1.93 | — | — | — | — | — | 2026-02-19 |
| 35 |
deepseek-v3.1
|
|
$0.58 / $1.73 | — | — | — | — | — | 2026-02-20 |
| 35 |
deepseek-v3
|
|
$0.29 / $1.16 | — | — | — | — | — | 2026-02-20 |
评分说明
基础、进阶、困难 分别代表三个难度层级任务的加权得分。 综合 = 基础×30% + 进阶×40% + 困难×30%,满分 100 分,60 分为及格线。
我们采用 LLM-as-a-Judge 方法进行评分,每个测试用例按多个独立维度分别评分后加权汇总。 通过证据锚定、难度分层、双轨评审等策略消除常见偏见,确保评分可解释、可追溯。
查看完整方法论评测声明
本榜单所有评测结果均由自动化测试流程生成,采用 LLM-as-a-Judge 方法进行评分。评测结果仅供参考,不代表对任何模型的官方评价或商业背书。
评测数据基于特定用例和评分策略,可能无法全面反映模型在所有场景下的表现;模型能力会随版本更新而变化,历史评测结果不代表当前版本水平。
本平台与各模型提供商无任何商业关系,评测过程独立进行。
如对评测结果有异议,欢迎通过官方渠道反馈。