模型榜单
排序:
综合能力评估(基础×30% + 进阶×40% + 困难×30%)
排名 模型 提供商
成本 i
综合 i
基础 i
进阶 i
困难 i
维度 i
更新时间
1
A
Anthropic: Claude Sonnet 4.6
openrouter
$3.00 / $15.00 95.3 95.8 95.3 94.8 22 2026-02-21
2
Q
qwen3.5-plus-2026-02-15
dashscope
$0.12 / $0.69 95.2 96.0 95.1 94.5 23 2026-02-21
3
K
kimi-k2.5
moonshot
$0.58 / $3.03 95.0 95.6 94.9 94.4 22 2026-02-21
4
Q
qwen3-max
dashscope
$0.36 / $1.45 94.8 96.0 94.5 93.9 22 2026-02-21
5
M
mimo-v2-flash
xiaomi
$0.10 / $0.29 94.4 95.7 94.1 93.4 21 2026-02-21
6
K
kimi-k2-thinking
moonshot
$0.58 / $2.31 94.2 95.1 93.8 93.8 10 2026-02-19
7
K
kimi-k2-thinking-turbo
moonshot
$1.16 / $8.38 93.5 95.2 93.4 91.8 21 2026-02-21
8
G
glm-4.7
zhipu
$0.41 / $1.93 93.4 94.4 93.2 92.7 11 2026-02-21
9
A
Anthropic: Claude Haiku 4.5
openrouter
$1.00 / $5.00 93.3 94.3 93.2 92.5 22 2026-02-21
10
M
Meituan: LongCat Flash Chat
openrouter
$0.20 / $0.80 93.1 94.9 92.8 91.9 23 2026-02-21
11
D
doubao-seed-2-0-mini
volcengine
$0.03 / $0.29 92.8 95.2 92.5 91.0 21 2026-02-21
12
G
glm-5
zhipu
$0.55 / $2.48 92.4 95.3 92.4 89.4 23 2026-02-21
13
O
OpenAI: GPT-5 Mini
openrouter
$0.25 / $2.00 92.1 93.3 91.8 91.4 21 2026-02-21
14
X
xAI: Grok 4.1 Fast
openrouter
$0.20 / $0.50 92.1 93.6 91.7 91.0 21 2026-02-21
15
M
MiniMax-M2.1
minimax
$0.30 / $1.21 91.7 92.7 91.4 91.1 20 2026-02-21
16
M
MiniMax-M2.5
minimax
$0.30 / $1.21 91.5 92.5 91.3 90.7 20 2026-02-21
17
G
glm-4.5-air
zhipu
$0.11 / $0.83 91.5 93.4 91.0 90.1 21 2026-02-21
18
D
deepseek-v3.2
dashscope
$0.29 / $0.43 90.7 93.2 90.6 88.5 22 2026-02-21
19
O
OpenAI: gpt-oss-120b
openrouter
$0.04 / $0.19 89.9 91.5 89.6 88.7 21 2026-02-21
20
D
doubao-seed-2-0-lite
volcengine
$0.09 / $0.52 89.6 90.9 89.6 88.2 20 2026-02-20
21
D
doubao-seed-2-0-pro
volcengine
$0.46 / $2.32 89.5 91.4 89.5 87.5 21 2026-02-21
22
M
MiniMax-M2
minimax
$0.30 / $1.21 89.0 91.5 88.6 87.1 1 2026-02-20
23
G
Google: Gemini 3 Flash Preview
openrouter
$0.50 / $3.00 88.1 89.6 87.9 86.9 22 2026-02-21
24
O
OpenAI: GPT-5 Nano
openrouter
$0.05 / $0.40 87.8 89.6 87.5 86.4 22 2026-02-21
25
M
MiniMax: MiniMax M2.5
openrouter
$0.30 / $1.10 86.8 88.5 86.8 85.2 11 2026-02-21
26
O
OpenAI: gpt-oss-20b
openrouter
$0.03 / $0.14 85.5 88.3 84.9 83.6 21 2026-02-21
27
H
hunyuan-large
tencent
$0.33 / $1.32 83.2 86.3 82.7 80.7 20 2026-02-21
28
H
hunyuan-turbo
tencent
$0.11 / $0.28 82.2 87.9 81.7 77.4 21 2026-02-21
29
H
hunyuan-pro
tencent
$0.33 / $1.32 79.2 84.1 78.7 75.2 19 2026-02-21
30
O
OpenAI: GPT-4o-mini
openrouter
$0.15 / $0.60 79.1 84.4 78.2 74.9 21 2026-02-21
31
G
glm-4.5
zhipu
$0.69 / $0.34 78.9 80.7 76.2 80.5 2 2026-02-19
32
M
Meta: Llama 3.3 70B Instruct
openrouter
$0.10 / $0.32 74.5 80.8 73.7 69.2 22 2026-02-21
33
G
Google: Gemini 2.5 Flash Lite
openrouter
$0.10 / $0.40 70.5 75.9 69.6 66.4 22 2026-02-21
34
M
Mistral: Mistral Nemo
openrouter
$0.02 / $0.04 68.3 72.2 67.7 65.1 21 2026-02-21
35
G
Google: Nano Banana Pro (Gemini 3 Pro Image Preview)
openrouter
$2.00 / $12.00 2026-02-21
35
G
glm-4.6
zhipu
$0.41 / $1.93 2026-02-19
35
D
deepseek-v3.1
dashscope
$0.58 / $1.73 2026-02-20
35
D
deepseek-v3
dashscope
$0.29 / $1.16 2026-02-20

评分说明

基础进阶困难 分别代表三个难度层级任务的加权得分。 综合 = 基础×30% + 进阶×40% + 困难×30%,满分 100 分,60 分为及格线。

我们采用 LLM-as-a-Judge 方法进行评分,每个测试用例按多个独立维度分别评分后加权汇总。 通过证据锚定、难度分层、双轨评审等策略消除常见偏见,确保评分可解释、可追溯。

查看完整方法论

评测声明

本榜单所有评测结果均由自动化测试流程生成,采用 LLM-as-a-Judge 方法进行评分。评测结果仅供参考,不代表对任何模型的官方评价或商业背书。

评测数据基于特定用例和评分策略,可能无法全面反映模型在所有场景下的表现;模型能力会随版本更新而变化,历史评测结果不代表当前版本水平。

本平台与各模型提供商无任何商业关系,评测过程独立进行。

如对评测结果有异议,欢迎通过官方渠道反馈。

XSCT 开源数据集