XSCT Bench

排行榜第一的模型，不一定切合你的业务场景。

模型跑分无法完全映射业务场景。我们构建了覆盖文本、图像、网页生成的真实测试用例，引入视觉双轨评分与三级难度分层，还原模型在工程化场景下的实际表现。

让每一次模型选型，都基于真实效果与成本。

真实效果可查多模型同台对比场景定位最优解成本一键估算

最新模型动态

Claude Sonnet 4.6 发布

最强Sonnet模型 4.6 发布：编程、电脑操作、长文本推理等全面提升，百万token上下文，性能逼近Opus，价格不变更安全。

Qwen 3.5 Plus 发布

Qwen3.5：原生多模态智能体模型，3970亿参数稀疏MoE仅激活170亿，支持201语言，推理编程视觉Agent全面提升，开放权重。

豆包 2.0 系列模型发布

豆包 Seed2.0：Pro/Lite/Mini三规格，多模态理解与Agent能力全面升级，视觉推理MathVision、动态理解MotionBench领先，擅长复杂长链推理与实时交互应用。

GLM - 5 发布

GLM-5：744B参数（40B激活）MoE，28.5T预训练+异步RL基础设施slime，推理编码Agent开源最强，支持Claude Code/OpenClaw，MIT协议。

模型榜单

排序：

综合能力评估（基础×30% + 进阶×40% + 困难×30%）

排名	模型	提供商	成本 i	综合 i	基础 i	进阶 i	困难 i	维度 i	更新时间
1	A Anthropic: Claude Sonnet 4.6	openrouter	$3.00 / $15.00	95.3	95.8	95.3	94.8	22	2026-02-21
2	Q qwen3.5-plus-2026-02-15	dashscope	$0.12 / $0.69	95.2	96.0	95.1	94.5	23	2026-02-21
3	K kimi-k2.5	moonshot	$0.58 / $3.03	95.0	95.6	94.9	94.4	22	2026-02-21
4	Q qwen3-max	dashscope	$0.36 / $1.45	94.8	96.0	94.5	93.9	22	2026-02-21
5	M mimo-v2-flash	xiaomi	$0.10 / $0.29	94.4	95.7	94.1	93.4	21	2026-02-21
6	K kimi-k2-thinking	moonshot	$0.58 / $2.31	94.2	95.1	93.8	93.8	10	2026-02-19
7	K kimi-k2-thinking-turbo	moonshot	$1.16 / $8.38	93.5	95.2	93.4	91.8	21	2026-02-21
8	G glm-4.7	zhipu	$0.41 / $1.93	93.4	94.4	93.2	92.7	11	2026-02-21
9	A Anthropic: Claude Haiku 4.5	openrouter	$1.00 / $5.00	93.3	94.3	93.2	92.5	22	2026-02-21
10	M Meituan: LongCat Flash Chat	openrouter	$0.20 / $0.80	93.1	94.9	92.8	91.9	23	2026-02-21
11	D doubao-seed-2-0-mini	volcengine	$0.03 / $0.29	92.8	95.2	92.5	91.0	21	2026-02-21
12	G glm-5	zhipu	$0.55 / $2.48	92.4	95.3	92.4	89.4	23	2026-02-21
13	O OpenAI: GPT-5 Mini	openrouter	$0.25 / $2.00	92.1	93.3	91.8	91.4	21	2026-02-21
14	X xAI: Grok 4.1 Fast	openrouter	$0.20 / $0.50	92.1	93.6	91.7	91.0	21	2026-02-21
15	M MiniMax-M2.1	minimax	$0.30 / $1.21	91.7	92.7	91.4	91.1	20	2026-02-21
16	M MiniMax-M2.5	minimax	$0.30 / $1.21	91.5	92.5	91.3	90.7	20	2026-02-21
17	G glm-4.5-air	zhipu	$0.11 / $0.83	91.5	93.4	91.0	90.1	21	2026-02-21
18	D deepseek-v3.2	dashscope	$0.29 / $0.43	90.7	93.2	90.6	88.5	22	2026-02-21
19	O OpenAI: gpt-oss-120b	openrouter	$0.04 / $0.19	89.9	91.5	89.6	88.7	21	2026-02-21
20	D doubao-seed-2-0-lite	volcengine	$0.09 / $0.52	89.6	90.9	89.6	88.2	20	2026-02-20
21	D doubao-seed-2-0-pro	volcengine	$0.46 / $2.32	89.5	91.4	89.5	87.5	21	2026-02-21
22	M MiniMax-M2	minimax	$0.30 / $1.21	89.0	91.5	88.6	87.1	1	2026-02-20
23	G Google: Gemini 3 Flash Preview	openrouter	$0.50 / $3.00	88.1	89.6	87.9	86.9	22	2026-02-21
24	O OpenAI: GPT-5 Nano	openrouter	$0.05 / $0.40	87.8	89.6	87.5	86.4	22	2026-02-21
25	M MiniMax: MiniMax M2.5	openrouter	$0.30 / $1.10	86.8	88.5	86.8	85.2	11	2026-02-21
26	O OpenAI: gpt-oss-20b	openrouter	$0.03 / $0.14	85.5	88.3	84.9	83.6	21	2026-02-21
27	H hunyuan-large	tencent	$0.33 / $1.32	83.2	86.3	82.7	80.7	20	2026-02-21
28	H hunyuan-turbo	tencent	$0.11 / $0.28	82.2	87.9	81.7	77.4	21	2026-02-21
29	H hunyuan-pro	tencent	$0.33 / $1.32	79.2	84.1	78.7	75.2	19	2026-02-21
30	O OpenAI: GPT-4o-mini	openrouter	$0.15 / $0.60	79.1	84.4	78.2	74.9	21	2026-02-21
31	G glm-4.5	zhipu	$0.69 / $0.34	78.9	80.7	76.2	80.5	2	2026-02-19
32	M Meta: Llama 3.3 70B Instruct	openrouter	$0.10 / $0.32	74.5	80.8	73.7	69.2	22	2026-02-21
33	G Google: Gemini 2.5 Flash Lite	openrouter	$0.10 / $0.40	70.5	75.9	69.6	66.4	22	2026-02-21
34	M Mistral: Mistral Nemo	openrouter	$0.02 / $0.04	68.3	72.2	67.7	65.1	21	2026-02-21
35	G Google: Nano Banana Pro (Gemini 3 Pro Image Preview)	openrouter	$2.00 / $12.00	—	—	—	—	—	2026-02-21
35	G glm-4.6	zhipu	$0.41 / $1.93	—	—	—	—	—	2026-02-19
35	D deepseek-v3.1	dashscope	$0.58 / $1.73	—	—	—	—	—	2026-02-20
35	D deepseek-v3	dashscope	$0.29 / $1.16	—	—	—	—	—	2026-02-20