XiaoShan Scenario Capability Testing

发现最适合你的 AI 模型

不选最强的,选最合适的。XSCT 是一个面向 AI 产品落地的场景化模型选型平台,用真实的场景用例说话,拒绝盲目迷信榜单跑分。

绝对独立运营声明

独立自主,不接受模型厂商赞助
拒绝改分、暗箱操作或排名公关
所有数据与输出真实、透明、可追溯

我们在解决什么问题

精准的场景化检索

放弃大而全的综合评分,直接按你的业务场景(如:代码生成、商业设计、数据分析)找测试案例,快速定位模型在特定维度的真实能力。

直观的输出对比

冰冷的数字不如真实的生成结果。我们直接展示各个模型面对同一个 Prompt 时的真实输出,让你“眼见为实”,建立自己的选型判断。

发掘极致性价比

最聪明的模型往往也是最贵的。通过对比,你可以找到那些在特定场景下表现足够好,但 API 成本更低、速度更快的“经济适用型”方案。

四大核心测评体系

XSCT-VG
图像生成 (Vision Generation)

涵盖商业设计、人物生成、场景创作、风格控制等 14 个细分场景,考察模型的画面控制与审美下限。

XSCT-L
文字生成 (Language)

覆盖创意写作、代码生成、客服对话、数据分析等 22 个实用场景,检验模型的逻辑思维与指令遵循能力。

XSCT-W
网页生成 (Web Generation)

专注前端代码生成,包含落地页、仪表盘、小游戏、动画效果等 10 个测试项,所见即所得的代码评估。

XSCT-VU 即将推出
视觉理解 (Vision Understanding)

多模态理解能力测试,包含图表解析、UI草图转代码、图像信息提取等,正在紧密筹备中。

透明度与当前局限

自动评测的局限性
当前完全采用 LLM-as-a-Judge 进行自动化打分,结果仅供参考,不代表官方背书。历史数据不能代表模型最新版本的真实水平。
单一裁判与基准缺失
目前仅由单一模型担任裁判,难免存在偏好。 优化计划:引入多模型裁判加权平均,并逐步建立人工 Ground Truth 校验集。
AI 幻觉与打分波动
大模型在自动化评分时可能出现"幻觉"(如给出了实际上不存在问题的扣分理由),导致同一模型面对相似内容时得分存在轻微波动。 评测结果一旦生成将不会接受人为改分。如发现明显评分错误,欢迎通过社群反馈,我们将在优化评测 Prompt 和方法论后统一重跑。页面上的点赞/点踩仅代表用户看法,不影响实际评测分数。

拥抱开源

我们坚信开放能带来更好的生态。XSCT 的用例数据集已在 GitHub 完全开源 (MIT 协议),欢迎学术研究与商业引用。

高质量用例数据集 评测方法论与 Prompt 各模型生成样例归档
访问 XSCT Dataset 仓库

加入社群与支持项目

加入 XSCT 交流群
想探讨各家大模型的真实能力边界?遇到选型困难?扫码加作者微信,拉你进入专属交流群。
微信交流群

感谢以下赞助者的支持

排名不分先后