XiaoShan Scenario Capability Testing
发现最适合你的 AI 模型
不选最强的,选最合适的。XSCT 是一个面向 AI 产品落地的场景化模型选型平台,用真实的场景用例说话,拒绝盲目迷信榜单跑分。
绝对独立运营声明
独立自主,不接受模型厂商赞助
拒绝改分、暗箱操作或排名公关
所有数据与输出真实、透明、可追溯
我们在解决什么问题
精准的场景化检索
放弃大而全的综合评分,直接按你的业务场景(如:代码生成、商业设计、数据分析)找测试案例,快速定位模型在特定维度的真实能力。
直观的输出对比
冰冷的数字不如真实的生成结果。我们直接展示各个模型面对同一个 Prompt 时的真实输出,让你“眼见为实”,建立自己的选型判断。
发掘极致性价比
最聪明的模型往往也是最贵的。通过对比,你可以找到那些在特定场景下表现足够好,但 API 成本更低、速度更快的“经济适用型”方案。
四大核心测评体系
XSCT-VG
图像生成 (Vision Generation)
涵盖商业设计、人物生成、场景创作、风格控制等 14 个细分场景,考察模型的画面控制与审美下限。
XSCT-L
文字生成 (Language)
覆盖创意写作、代码生成、客服对话、数据分析等 22 个实用场景,检验模型的逻辑思维与指令遵循能力。
XSCT-W
网页生成 (Web Generation)
专注前端代码生成,包含落地页、仪表盘、小游戏、动画效果等 10 个测试项,所见即所得的代码评估。
XSCT-VU
即将推出
视觉理解 (Vision Understanding)
多模态理解能力测试,包含图表解析、UI草图转代码、图像信息提取等,正在紧密筹备中。
透明度与当前局限
当前完全采用 LLM-as-a-Judge 进行自动化打分,结果仅供参考,不代表官方背书。历史数据不能代表模型最新版本的真实水平。
目前仅由单一模型担任裁判,难免存在偏好。
优化计划:引入多模型裁判加权平均,并逐步建立人工 Ground Truth 校验集。
大模型在自动化评分时可能出现"幻觉"(如给出了实际上不存在问题的扣分理由),导致同一模型面对相似内容时得分存在轻微波动。
评测结果一旦生成将不会接受人为改分。如发现明显评分错误,欢迎通过社群反馈,我们将在优化评测 Prompt 和方法论后统一重跑。页面上的点赞/点踩仅代表用户看法,不影响实际评测分数。
拥抱开源
我们坚信开放能带来更好的生态。XSCT 的用例数据集已在 GitHub 完全开源 (MIT 协议),欢迎学术研究与商业引用。
加入社群与支持项目
加入 XSCT 交流群
想探讨各家大模型的真实能力边界?遇到选型困难?扫码加作者微信,拉你进入专属交流群。
请作者喝杯咖啡 ☕️
如果这个项目帮你节省了选型时间或避开了大坑,欢迎扫码打赏支持。你的赞助将 100% 用于维持服务器与大模型 API 开销。
打赏烦请备注「XSCT 赞助」,感谢!
打赏烦请备注「XSCT 赞助」,感谢!
感谢以下赞助者的支持
正在加载...
排名不分先后