GLM-Image 在「废土机能风汉服少女立绘生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-Image
用例名称：废土机能风汉服少女立绘生成
测试类型：图像生成
评测维度：潮流服饰

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一名身着改良马面裙的少女立绘。服饰要求： - 马面裙采用防水尼龙材质，裙身带有战术织带与金属挂扣 - 上半身搭配机能背心背景为荒废的工业区。

任务要求

AI 模型需要满足以下要求：

画面中有一名少女，整体为立绘构图
少女穿着可辨认的马面裙形制服饰
裙身上有战术织带或金属挂扣等机能元素
上半身有机能背心
背景体现工业废土氛围

评测结果

综合得分

该模型在此用例的得分为：— 分（满分 100 分），未通过

基础难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本次生成任务因调用图像生成模型时触发 HTTP 429（请求过于频繁/超出配额）错误而完全失败，未产生任何可供评估的图像输出。所有评分维度均为 0 分。建议检查 API 调用频率限制或配额情况后重新发起请求。【GEMINI】由于模型在生成过程中出现系统报错（HTTP 429），未能输出任何图像结果，因此所有维度均无法评估，评分为 0 分。【KIMI】该候选输出为模型服务层面的技术故障（HTTP 429 请求过多错误），属于完全未生成有效内容的失败案例。所有评分维度均无法获得任何分数，模型未能完成基本的图像生成任务，不具备任何可评估的视觉元素。

进阶难度评测结果

得分：74.6 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

画面中展示了一位留着黑色齐肩短发的年轻亚洲女性，她正站在一个充满工业废墟感的背景前。她身穿一套融合了机能风与传统元素的服装：上半身是黑色拉链背心，配有透明塑料材质的宽大长袖，腰间围着多层红色与黑色的腰带及扣带；下半身穿着带有破洞设计的军绿色工装裙。背景是昏暗的废弃工厂，左侧有一根巨大的锈迹斑斑的橙褐色管道，地面散落着碎石和金属零件。整体色调沉稳，光线柔和。画面中存在明显的 AI 生成缺陷：首先，人物的双手处理得不够自然，手指线条模糊且比例略显失调；其次，服装上的带子和扣具逻辑混乱，例如腰间的黑色皮带穿过红色布带的方式不符合物理结构，且部分扣带末端凭空消失或与裙子纹理融合；最后，左侧背景中的巨大管道与地面的衔接处透视略显生硬，缺乏真实的阴影过渡。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这张AI生成图在废土机能风改良汉服的整体方向上完成度较高，透明PVC材质袖子与机能背心的搭配是最具创意的核心设计，背景废土工业场景也颇为到位。但在核心要求「马面裙形制」的辨识度上存在明显短板，传统形制特征几乎消失，导致「汉服改良」的文化融合意图大打折扣。裙身战术织带密度不足与整体冷调光线处理欠缺也是扣分项。综合而言，图像在氛围营造和上半身设计上表现良好，但在传统形制保留与下半身细节丰富度上未能达到提示词的精确要求。【GEMINI】该图像在氛围营造和材质渲染上表现出较强的AI生成能力，但在服装设计的逻辑性与传统形制的还原度上存在明显短板。它更像是一件「机能风时装」而非「改良汉服」，对于特定形制的理解仍停留在表面纹理的拼凑，而非结构性的重构。【KIMI】这是一次典型的「概念挪用式」生成：模型识别了「汉服」「机能」「废土」等标签，却未能理解材质冲突的核心美学。PVC变纱布、战术织带变装饰腰带、马面裙变普通长裙——三次关键材质/形制的误读叠加，使提示词的创意意图彻底落空。光线与配色的失控进一步削弱了末世氛围。建议重新训练材质关键词的物理属性关联，或引入材质参考图约束。

困难难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出因HTTP 429（请求频率超限）导致模型推理阶段报错，未产生任何实际图像内容。所有评分维度均无可评估的输出，全部得分为0。此次失败属于服务层面的技术故障，与任务本身的创意难度无关，建议重试或排查调用频率限制问题。【GEMINI】本次测试中，模型在生成阶段触发了「HTTP 429」错误（请求过于频繁或服务不可用），导致未能输出任何图像内容。因此，所有维度均无法进行有效评估，评测结果为无效。【KIMI】候选输出为系统报错（HTTP 429，请求频率限制），模型完全未能生成任何图像内容。本次评测任务要求生成精细立绘图像，但模型因技术故障未能执行，所有评分维度均无法评估，得分为0。该结果属于模型服务层面的失败，而非生成质量不足。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题