GLM-Image 在「敦煌飞天元素现代高定礼服生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-Image
用例名称：敦煌飞天元素现代高定礼服生成
测试类型：图像生成
评测维度：潮流服饰

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一件融合敦煌飞天元素的现代露背礼服。设计要求： - 礼服整体为露背剪裁 - 裙身带有飞天飘带装饰 - 色彩采用敦煌风格的石青色或赭石色 - 整体呈现华丽的高定礼服质感

任务要求

AI 模型需要满足以下要求：

图像中有一件完整的露背礼服
礼服上有明显的飞天飘带装饰元素
色彩体现敦煌矿物色系（石青或赭石）
整体呈现高定礼服的华丽质感
画面清晰，主体突出

评测结果

综合得分

该模型在此用例的得分为：— 分（满分 100 分），未通过

基础难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本次测试因模型服务端返回HTTP 429（请求过于频繁/超出配额限制）错误，导致图像生成完全失败，未产生任何可评估的输出内容。所有评分维度均为0分。建议排查API调用频率限制或配额问题后重新测试。【GEMINI】由于模型在生成阶段触发了系统报错（HTTP 429），未能输出任何图像结果，导致任务完全失败，无法满足所有设计要求。【KIMI】本次评测中，候选输出为系统报错（HTTP 429，请求过于频繁），模型未能成功生成任何图像内容。因此，所有评分维度均得0分，完全无法满足任务要求中关于露背礼服、飞天飘带装饰、敦煌矿物色系及高定华丽质感的任何设计要求。该输出属于技术性失败，不具备任何可评估的视觉内容。

进阶难度评测结果

得分：67.2 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一位面容清秀的亚洲女性，她正对镜头，神情端庄地站立在深灰绿色的纹理背景前。她穿着一件无袖的青蓝色旗袍，裙身布满了橙色与浅蓝色交织的几何民族风刺绣。她的双手交叠在腹部，多条橙色与青蓝色的半透明丝绸飘带从她的身体两侧及身后向四周轻盈飘散，营造出一种如敦煌壁画般灵动的飞天感。整体色调沉稳而不失华丽，构图均衡对称。在 AI 生成的细节方面，存在明显的逻辑缺陷：女性交叠的手部指节模糊且数量异常，看起来有些扭曲；背景中的丝绸飘带在连接处缺乏合理的物理支撑，仿佛直接从空气或手臂皮肤中生长出来；此外，右下角带有明显的“AI生成”字样，提示了图片的来源。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在飞天飘带的动态呈现和石青主色调的把握上有一定亮点，但存在多处与提示词的明显偏差。最关键的失误是「露背剪裁」这一核心设计要求完全未实现，礼服呈现为高领旗袍式结构。藻井纹样的还原不够准确，更接近伊斯兰几何风格而非敦煌藻井特征。刺绣工艺质感停留于印花层面，高定感不足。整体而言，图像呈现的是「改良旗袍配飘带」而非「现代高定露背礼服」，与提示词的核心意图存在较大偏差。【GEMINI】图像在色彩还原和氛围营造上表现良好，但在核心设计要求（露背剪裁）和工艺细节（刺绣质感）上存在明显短板。作为高定礼服设计，其结构设计的缺失使其未能达到预期的视觉高度。【KIMI】该图像在核心要求上存在严重偏差。最致命的错误是「露背礼服」变为「高领封闭旗袍」，这是结构性的提示词违背而非细节瑕疵。藻井纹样的刺绣质感、飘带的物理起源逻辑、高定工艺呈现均未达标。模型似乎将「敦煌」与「旗袍」进行刻板联想，忽视了「现代高定露背」这一关键风格定位。色彩方案基本合格但执行平庸，整体属于「看似华丽实则跑题」的典型AI生成案例。

困难难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本次评测的候选输出为模型推理阶段产生的系统报错（HTTP 429，即请求频率超限），并非实际生成的图像或文本内容。由于完全没有输出产物，所有评分维度均无法进行有效评估，各维度得分均为0分。建议重新调度任务，待服务恢复正常后重新生成，以获得有效的评测结果。【GEMINI】本次测试中，模型因触发 HTTP 429 错误导致生成失败，未能输出任何符合要求的视觉内容。无法对模型的设计转化能力进行有效评估。【KIMI】本次评测中，候选模型（zhipu/glm-image）因HTTP 429错误（请求过于频繁）完全未能生成图像输出。这是一个服务层面的失败，而非生成质量层面的不足。所有评分维度均因缺乏实际输出内容而获得0分。建议在系统负载降低后重新测试，以获取有效的生成质量评估数据。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题