GLM-Image 在「复杂人物姿态」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-Image
用例名称：复杂人物姿态
测试类型：图像生成
评测维度：人物生成

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

一位年轻女性正在做简单的伸展运动，双臂向两侧平举，双腿自然分开站立，穿着运动服装，表情放松自然，纯白色背景，全身正面视角。

任务要求

AI 模型需要满足以下要求：

图像成功生成，无技术性错误（如黑屏、纯色块、加载失败）
人物为年轻女性，双臂向两侧平举，手臂与肩膀基本平行（偏差不超过15°），无关节反折或肢体错位
双腿自然分开站立，两脚间距适中（约与肩同宽），腿部姿态符合人体站立时的自然状态
每只手手指数量正确（各5根），手指形态自然，无多指、缺指或严重粘连现象
穿着明确的运动服装（如运动背心、紧身运动裤、运动短裤等），服装样式与运动场景相符
人物表情放松自然，面部无明显紧张、痛苦或夸张表情，五官比例正常
背景为纯白色，无杂色、渐变色、阴影污点或任何背景元素干扰
全身正面视角，人物从头顶至脚底完整呈现于画面内，无明显裁切

评测结果

综合得分

该模型在此用例的得分为：— 分（满分 100 分），未通过

基础难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本次生成因调用智谱 glm-image 模型时触发 HTTP 429（请求频率超限）错误而完全失败，未产生任何图像输出。所有评分维度均为0分，属于技术性生成失败，与图像质量本身无关。建议排查 API 调用频率限制或重试机制后重新生成。【GEMINI】本次任务中，模型因触发 HTTP 429 错误（请求频率限制或服务不可用）导致生成失败，未输出任何图像内容。根据评测标准，由于未能完成任务目标，所有维度均评为 0 分。【KIMI】本次测试因模型服务端的HTTP 429错误导致图像生成完全失败，属于严重的技术故障。候选输出仅为错误日志，未产生任何有效图像内容，所有评分维度均无法获得有效评估依据。建议在排除服务端速率限制问题后重新进行测试。

进阶难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本次生成因调用模型接口时触发限流（HTTP 429）而失败，未产生任何图像输出。所有评分维度均为0分，属于完全失败的生成结果，与任务要求完全不符。【GEMINI】本次评测中，模型因触发HTTP 429错误（请求过多或服务限流）导致生成失败，未能输出任何图像内容。因此，所有维度均无法达成任务要求，评分为0分。【KIMI】本次评测中，候选模型因服务端限流（HTTP 429）导致图像生成完全失败，未输出任何有效图像内容。所有评分维度均因「无输出」而获得0分。这是一个典型的系统性技术故障案例，非模型理解能力或生成质量问题，建议在评测环境稳定后重新测试。

困难难度评测结果

得分：65.1 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一名年轻亚洲男性在城市环境中进行跑酷运动的瞬间。他身穿深蓝色短袖 T 恤和灰色运动裤，身体呈水平姿态悬浮在半空，左手撑在左侧带有彩色涂鸦的高墙上，右手向画面右下方伸展。背景是充满生活气息的城市街道，可以看到密集的住宅楼和停放的车辆，整体色调偏向写实的冷色调，光影对比强烈。画面中存在明显的 AI 生成缺陷：最显著的是人物的左手，手指数量异常且关节扭曲，与墙面的接触逻辑不合理；人物的下半身与躯干的连接显得生硬，双腿的透视关系模糊，仿佛凭空漂浮而缺乏发力感。此外，右臂的肌肉线条在手肘处显得有些不自然，背景中远处的建筑细节也存在一定的结构混乱。这些特征共同指向了这是一张由人工智能合成的图像。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在场景氛围和人物面部表情方面完成度较好，城市跑酷的基本视觉语言得到体现。然而，提示词中最核心的三个视觉要求——「身体水平状态」「动态模糊速度感」「低角度仰拍透视」——均未能充分实现，尤其是动态模糊的完全缺失使画面沦为静态摆拍，严重削弱了「捕捉动作瞬间的力量美」的主题表达。汗水高光等细节要求也未落实。综合来看，图像完成了跑酷场景的基本框架，但在复杂姿态的精确还原和动态摄影效果的模拟上存在明显不足，属于「部分完成要求」的水平。【GEMINI】该图像在构图和人物神态上达到了及格线，但在核心的解剖学结构和摄影物理表现上表现平庸。AI在处理复杂肢体动作（如左臂伸展）时出现了明显的结构性错误，且光影与动态模糊的处理缺乏专业摄影的质感，导致画面整体显得『塑料感』较强，缺乏真实跑酷动作的力量美。【KIMI】该图像在第一眼观感上具备运动摄影的雏形，但经不起专业审视。核心失败在于对「蹬墙推开」这一关键动作的理解偏差——模型将「水平悬浮」等同于「动态瞬间」，忽视了物理支撑与力学传递的必要性。右手姿态的错误（抓握变推离）直接瓦解了动作的可信度，而汗水、动态模糊等氛围细节的缺失进一步削弱了提示词的还原度。作为「复杂姿态测试」，模型展现了生成完整人体结构的能力，但在动作逻辑的内在一致性上暴露明显短板。评分需严厉以拉开模型差距：完成形态≠完成要求。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

相关链接

反馈评测问题