GLM-Image 在「复杂人物姿态」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:GLM-Image
- 用例名称:复杂人物姿态
- 测试类型:图像生成
- 评测维度:人物生成
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
一位年轻女性正在做简单的伸展运动,双臂向两侧平举,双腿自然分开站立,穿着运动服装,表情放松自然,纯白色背景,全身正面视角。
任务要求
AI 模型需要满足以下要求:
- 图像成功生成,无技术性错误(如黑屏、纯色块、加载失败)
- 人物为年轻女性,双臂向两侧平举,手臂与肩膀基本平行(偏差不超过15°),无关节反折或肢体错位
- 双腿自然分开站立,两脚间距适中(约与肩同宽),腿部姿态符合人体站立时的自然状态
- 每只手手指数量正确(各5根),手指形态自然,无多指、缺指或严重粘连现象
- 穿着明确的运动服装(如运动背心、紧身运动裤、运动短裤等),服装样式与运动场景相符
- 人物表情放松自然,面部无明显紧张、痛苦或夸张表情,五官比例正常
- 背景为纯白色,无杂色、渐变色、阴影污点或任何背景元素干扰
- 全身正面视角,人物从头顶至脚底完整呈现于画面内,无明显裁切
评测结果
综合得分
该模型在此用例的得分为:— 分(满分 100 分),未通过
基础难度评测结果
- 得分:— 分
- 通过状态:未通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
系统报错(阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image):HTTP 429
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】本次生成因调用智谱 glm-image 模型时触发 HTTP 429(请求频率超限)错误而完全失败,未产生任何图像输出。所有评分维度均为0分,属于技术性生成失败,与图像质量本身无关。建议排查 API 调用频率限制或重试机制后重新生成。 【GEMINI】本次任务中,模型因触发 HTTP 429 错误(请求频率限制或服务不可用)导致生成失败,未输出任何图像内容。根据评测标准,由于未能完成任务目标,所有维度均评为 0 分。 【KIMI】本次测试因模型服务端的HTTP 429错误导致图像生成完全失败,属于严重的技术故障。候选输出仅为错误日志,未产生任何有效图像内容,所有评分维度均无法获得有效评估依据。建议在排除服务端速率限制问题后重新进行测试。
进阶难度评测结果
- 得分:— 分
- 通过状态:未通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
系统报错(阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image):HTTP 429
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】本次生成因调用模型接口时触发限流(HTTP 429)而失败,未产生任何图像输出。所有评分维度均为0分,属于完全失败的生成结果,与任务要求完全不符。 【GEMINI】本次评测中,模型因触发HTTP 429错误(请求过多或服务限流)导致生成失败,未能输出任何图像内容。因此,所有维度均无法达成任务要求,评分为0分。 【KIMI】本次评测中,候选模型因服务端限流(HTTP 429)导致图像生成完全失败,未输出任何有效图像内容。所有评分维度均因「无输出」而获得0分。这是一个典型的系统性技术故障案例,非模型理解能力或生成质量问题,建议在评测环境稳定后重新测试。
困难难度评测结果
- 得分:65.1 分
- 通过状态:已通过
模型生成产物
该模型生成了以下图片:
图片内容描述(由 AI 生成,供你参考)
图中展示了一名年轻亚洲男性在城市环境中进行跑酷运动的瞬间。他身穿深蓝色短袖 T 恤和灰色运动裤,身体呈水平姿态悬浮在半空,左手撑在左侧带有彩色涂鸦的高墙上,右手向画面右下方伸展。背景是充满生活气息的城市街道,可以看到密集的住宅楼和停放的车辆,整体色调偏向写实的冷色调,光影对比强烈。 画面中存在明显的 AI 生成缺陷:最显著的是人物的左手,手指数量异常且关节扭曲,与墙面的接触逻辑不合理;人物的下半身与躯干的连接显得生硬,双腿的透视关系模糊,仿佛凭空漂浮而缺乏发力感。此外,右臂的肌肉线条在手肘处显得有些不自然,背景中远处的建筑细节也存在一定的结构混乱。这些特征共同指向了这是一张由人工智能合成的图像。
注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】该图像在场景氛围和人物面部表情方面完成度较好,城市跑酷的基本视觉语言得到体现。然而,提示词中最核心的三个视觉要求——「身体水平状态」「动态模糊速度感」「低角度仰拍透视」——均未能充分实现,尤其是动态模糊的完全缺失使画面沦为静态摆拍,严重削弱了「捕捉动作瞬间的力量美」的主题表达。汗水高光等细节要求也未落实。综合来看,图像完成了跑酷场景的基本框架,但在复杂姿态的精确还原和动态摄影效果的模拟上存在明显不足,属于「部分完成要求」的水平。 【GEMINI】该图像在构图和人物神态上达到了及格线,但在核心的解剖学结构和摄影物理表现上表现平庸。AI在处理复杂肢体动作(如左臂伸展)时出现了明显的结构性错误,且光影与动态模糊的处理缺乏专业摄影的质感,导致画面整体显得『塑料感』较强,缺乏真实跑酷动作的力量美。 【KIMI】该图像在第一眼观感上具备运动摄影的雏形,但经不起专业审视。核心失败在于对「蹬墙推开」这一关键动作的理解偏差——模型将「水平悬浮」等同于「动态瞬间」,忽视了物理支撑与力学传递的必要性。右手姿态的错误(抓握变推离)直接瓦解了动作的可信度,而汗水、动态模糊等氛围细节的缺失进一步削弱了提示词的还原度。作为「复杂姿态测试」,模型展现了生成完整人体结构的能力,但在动作逻辑的内在一致性上暴露明显短板。评分需严厉以拉开模型差距:完成形态≠完成要求。
相关链接
您可以通过以下链接查看更多相关内容: