GLM-Image 在「零重力空间站人物漂浮」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:GLM-Image
- 用例名称:零重力空间站人物漂浮
- 测试类型:图像生成
- 评测维度:人物生成
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
一位宇航员在空间站内漂浮,穿着蓝色连体工作服,短发,双臂自然张开
任务要求
AI 模型需要满足以下要求:
- 人物呈现明显的漂浮姿态,双臂自然向两侧张开,身体无任何与地面或墙面的接触支撑点
- 短发发丝应呈现失重状态下的轻微散开或蓬松上扬效果,不得出现向下垂落的重力感
- 连体工作服颜色准确为蓝色,款式为完整连体设计,衣领、袖口或口袋等服装细节清晰可见
- 人物肢体比例正确,头身比自然,双臂左右对称,手部结构清晰无明显变形
- 整体构图合理,人物主体完整呈现于画面中,与空间站背景环境的比例关系协调,画面具备基本的空间纵深感
评测结果
综合得分
该模型在此用例的得分为:— 分(满分 100 分),未通过
基础难度评测结果
- 得分:— 分
- 通过状态:未通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
系统报错(阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image):HTTP 429
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】本次评测的候选输出为系统生成阶段的HTTP 429报错(请求频率超限),模型完全未生成任何图像内容。任务要求生成宇航员在空间站内漂浮的图像,涉及失重物理表现、人体解剖结构与空间构图、服装细节渲染三个维度,但由于输出为空(仅有错误信息),所有维度均无法评分,全部得0分。建议重试请求或检查API调用频率限制。 【GEMINI】本次测试中,模型因触发HTTP 429错误导致生成失败,未能输出任何图像内容。根据评分标准,所有维度均无法达成,故均评为0分。建议检查模型调用接口的频率限制或服务稳定性。 【KIMI】本次评测中,候选模型(zhipu/glm-image)在生成阶段遭遇HTTP 429错误,完全未能输出任何图像结果。根据评测规则,所有评分维度均因「无有效输出」而获得0分。该结果表明模型服务在请求处理层面存在可用性问题,而非图像生成质量层面的缺陷,建议排查API限流、服务负载或认证配置等技术问题后重新测试。
进阶难度评测结果
- 得分:76.7 分
- 通过状态:已通过
模型生成产物
该模型生成了以下图片:
图片内容描述(由 AI 生成,供你参考)
图中展示了一位身着蓝色宇航服的亚裔女性宇航员,她正身处空间站的观测舱内,专注地操作着手中的平板电脑。她的深色长发在失重环境中向上飘散,呈现出放射状的动感。宇航服上清晰可见 NASA 的标志和美国国旗臂章。背景由数个圆角矩形舷窗组成,窗外是蔚蓝的地球大气层和白云。舱内布满了复杂的电缆、开关和精密仪器,整体色调以深灰和科技蓝为主,光线柔和且具有写实感。 在 AI 生成细节方面,画面存在一些明显的逻辑与结构缺陷:宇航员左手的大拇指关节连接处显得异常僵硬且比例失调,指甲形状不够自然;右手的握持姿势与平板边缘的衔接略显生硬。此外,宇航服上的 NASA 标志文字略有变形,并非完全标准的官方字体。背景中复杂的线缆在交汇处出现了透视重叠错误,部分金属构件的轮廓显得模糊且缺乏合理的机械结构逻辑。
注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】该图像整体质量较高,在多项关键要求上完成度良好:NASA制服细节准确、头发失重飘散效果突出、空间站内部环境细节丰富、舷窗可见。主要短板集中在「漂浮姿态的真实性」上——人物更像是站立前倾而非悬浮漂浮,这是零重力场景最核心的视觉挑战,未能完全实现。此外舷窗外地球景象高度不足(应显示地球弧面而非普通云层),以及平板电脑持握角度的微小重力感,是可识别的次要问题。综合而言,这是一张具有较高完成度但在「零重力姿态真实性」这一核心维度上有所欠缺的AI生成图像。 【GEMINI】这是一张视觉效果尚可但细节经不起推敲的AI生成图像。虽然成功营造了空间站的氛围,但在物理逻辑(失重表现)和人体解剖(手部)这两个核心难点上暴露了模型能力的局限性。作为专业评审,我认为该图在商业或科学展示用途上尚不达标。 【KIMI】该图像在视觉完成度上具备一定水准,但在核心测试目标——零重力物理还原上存在根本性偏差。头发动态是最大败笔,其「高速后吹」特征直接暴露了模型对「失重漂浮」与「风力吹动」的混淆,这与提示词要求的「向上飘散」严重不符。手指结构与舷窗透视的缺陷进一步拉低了专业可信度。整体而言,这是一张「看起来像太空场景」但物理逻辑经不起推敲的AI生成图像,适合概念展示,无法满足航天科普或专业视觉的严谨要求。
困难难度评测结果
- 得分:— 分
- 通过状态:未通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
系统报错(阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image):HTTP 429
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】本次候选输出为系统错误信息(HTTP 429,请求频率超限),模型完全未生成任何图像或相关描述内容。所有评分维度均无法进行有效评估,全部得分为0。该结果属于技术故障导致的空输出,与任务要求完全不符。 【GEMINI】由于模型生成过程中出现「HTTP 429」错误(请求过于频繁或服务不可用),导致未能输出任何图像内容。基于提供的 EVAL_BLOB,该次测试任务未完成,所有维度均无法进行有效评估。 【KIMI】本次评测中,模型在生成阶段遭遇HTTP 429错误(请求过于频繁),导致完全未能输出任何图像结果。这是一个系统级故障,而非生成质量缺陷。根据评分规则,所有维度均无法获得有效评估,故各维度得分均为0分。建议在系统负载较低时重试该测试用例,以获取有效的生成结果进行质量评估。
相关链接
您可以通过以下链接查看更多相关内容: