GLM-Image 在「零重力空间站人物漂浮」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-Image
用例名称：零重力空间站人物漂浮
测试类型：图像生成
评测维度：人物生成

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

一位宇航员在空间站内漂浮，穿着蓝色连体工作服，短发，双臂自然张开

任务要求

AI 模型需要满足以下要求：

人物呈现明显的漂浮姿态，双臂自然向两侧张开，身体无任何与地面或墙面的接触支撑点
短发发丝应呈现失重状态下的轻微散开或蓬松上扬效果，不得出现向下垂落的重力感
连体工作服颜色准确为蓝色，款式为完整连体设计，衣领、袖口或口袋等服装细节清晰可见
人物肢体比例正确，头身比自然，双臂左右对称，手部结构清晰无明显变形
整体构图合理，人物主体完整呈现于画面中，与空间站背景环境的比例关系协调，画面具备基本的空间纵深感

评测结果

综合得分

该模型在此用例的得分为：— 分（满分 100 分），未通过

基础难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本次评测的候选输出为系统生成阶段的HTTP 429报错（请求频率超限），模型完全未生成任何图像内容。任务要求生成宇航员在空间站内漂浮的图像，涉及失重物理表现、人体解剖结构与空间构图、服装细节渲染三个维度，但由于输出为空（仅有错误信息），所有维度均无法评分，全部得0分。建议重试请求或检查API调用频率限制。【GEMINI】本次测试中，模型因触发HTTP 429错误导致生成失败，未能输出任何图像内容。根据评分标准，所有维度均无法达成，故均评为0分。建议检查模型调用接口的频率限制或服务稳定性。【KIMI】本次评测中，候选模型（zhipu/glm-image）在生成阶段遭遇HTTP 429错误，完全未能输出任何图像结果。根据评测规则，所有评分维度均因「无有效输出」而获得0分。该结果表明模型服务在请求处理层面存在可用性问题，而非图像生成质量层面的缺陷，建议排查API限流、服务负载或认证配置等技术问题后重新测试。

进阶难度评测结果

得分：76.7 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一位身着蓝色宇航服的亚裔女性宇航员，她正身处空间站的观测舱内，专注地操作着手中的平板电脑。她的深色长发在失重环境中向上飘散，呈现出放射状的动感。宇航服上清晰可见 NASA 的标志和美国国旗臂章。背景由数个圆角矩形舷窗组成，窗外是蔚蓝的地球大气层和白云。舱内布满了复杂的电缆、开关和精密仪器，整体色调以深灰和科技蓝为主，光线柔和且具有写实感。在 AI 生成细节方面，画面存在一些明显的逻辑与结构缺陷：宇航员左手的大拇指关节连接处显得异常僵硬且比例失调，指甲形状不够自然；右手的握持姿势与平板边缘的衔接略显生硬。此外，宇航服上的 NASA 标志文字略有变形，并非完全标准的官方字体。背景中复杂的线缆在交汇处出现了透视重叠错误，部分金属构件的轮廓显得模糊且缺乏合理的机械结构逻辑。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像整体质量较高，在多项关键要求上完成度良好：NASA制服细节准确、头发失重飘散效果突出、空间站内部环境细节丰富、舷窗可见。主要短板集中在「漂浮姿态的真实性」上——人物更像是站立前倾而非悬浮漂浮，这是零重力场景最核心的视觉挑战，未能完全实现。此外舷窗外地球景象高度不足（应显示地球弧面而非普通云层），以及平板电脑持握角度的微小重力感，是可识别的次要问题。综合而言，这是一张具有较高完成度但在「零重力姿态真实性」这一核心维度上有所欠缺的AI生成图像。【GEMINI】这是一张视觉效果尚可但细节经不起推敲的AI生成图像。虽然成功营造了空间站的氛围，但在物理逻辑（失重表现）和人体解剖（手部）这两个核心难点上暴露了模型能力的局限性。作为专业评审，我认为该图在商业或科学展示用途上尚不达标。【KIMI】该图像在视觉完成度上具备一定水准，但在核心测试目标——零重力物理还原上存在根本性偏差。头发动态是最大败笔，其「高速后吹」特征直接暴露了模型对「失重漂浮」与「风力吹动」的混淆，这与提示词要求的「向上飘散」严重不符。手指结构与舷窗透视的缺陷进一步拉低了专业可信度。整体而言，这是一张「看起来像太空场景」但物理逻辑经不起推敲的AI生成图像，适合概念展示，无法满足航天科普或专业视觉的严谨要求。

困难难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本次候选输出为系统错误信息（HTTP 429，请求频率超限），模型完全未生成任何图像或相关描述内容。所有评分维度均无法进行有效评估，全部得分为0。该结果属于技术故障导致的空输出，与任务要求完全不符。【GEMINI】由于模型生成过程中出现「HTTP 429」错误（请求过于频繁或服务不可用），导致未能输出任何图像内容。基于提供的 EVAL_BLOB，该次测试任务未完成，所有维度均无法进行有效评估。【KIMI】本次评测中，模型在生成阶段遭遇HTTP 429错误（请求过于频繁），导致完全未能输出任何图像结果。这是一个系统级故障，而非生成质量缺陷。根据评分规则，所有维度均无法获得有效评估，故各维度得分均为0分。建议在系统负载较低时重试该测试用例，以获取有效的生成结果进行质量评估。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题