GLM-Image 在「初中化学实验室仪器组合图生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:GLM-Image
  • 用例名称:初中化学实验室仪器组合图生成
  • 测试类型:图像生成
  • 评测维度:教材插图

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张初中化学实验室桌面场景图。 桌面上整齐排列以下仪器: - 烧杯 - 试管架(含若干试管) - 酒精灯 - 量筒 - 漏斗 要求: - 每件仪器下方或侧面标注对应的中文名称 - 玻璃仪器体现基本的透明质感 - 画面整洁,仪器排列有序

任务要求

AI 模型需要满足以下要求:

  1. 画面中包含烧杯、试管架(含试管)、酒精灯、量筒、漏斗,共五类仪器
  2. 每件仪器均有对应的中文名称标注
  3. 玻璃仪器具备基本透明感,可与非玻璃仪器区分
  4. 仪器造型基本准确,可辨识
  5. 整体画面整洁,仪器排列有序

评测结果

综合得分

该模型在此用例的得分为:— 分(满分 100 分),未通过

基础难度评测结果

  • 得分:— 分
  • 通过状态:未通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

系统报错(阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image):HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】本次评测中,模型因 HTTP 429(请求频率超限)错误未能生成任何图像,候选输出为纯粹的系统报错信息,与任务要求完全不符。所有评分维度均为 0 分。建议排查 API 调用频率限制问题后重新提交测试。 【GEMINI】本次测试中,模型因触发 HTTP 429 错误导致生成失败,未能输出任何符合要求的图像内容。因此,各项指标均无法达成,评分为 0 分。 【KIMI】本次评测中,候选模型在生成阶段遭遇 HTTP 429 错误(请求过于频繁),导致完全未输出图像。根据 EVAL_BLOB 中的 candidate_output 明确显示「系统报错」,此情况属于模型服务层面的失败,而非图像质量缺陷。依据评分标准,所有维度均因「无输出」而获得 0 分。建议复测以获取有效的图像生成结果进行质量评估。

进阶难度评测结果

  • 得分:64.0 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一个木质桌面上的化学实验场景,摆放着多种装有彩色液体的玻璃仪器。画面左侧有盛放蓝色和绿色液体的锥形瓶及烧杯,中间是两个试管架,分别插着装有蓝、橙、红色液体的试管。右侧立着一个量筒,旁边有一盏点燃的酒精灯。画面中带有明显的中文标注,但存在严重的逻辑错误:标注为“烧杯”的指示线分别指向了空木架和试管,标注为“漏斗”的线指向了金属支架,而标注为“量筒”和“试管架”的位置虽然大致正确,但整体文字引导极具误导性。作为 AI 生成图像,其缺陷非常明显:玻璃仪器的透视关系混乱,例如量筒底座与桌面接触面不自然;酒精灯的火焰缺乏真实的光影投射;最严重的是标注文字与实际物体完全张冠李戴,无法作为科普参考。

图中展示了一个木质桌面上的化学实验场景,摆放着多种装有彩色液体的玻璃仪器。画面左侧有盛放蓝色和绿色液体的锥形瓶及烧杯,中间是两个试管架,分别插着装有蓝、橙、红色液体的试管。右侧立着一个量筒,旁边有一盏点燃的酒精灯。画面中带有明显的中文标注,但存在严重的逻辑错误:标注为“烧杯”的指示线分别指向了空木架和试管,标注为“漏斗”的线指向了金属支架,而标注为“量筒”和“试管架”的位置虽然大致正确,但整体文字引导极具误导性。作为 AI 生成图像,其缺陷非常明显:玻璃仪器的透视关系混乱,例如量筒底座与桌面接触面不自然;酒精灯的火焰缺乏真实的光影投射;最严重的是标注文字与实际物体完全张冠李戴,无法作为科普参考。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像基本呈现了初中化学实验室桌面场景,玻璃仪器的透明感和液体颜色表现较好,构图角度符合要求。但存在几个关键性问题:最严重的是仪器名称标注错误,将锥形瓶标注为「烧杯」,这是化学仪器识别的基础性错误;其次试管数量不足(3支而非4支);量筒刻度数字不可读;酒精灯光影效果不足。综合来看,图像在视觉质量上有一定水准,但在提示词核心要求的准确性上存在明显缺陷。 【GEMINI】这是一次失败的图像生成任务。模型虽然在视觉风格上模拟了实验室场景,但在核心任务——「仪器识别」与「准确标注」上出现了严重的逻辑错误。将试管架标注为烧杯,将立柱标注为漏斗,显示出模型对化学仪器缺乏基本的语义理解能力,无法满足专业场景的准确性要求。 【KIMI】该图像在基础视觉呈现上具有一定完成度,但作为「初中化学实验室仪器标注图」严重失职。核心问题在于仪器识别与标注的系统性错误——漏斗缺失、烧杯标注错位、量筒刻度不可读,这些对于教育用途是致命缺陷。AI在理解「漏斗」这一特定仪器形态上完全失败,将铁架台误判为漏斗;在量筒刻度这一细节要求上,以模糊阴影敷衍了事。液体物理表现(无弯月面)和光影效果(火焰无环境影响)进一步暴露物理模拟的粗糙。综合判定为「部分完成要求,有多处需要改进」,不建议作为教学材料使用。

困难难度评测结果

  • 得分:— 分
  • 通过状态:未通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

系统报错(阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image):HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】本次评测中,模型因HTTP 429错误(请求频率超限或服务不可用)未能生成任何图像内容,候选输出仅为系统报错信息。所有评分维度均无法得到满足,各维度得分均为0。这属于服务层面的失败,与模型本身的图像生成能力无关,但从任务完成角度来看,本次生成完全失败,无法满足用户的任何需求。 【GEMINI】由于模型在生成阶段触发了 HTTP 429 错误,导致任务未能执行,无法产出任何符合要求的图像结果,评测无法进行。 【KIMI】本次评测中,模型因HTTP 429错误(请求过于频繁)未能成功生成图像,导致所有评分维度均无法评估。该错误属于服务端限流问题,非模型生成能力问题,但从评测角度,输出结果完全未满足任务要求的所有功能点,包括六类化学仪器的写实渲染、玻璃光学效果、中文引线标注及光照构图等。建议在系统资源允许时重新发起评测请求。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...