GLM-Image 在「初中化学实验室仪器组合图生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-Image
用例名称：初中化学实验室仪器组合图生成
测试类型：图像生成
评测维度：教材插图

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张初中化学实验室桌面场景图。桌面上整齐排列以下仪器： - 烧杯 - 试管架（含若干试管） - 酒精灯 - 量筒 - 漏斗要求： - 每件仪器下方或侧面标注对应的中文名称 - 玻璃仪器体现基本的透明质感 - 画面整洁，仪器排列有序

任务要求

AI 模型需要满足以下要求：

画面中包含烧杯、试管架（含试管）、酒精灯、量筒、漏斗，共五类仪器
每件仪器均有对应的中文名称标注
玻璃仪器具备基本透明感，可与非玻璃仪器区分
仪器造型基本准确，可辨识
整体画面整洁，仪器排列有序

评测结果

综合得分

该模型在此用例的得分为：— 分（满分 100 分），未通过

基础难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本次评测中，模型因 HTTP 429（请求频率超限）错误未能生成任何图像，候选输出为纯粹的系统报错信息，与任务要求完全不符。所有评分维度均为 0 分。建议排查 API 调用频率限制问题后重新提交测试。【GEMINI】本次测试中，模型因触发 HTTP 429 错误导致生成失败，未能输出任何符合要求的图像内容。因此，各项指标均无法达成，评分为 0 分。【KIMI】本次评测中，候选模型在生成阶段遭遇 HTTP 429 错误（请求过于频繁），导致完全未输出图像。根据 EVAL_BLOB 中的 candidate_output 明确显示「系统报错」，此情况属于模型服务层面的失败，而非图像质量缺陷。依据评分标准，所有维度均因「无输出」而获得 0 分。建议复测以获取有效的图像生成结果进行质量评估。

进阶难度评测结果

得分：64.0 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一个木质桌面上的化学实验场景，摆放着多种装有彩色液体的玻璃仪器。画面左侧有盛放蓝色和绿色液体的锥形瓶及烧杯，中间是两个试管架，分别插着装有蓝、橙、红色液体的试管。右侧立着一个量筒，旁边有一盏点燃的酒精灯。画面中带有明显的中文标注，但存在严重的逻辑错误：标注为“烧杯”的指示线分别指向了空木架和试管，标注为“漏斗”的线指向了金属支架，而标注为“量筒”和“试管架”的位置虽然大致正确，但整体文字引导极具误导性。作为 AI 生成图像，其缺陷非常明显：玻璃仪器的透视关系混乱，例如量筒底座与桌面接触面不自然；酒精灯的火焰缺乏真实的光影投射；最严重的是标注文字与实际物体完全张冠李戴，无法作为科普参考。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像基本呈现了初中化学实验室桌面场景，玻璃仪器的透明感和液体颜色表现较好，构图角度符合要求。但存在几个关键性问题：最严重的是仪器名称标注错误，将锥形瓶标注为「烧杯」，这是化学仪器识别的基础性错误；其次试管数量不足（3支而非4支）；量筒刻度数字不可读；酒精灯光影效果不足。综合来看，图像在视觉质量上有一定水准，但在提示词核心要求的准确性上存在明显缺陷。【GEMINI】这是一次失败的图像生成任务。模型虽然在视觉风格上模拟了实验室场景，但在核心任务——「仪器识别」与「准确标注」上出现了严重的逻辑错误。将试管架标注为烧杯，将立柱标注为漏斗，显示出模型对化学仪器缺乏基本的语义理解能力，无法满足专业场景的准确性要求。【KIMI】该图像在基础视觉呈现上具有一定完成度，但作为「初中化学实验室仪器标注图」严重失职。核心问题在于仪器识别与标注的系统性错误——漏斗缺失、烧杯标注错位、量筒刻度不可读，这些对于教育用途是致命缺陷。AI在理解「漏斗」这一特定仪器形态上完全失败，将铁架台误判为漏斗；在量筒刻度这一细节要求上，以模糊阴影敷衍了事。液体物理表现（无弯月面）和光影效果（火焰无环境影响）进一步暴露物理模拟的粗糙。综合判定为「部分完成要求，有多处需要改进」，不建议作为教学材料使用。

困难难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本次评测中，模型因HTTP 429错误（请求频率超限或服务不可用）未能生成任何图像内容，候选输出仅为系统报错信息。所有评分维度均无法得到满足，各维度得分均为0。这属于服务层面的失败，与模型本身的图像生成能力无关，但从任务完成角度来看，本次生成完全失败，无法满足用户的任何需求。【GEMINI】由于模型在生成阶段触发了 HTTP 429 错误，导致任务未能执行，无法产出任何符合要求的图像结果，评测无法进行。【KIMI】本次评测中，模型因HTTP 429错误（请求过于频繁）未能成功生成图像，导致所有评分维度均无法评估。该错误属于服务端限流问题，非模型生成能力问题，但从评测角度，输出结果完全未满足任务要求的所有功能点，包括六类化学仪器的写实渲染、玻璃光学效果、中文引线标注及光照构图等。建议在系统资源允许时重新发起评测请求。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题