GLM-Image 在「高中生物反射弧结构示意图生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-Image
用例名称：高中生物反射弧结构示意图生成
测试类型：图像生成
评测维度：教材插图

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张高中生物教材风格的反射弧结构模式图。要求： - 图中需包含反射弧的五个组成部分：感受器、传入神经、神经中枢、传出神经、效应器 - 五个部分按照信号传导顺序从左到右依次排列 - 用箭头标明神经冲动的传导方向 - 每个部分附有准确的中文名称标注 - 整体画面清晰，线条简洁

任务要求

AI 模型需要满足以下要求：

图中包含感受器、传入神经、神经中枢、传出神经、效应器五个部分
五个部分按照正确的信号传导顺序排列
箭头方向正确，体现神经冲动的传导方向
每个部分均有准确的中文标注
整体画面清晰，结构完整

评测结果

综合得分

该模型在此用例的得分为：42.7 分（满分 100 分），未通过

基础难度评测结果

得分：42.7 分
通过状态：未通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一张关于生物学反射弧结构的示意图，背景为纯白色。画面中心是一个类似脊髓横切面的椭圆形结构，标注为“神经中枢”，内部绘有对称的脑回状线条。左侧是一个巨大的多分支神经元结构，标注为“感受器”；右侧则是较细长的分支结构，标注为“效应器”。画面中使用了红色和蓝色的箭头线段来表示神经冲动的传导方向。文字标注采用黑色简体中文，分布在图形四周。作为一张 AI 生成的图片，其科学准确性和逻辑存在明显缺陷：首先，文字标注存在逻辑错误，如底部同时出现了“背髓突”和重复的“神经中枢”标签，且指向不明；其次，解剖结构极其不规范，神经元的形态更像随机生长的树枝，缺乏真实的生物学特征；中间的“神经中枢”内部线条杂乱且无意义，并不符合脊髓灰质的蝴蝶形结构；此外，部分箭头线条穿插混乱，未能清晰表达反射弧的闭环路径，右下角的“效应器”文字与线条重叠，视觉引导较为模糊。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】这是一次失败的生成。虽然图像在视觉风格上模仿了教材插图，但在核心的生物学逻辑、术语准确性以及结构完整性上完全不合格。作为教学示意图，其包含的错误信息会严重误导学习者，完全无法达到高中生物教学的使用要求。【KIMI】该图像作为高中生物教材插图存在严重缺陷。核心问题在于结构逻辑的自相矛盾——双重标注破坏了反射弧的基本概念框架，箭头系统的颜色混乱和方向错误会误导学生对神经传导单向性的理解。尽管脊髓横截面的形态绘制尚可，但术语错误（「背膵突」）和标注重复问题使其完全不适合教学使用。建议重新设计布局，严格遵循「感受器→传入神经→神经中枢→传出神经→效应器」的单向线性结构，统一箭头颜色与方向，并校正专业术语。

进阶难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】本次任务中，模型因触发 HTTP 429 错误（请求频率限制或服务不可用）导致生成失败，未输出任何图像内容。因此，所有评估维度均无法达成，评分为 0 分。【KIMI】本次评测中，候选模型（zhipu/glm-image）因HTTP 429错误完全未能生成图像输出。该错误表明模型服务遭遇速率限制或资源不足，属于生成阶段的系统性故障，而非输出质量缺陷。由于没有任何可视化内容产出，所有评分维度均无法达标，建议检查模型服务状态或调整调用策略后重新测试。

困难难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】本次测试中，模型因触发限流机制（HTTP 429）导致生成任务失败，未能输出任何符合要求的图像内容，故所有维度均评为 0 分。【KIMI】本次评测中，模型因HTTP 429错误（请求过于频繁）导致图像生成完全失败，未输出任何有效内容。所有评分维度均得0分，属于典型的服务可用性问题而非生成质量问题。建议在系统层面优化请求频率控制或重试机制，以确保模型能够正常响应此类图像生成任务。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题