GLM-Image 在「高中物理横波波形图生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:GLM-Image
  • 用例名称:高中物理横波波形图生成
  • 测试类型:图像生成
  • 评测维度:教材插图

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张正弦横波波形图。 要求: - 横轴为位移x,纵轴为振幅y - 图中标出波长λ和振幅A - 用中文标注「波峰」和「波谷」 - 画面清晰,坐标轴有箭头和标签

任务要求

AI 模型需要满足以下要求:

  1. 图像中有完整的正弦波形(至少一个完整周期)
  2. 横轴标注为「x」,纵轴标注为「y」,坐标轴有方向箭头
  3. 图中标出波长λ(如双向箭头标注一个完整周期的长度)
  4. 图中标出振幅A(如从平衡位置到波峰的距离)
  5. 波峰处有中文标注「波峰」,波谷处有中文标注「波谷」

评测结果

综合得分

该模型在此用例的得分为:49.3 分(满分 100 分),未通过

基础难度评测结果

  • 得分:49.3 分
  • 通过状态:未通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一张试图解释波形物理概念的示意图,背景为纯浅灰色。画面中央有一条黑色的正弦曲线,横跨在由虚线组成的水平 X 轴和实线组成的垂直 Y 轴上。图中包含多处中文标注和箭头指示。然而,这张 AI 生成的图片存在严重的逻辑和文字错误:首先,右上角的文字将“振幅”错误地写成了“梗幅”;其次,顶部的“波峰”标注配合了一个双向箭头,但箭头指向的是波峰两侧的弧段,而非最高点;底部的“波谷”标注同样位置偏移,且左侧出现了一个含义不明的数字“2”及其双向箭头,并未准确对应波长或周期。此外,Y 轴的负半轴出现了多余的虚线重叠,整体构图虽简洁,但由于 AI 对物理专业术语和几何对应关系的理解偏差,导致图中的科学信息完全错误,无法作为教学参考。

图中展示了一张试图解释波形物理概念的示意图,背景为纯浅灰色。画面中央有一条黑色的正弦曲线,横跨在由虚线组成的水平 X 轴和实线组成的垂直 Y 轴上。图中包含多处中文标注和箭头指示。然而,这张 AI 生成的图片存在严重的逻辑和文字错误:首先,右上角的文字将“振幅”错误地写成了“梗幅”;其次,顶部的“波峰”标注配合了一个双向箭头,但箭头指向的是波峰两侧的弧段,而非最高点;底部的“波谷”标注同样位置偏移,且左侧出现了一个含义不明的数字“2”及其双向箭头,并未准确对应波长或周期。此外,Y 轴的负半轴出现了多余的虚线重叠,整体构图虽简洁,但由于 AI 对物理专业术语和几何对应关系的理解偏差,导致图中的科学信息完全错误,无法作为教学参考。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】这是一次极其失败的生成。模型不仅未能理解物理图表的严谨性要求,还在文字生成上出现了明显的幻觉(将振幅写成梗幅),且完全忽略了波长标注这一关键指令。作为科学示意图,该图像完全不可用。 【KIMI】该图像在基础坐标系构建上达标,但在核心物理量标注上出现严重失误:「挭幅」错字直接暴露AI文字生成缺陷,波长λ的完全缺失使图示失去关键物理意义。波形末端的断裂处理显示生成逻辑对周期完整性的理解不足。整体属于「部分完成要求,有多处需要改进」的层级,物理量标注维度扣分最重。

进阶难度评测结果

  • 得分:— 分
  • 通过状态:未通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

系统报错(阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image):HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】模型在生成过程中出现「HTTP 429」错误,导致任务未能完成,无法生成符合要求的正弦横波波形图,因此各维度均评为 0 分。 【KIMI】该候选输出为系统报错信息(HTTP 429,请求过于频繁),而非实际的图像生成结果。模型完全未能完成用户要求的正弦横波波形图生成任务,所有评分维度均无法评估,得分为0。这是一个服务层面的错误,而非生成质量层面的问题。

困难难度评测结果

  • 得分:— 分
  • 通过状态:未通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

系统报错(阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image):HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】由于模型在生成过程中触发了系统错误(HTTP 429),未能输出任何图像内容,因此所有维度均无法完成评估,评测结果为无效。 【KIMI】本次评测中,模型因HTTP 429错误(请求过于频繁)完全未能生成图像输出。这是一个服务层面的故障,而非生成质量不足。所有评分维度均无法评估,得分为0。建议在系统负载降低后重新测试该用例。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...