GLM-Image 在「大理洱海苍山镂空顺字卡片生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-Image
用例名称：大理洱海苍山镂空顺字卡片生成
测试类型：图像生成
评测维度：VG-FramedPerspective

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张写实摄影风格的图像：第一人称视角，一只手拿着一张淡蓝色卡片，卡片中心镂空刻有汉字「顺」，透过镂空部分可以看到远处的洱海湖面与苍山。背景阳光明媚，清新风格。

任务要求

AI 模型需要满足以下要求：

画面呈现第一人称视角，可见持卡的手
卡片为淡蓝色，中心有镂空汉字「顺」
透过镂空部分能看到洱海湖面与苍山
整体画面清晰，光线明亮，风格清新写实

评测结果

综合得分

该模型在此用例的得分为：59.9 分（满分 100 分），未通过

基础难度评测结果

得分：59.9 分
通过状态：未通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一幅在户外自然美景中拍摄的特写画面。一只左手出现在画面左下方，正捏着一张正方形的蓝色卡片，卡片中心印有一个醒目的白色简体中文字“顺”。背景是一片宁静的湖泊，湖水呈深蓝色，泛着细碎的波纹，远方是连绵起伏的土褐色山脉，天空晴朗，飘着几朵轻薄的白云。整体色调清新自然，光影明亮。在 AI 生成的细节方面，存在明显的逻辑缺陷：画面左下角的手部结构异常，大拇指的指甲形状不自然，且在卡片边缘下方多出了一个无法解释的指尖或肉块，手指的关节连接处也显得有些僵硬。此外，卡片在手上的受力点与手指的抓握姿势不完全匹配，呈现出一种轻微的悬浮感。右下角标注有“AI生成”的字样。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】该图像在构图和色彩上达到了初步要求，但作为一张强调「镂空透视」的摄影风格图像，模型未能理解物理空间关系，将「镂空」处理成了「印刷」，导致核心创意完全失效。此外，手部细节的崩坏进一步拉低了写实感。【KIMI】这是一次典型的「关键词误解」失败案例。模型将「镂空刻有」理解为「表面印有」，导致核心创意——透过汉字镂空窥见山水——完全丧失。尽管画面整体视觉质量尚可，但在最关键的概念执行上彻底偏离，使得图像与提示词意图产生本质性错位。对于测试「镂空透视」能力的任务而言，这是不可接受的失败。

进阶难度评测结果

得分：70.8 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

画面中，一只手在波光粼粼的湖泊前举起一本浅灰色的笔记本。背景是湛蓝的湖水、远处的连绵山脉和晴朗的天空，阳光在水面上洒下细碎的金色光斑。笔记本封面具有布艺质感，中心印有一个巨大的、带有凹陷效果的汉字「顺」，右下角印有一匹马的剪影和年份「2026」。构图简洁，色调清新自然，给人一种宁静致远的感觉。作为一张 AI 生成的图片，画面存在几处明显的逻辑缺陷：首先，封面上的汉字「顺」结构异常，左侧的「川」字部首被简化成了一个奇怪的长条形钩状物，不符合标准字形；其次，手部持握笔记本的姿势略显生硬，大拇指的比例和关节转折不够自然；此外，右侧强烈的阳光照射在笔记本边缘，产生了一道过于笔直且突兀的白色光束，与周围环境的光影衔接略显失真。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】这是一张在材质表现上表现尚可，但在核心逻辑（镂空透视）和细节处理（手部解剖）上严重失分的 AI 生成图像。模型未能理解「镂空」在物理空间中的透视关系，导致画面失去了预期的交互感，手部结构的崩坏也极大地影响了写实摄影的真实性。【KIMI】本图在场景氛围与背景渲染上表现尚可，但核心创意——镂空汉字的透视穿透效果——完全失败。「顺」字为实心结构，与提示词要求的「镂空」「透过镂空看到洱海」存在根本性偏差。这属于对提示词关键指令的理解错误或执行失败，导致图像在核心创意维度上无法满足用户需求。材质与手部细节亦有瑕疵，但相较于镂空透视的完全缺失，属次要问题。

困难难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=zhipu; model=glm-image）：HTTP 429

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】本次测试中，模型在生成阶段触发了系统报错（HTTP 429，请求过于频繁），导致未能生成任何图像结果。因此，所有评估维度均无法进行有效评分，评测结果为无效。【KIMI】该候选输出为系统报错信息（HTTP 429，请求频率超限），模型未完成图像生成任务，未返回任何可视内容。所有评分维度均无法评估，得分为0。此错误属于服务端/调用层面的技术故障，非模型生成能力问题，但在评测框架下按无有效输出处理。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题