GLM-Image 在「广州塔镂空字卡片摄影生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:GLM-Image
  • 用例名称:广州塔镂空字卡片摄影生成
  • 测试类型:图像生成
  • 评测维度:VG-FramedPerspective

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张第一人称视角的照片:一只手持着一张黑色卡片,卡片中心镂空刻有汉字「发」,透过镂空部分可以看到远处的广州塔(小蛮腰)。写实摄影风格。

任务要求

AI 模型需要满足以下要求:

  1. 画面呈现第一人称手持卡片的视角
  2. 卡片为黑色,中心有镂空汉字「发」
  3. 透过镂空部分可见广州塔(小蛮腰)轮廓
  4. 整体画面清晰,构图合理
  5. 写实摄影风格

评测结果

综合得分

该模型在此用例的得分为:58.0 分(满分 100 分),未通过

基础难度评测结果

  • 得分:58.0 分
  • 通过状态:未通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手拿着一张黑色卡片的近景。卡片上有一个白色的镂空字符,背景是蓝天下的城市景观,远处隐约可见一座类似广州塔的高耸电视塔。画面整体色调明亮,前景的手部皮肤纹理清晰。然而,作为一张 AI 生成的图片,画面存在明显的逻辑错误和缺陷:首先,卡片上的白色字符是一个“错别字”,它看起来像是“爱”字或“复”字的变形,但笔画结构完全错误,不属于任何标准汉字。其次,手部结构异常,大拇指的指甲形状不自然,且食指与卡片接触的位置透视关系混乱,手指仿佛直接嵌入了卡片边缘。此外,背景中的电视塔虽然轮廓清晰,但塔身细节模糊且比例略显失调,右下角还带有明显的“AI生成”水印。

图中展示了一只左手拿着一张黑色卡片的近景。卡片上有一个白色的镂空字符,背景是蓝天下的城市景观,远处隐约可见一座类似广州塔的高耸电视塔。画面整体色调明亮,前景的手部皮肤纹理清晰。然而,作为一张 AI 生成的图片,画面存在明显的逻辑错误和缺陷:首先,卡片上的白色字符是一个“错别字”,它看起来像是“爱”字或“复”字的变形,但笔画结构完全错误,不属于任何标准汉字。其次,手部结构异常,大拇指的指甲形状不自然,且食指与卡片接触的位置透视关系混乱,手指仿佛直接嵌入了卡片边缘。此外,背景中的电视塔虽然轮廓清晰,但塔身细节模糊且比例略显失调,右下角还带有明显的“AI生成”水印。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】这是一次失败的生成尝试。尽管模型识别了「手持卡片」和「广州塔」这两个核心元素,但在汉字书写、人体解剖结构以及空间透视逻辑上表现极差。尤其是汉字「发」的完全错误,使得该图像失去了作为「镂空文字卡片」这一核心创意点的意义。 【KIMI】这是一张「概念正确、执行失败」的典型AI生成图像。模型理解了「手持黑卡+镂空文字+广州塔」的构图框架,却完全搞砸了最核心的空间透视关系——镂空处该透明时不透明,非镂空处反而透出背景,导致「透过发字看小蛮腰」的创意彻底落空。广州塔的标志性曲线被抹平为直柱,进一步削弱了地标辨识度。建议重新生成时严格校验镂空区域与背景建筑的空间对应关系,确保光学逻辑正确。

进阶难度评测结果

  • 得分:67.9 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一双人手在黄昏或夜晚的城市背景前,平举着一张黑色纹理的矩形卡片。背景是模糊的城市夜景,灯火点点,远处隐约可见一座高耸的电视塔。卡片中心有一个巨大的灰色艺术字,其形状融合了汉字“发”的笔画与电视塔的轮廓,下方印有白色的年份数字“2026”。整体色调偏冷,以深蓝色和黑色为主,点缀着暖黄色的灯光。 在 AI 生成的细节方面,存在明显的逻辑和结构缺陷:首先,卡片中心艺术字的笔画结构混乱,并非标准的汉字,看起来像是随机组合的符号;其次,手部细节处理不自然,左手大拇指的指甲形状略显畸形,且手指与卡片边缘的接触显得生硬。最明显的异常在于透视关系,背景中的电视塔顶端从卡片上方露出来,而卡片图案中的塔尖却与之并不完全对齐,给人一种视觉上的割裂感。此外,画面右下角标有“AI生成”字样。

图中展示了一双人手在黄昏或夜晚的城市背景前,平举着一张黑色纹理的矩形卡片。背景是模糊的城市夜景,灯火点点,远处隐约可见一座高耸的电视塔。卡片中心有一个巨大的灰色艺术字,其形状融合了汉字“发”的笔画与电视塔的轮廓,下方印有白色的年份数字“2026”。整体色调偏冷,以深蓝色和黑色为主,点缀着暖黄色的灯光。

在 AI 生成的细节方面,存在明显的逻辑和结构缺陷:首先,卡片中心艺术字的笔画结构混乱,并非标准的汉字,看起来像是随机组合的符号;其次,手部细节处理不自然,左手大拇指的指甲形状略显畸形,且手指与卡片边缘的接触显得生硬。最明显的异常在于透视关系,背景中的电视塔顶端从卡片上方露出来,而卡片图案中的塔尖却与之并不完全对齐,给人一种视觉上的割裂感。此外,画面右下角标有“AI生成”字样。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】该图像在材质纹理和背景虚化处理上表现尚可,但在核心任务——文字生成与空间透视逻辑上表现糟糕。尤其是汉字镂空部分的生成完全偏离提示词,且透视比例的失调使得图像缺乏写实摄影的真实感,整体完成度较低。 【KIMI】该图像在完成基础构图方面表现尚可,但在核心空间透视逻辑上出现致命失误——「双塔」错位直接破坏了提示词最关键的「透过镂空看到广州塔」的意图。双手持握与单手要求的偏差、碳纤维质感的平面化处理、以及科技感光效的缺失,共同导致图像未能达到写实摄影应有的精确性。作为第一人称视角的测试,空间关系的错误是原则性问题,严重拉低了整体完成度。

困难难度评测结果

  • 得分:63.2 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只右手正拿着一张黑色纹理卡片,背景是夜色下的城市江景。卡片中心有一个巨大的、由白色线条勾勒的异形符号,其中心透出紫色的光芒,下方印有橙色的数字「2026」和一个简笔动物图标。背景中,一座亮着紫色灯光的高塔(形似广州塔)矗立在画面中央,远处是模糊的城市建筑群和江面倒影,整体色调以深蓝、紫和黑为主。在 AI 生成的细节方面,存在明显的逻辑缺陷:卡片上的白色符号并非真实的汉字或已知文字,线条结构混乱且无意义;持卡的手部比例略显僵硬,大拇指与食指的捏握姿势与卡片的受力点不完全匹配;此外,背景高塔的塔尖部分与卡片边缘的遮挡关系处理得不够自然,呈现出一种生硬的叠加感。

图中展示了一只右手正拿着一张黑色纹理卡片,背景是夜色下的城市江景。卡片中心有一个巨大的、由白色线条勾勒的异形符号,其中心透出紫色的光芒,下方印有橙色的数字「2026」和一个简笔动物图标。背景中,一座亮着紫色灯光的高塔(形似广州塔)矗立在画面中央,远处是模糊的城市建筑群和江面倒影,整体色调以深蓝、紫和黑为主。在 AI 生成的细节方面,存在明显的逻辑缺陷:卡片上的白色符号并非真实的汉字或已知文字,线条结构混乱且无意义;持卡的手部比例略显僵硬,大拇指与食指的捏握姿势与卡片的受力点不完全匹配;此外,背景高塔的塔尖部分与卡片边缘的遮挡关系处理得不够自然,呈现出一种生硬的叠加感。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】该图像在氛围营造和色彩控制上表现尚可,但在核心的「透视对齐」与「细节精准度」上表现较差。AI未能理解镂空透视的物理逻辑,导致画面失去了最重要的视觉交互点。同时,手部解剖结构的崩坏和汉字书写的乱码化,严重影响了作品的写实摄影质感。 【KIMI】这是一张在核心创意执行上严重失败的AI生成图像。提示词最具挑战性的「镂空文字与地标透视对齐」要求被完全误解——模型似乎将「发」字理解为装饰性图案而非物理镂空,导致广州塔结构错误地出现在卡片下方而非穿透文字。碳纤维材质、荧光橙色、金属高光等细节要求均未准确还原。整体呈现出「构图框架正确但核心逻辑崩塌」的典型AI特征:能理解场景元素却无法整合正确的空间物理关系。建议评分区间:50-60分,属于「部分完成要求,有多处需要改进」的档次。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...