GLM-Image 在「布达拉宫镂空祥字卡片生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:GLM-Image
  • 用例名称:布达拉宫镂空祥字卡片生成
  • 测试类型:图像生成
  • 评测维度:VG-FramedPerspective

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张写实摄影风格的图像:第一人称视角,一只手拿着一张藏青色纸质卡片,卡片中心镂空刻有汉字「祥」,透过镂空部分可以看到远处的布达拉宫,背景天空纯净湛蓝。电影级宽屏构图。

任务要求

AI 模型需要满足以下要求:

  1. 画面中有一只手持藏青色卡片,视角为第一人称
  2. 卡片中心有镂空汉字「祥」
  3. 透过镂空部分可见布达拉宫
  4. 背景天空纯净湛蓝
  5. 整体为写实摄影风格,画面清晰

评测结果

综合得分

该模型在此用例的得分为:66.7 分(满分 100 分),已通过

基础难度评测结果

  • 得分:66.7 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只手拿着一张深灰色的磨砂质感卡片,背景是宏伟的布达拉宫。卡片中心有一个矩形镂空窗口,透过窗口可以看到色彩鲜艳、构图完整的布达拉宫全景,而背景中的真实建筑则处于虚化模糊状态。卡片下方刻有一个巨大的汉字“祥”。整幅画面以蓝天为背景,色调明亮,呈现出一种“画中画”的艺术效果。 然而,画面中存在明显的 AI 生成缺陷:首先,手持卡片的手指比例略显僵硬,指甲形状不够自然;其次,卡片上的镂空窗口边缘过于锐利,与透过的风景在透视上略有脱节,显得不够真实;最显著的错误在于卡片下方的“祥”字,其左侧的“示字旁”多了一横,变成了错误的字形。此外,背景中虚化的人物身影轮廓模糊且不完整,缺乏真实的肢体细节。

图中展示了一只手拿着一张深灰色的磨砂质感卡片,背景是宏伟的布达拉宫。卡片中心有一个矩形镂空窗口,透过窗口可以看到色彩鲜艳、构图完整的布达拉宫全景,而背景中的真实建筑则处于虚化模糊状态。卡片下方刻有一个巨大的汉字“祥”。整幅画面以蓝天为背景,色调明亮,呈现出一种“画中画”的艺术效果。

然而,画面中存在明显的 AI 生成缺陷:首先,手持卡片的手指比例略显僵硬,指甲形状不够自然;其次,卡片上的镂空窗口边缘过于锐利,与透过的风景在透视上略有脱节,显得不够真实;最显著的错误在于卡片下方的“祥”字,其左侧的“示字旁”多了一横,变成了错误的字形。此外,背景中虚化的人物身影轮廓模糊且不完整,缺乏真实的肢体细节。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】图像在视觉质感上表现尚可,但在逻辑严谨性上存在明显短板。最核心的「镂空」需求未被正确理解,导致「祥」字变成了卡片上的装饰纹样而非镂空孔洞,极大削弱了作品的叙事逻辑。 【KIMI】该图像在概念层面完成了「手持卡片框景布达拉宫」的基本叙事,但在执行层面暴露出AI生成图像的典型缺陷:物理逻辑让位于视觉拼凑。最核心的失败在于镂空内外的空间关系——模型似乎分别生成了两个不同视角的布达拉宫图像,然后强行拼接,导致「透过镂空看实景」这一核心创意沦为视觉谎言。色彩执行(藏青色→灰黑)与画幅要求(宽屏→标准)的偏离,进一步证明模型对提示词细节的服从度不足。作为「写实摄影」风格的宣称,其塑料质感的手部、不自然的景深与破坏性的AI水印,使这一宣称难以成立。

进阶难度评测结果

  • 得分:62.0 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只手在户外举着一本深蓝色封面的笔记本,背景是宏伟的布达拉宫。画面构图采用浅景深效果,前景的笔记本清晰可见,而远处的布达拉宫和广场则处于模糊状态。笔记本封面上有黑色镂空的艺术字体,下方印有金色的数字“2026”和一匹奔跑的小马图案。背景中的布达拉宫在蓝天映衬下显得庄严,红白相间的建筑错落有致。 画面中存在明显的 AI 生成缺陷:首先,笔记本封面上的黑色艺术字体并非真实的汉字或藏文,而是扭曲且无意义的符号组合;其次,左侧托举笔记本的手部细节异常,手指的比例和关节连接处显得僵硬且不自然,指甲的形状也较为模糊。此外,背景中布达拉宫的窗户和建筑线条在放大后显得杂乱且不连贯,缺乏真实建筑的严谨结构。

图中展示了一只手在户外举着一本深蓝色封面的笔记本,背景是宏伟的布达拉宫。画面构图采用浅景深效果,前景的笔记本清晰可见,而远处的布达拉宫和广场则处于模糊状态。笔记本封面上有黑色镂空的艺术字体,下方印有金色的数字“2026”和一匹奔跑的小马图案。背景中的布达拉宫在蓝天映衬下显得庄严,红白相间的建筑错落有致。

画面中存在明显的 AI 生成缺陷:首先,笔记本封面上的黑色艺术字体并非真实的汉字或藏文,而是扭曲且无意义的符号组合;其次,左侧托举笔记本的手部细节异常,手指的比例和关节连接处显得僵硬且不自然,指甲的形状也较为模糊。此外,背景中布达拉宫的窗户和建筑线条在放大后显得杂乱且不连贯,缺乏真实建筑的严谨结构。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】该图像在构图和背景还原上表现尚可,但在核心交互逻辑(镂空)和材质表现上存在明显缺陷。未能实现「透过镂空看建筑」的视觉效果,导致作品失去了预期的艺术表现力。手部细节和材质纹理的缺失进一步降低了写实摄影的真实感。 【KIMI】该图像在核心创意执行上遭遇彻底失败。提示词最具特色的「镂空祥字框景布达拉宫」概念被完全曲解为「黑色实心字遮挡背景」,从交互式视觉设计降格为普通的平面印刷品展示。材质替换(纸→皮)进一步偏离手工质感诉求。模型似乎未能理解「镂空」这一关键空间指令,或将其误识为「黑色文字装饰」。整体呈现为一张平庸的旅游商品摆拍,与提示词要求的艺术性和空间巧思相去甚远。

困难难度评测结果

  • 得分:62.5 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手拿着一张蓝色正方形卡片,背景是宏伟的布达拉宫和连绵的群山。卡片质感粗糙,边缘有不规则的撕裂痕迹,中心镂空刻有一个复杂的汉字,下方印有金色的数字“2026”和一个微小的马形图案。背景中的布达拉宫红白相间,在明亮的蓝天和阳光下显得庄严肃穆。画面构图采用了前景特写与远景虚化相结合的方式,色彩以深蓝、砖红和天空蓝为主,整体氛围宁静。 然而,作为一张 AI 生成的图片,画面中存在明显的逻辑错误。首先,卡片中心镂空的汉字结构混乱,并非现实中的有效文字,笔画扭曲且无法辨认。其次,手持卡片的姿势略显生硬,大拇指的纹路处理不够自然。此外,背景中布达拉宫的建筑细节与真实景观相比存在简化和变形,左下角的人影也显得模糊且比例失调。这些特征共同揭示了图片的 AI 生成属性。

图中展示了一只左手拿着一张蓝色正方形卡片,背景是宏伟的布达拉宫和连绵的群山。卡片质感粗糙,边缘有不规则的撕裂痕迹,中心镂空刻有一个复杂的汉字,下方印有金色的数字“2026”和一个微小的马形图案。背景中的布达拉宫红白相间,在明亮的蓝天和阳光下显得庄严肃穆。画面构图采用了前景特写与远景虚化相结合的方式,色彩以深蓝、砖红和天空蓝为主,整体氛围宁静。

然而,作为一张 AI 生成的图片,画面中存在明显的逻辑错误。首先,卡片中心镂空的汉字结构混乱,并非现实中的有效文字,笔画扭曲且无法辨认。其次,手持卡片的姿势略显生硬,大拇指的纹路处理不够自然。此外,背景中布达拉宫的建筑细节与真实景观相比存在简化和变形,左下角的人影也显得模糊且比例失调。这些特征共同揭示了图片的 AI 生成属性。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】该图像在材质纹理的初步模拟上有所表现,但在核心逻辑(汉字结构、景深物理、光影交互)上表现欠佳。尤其是镂空汉字的崩坏和景深逻辑的完全错位,使其失去了写实摄影应有的真实感,更像是一张AI生成的拼贴画。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...