GLM-Image 在「布达拉宫镂空祥字卡片生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-Image
用例名称：布达拉宫镂空祥字卡片生成
测试类型：图像生成
评测维度：VG-FramedPerspective

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张写实摄影风格的图像：第一人称视角，一只手拿着一张藏青色纸质卡片，卡片中心镂空刻有汉字「祥」，透过镂空部分可以看到远处的布达拉宫，背景天空纯净湛蓝。电影级宽屏构图。

任务要求

AI 模型需要满足以下要求：

画面中有一只手持藏青色卡片，视角为第一人称
卡片中心有镂空汉字「祥」
透过镂空部分可见布达拉宫
背景天空纯净湛蓝
整体为写实摄影风格，画面清晰

评测结果

综合得分

该模型在此用例的得分为：66.7 分（满分 100 分），已通过

基础难度评测结果

得分：66.7 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一只手拿着一张深灰色的磨砂质感卡片，背景是宏伟的布达拉宫。卡片中心有一个矩形镂空窗口，透过窗口可以看到色彩鲜艳、构图完整的布达拉宫全景，而背景中的真实建筑则处于虚化模糊状态。卡片下方刻有一个巨大的汉字“祥”。整幅画面以蓝天为背景，色调明亮，呈现出一种“画中画”的艺术效果。然而，画面中存在明显的 AI 生成缺陷：首先，手持卡片的手指比例略显僵硬，指甲形状不够自然；其次，卡片上的镂空窗口边缘过于锐利，与透过的风景在透视上略有脱节，显得不够真实；最显著的错误在于卡片下方的“祥”字，其左侧的“示字旁”多了一横，变成了错误的字形。此外，背景中虚化的人物身影轮廓模糊且不完整，缺乏真实的肢体细节。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】图像在视觉质感上表现尚可，但在逻辑严谨性上存在明显短板。最核心的「镂空」需求未被正确理解，导致「祥」字变成了卡片上的装饰纹样而非镂空孔洞，极大削弱了作品的叙事逻辑。【KIMI】该图像在概念层面完成了「手持卡片框景布达拉宫」的基本叙事，但在执行层面暴露出AI生成图像的典型缺陷：物理逻辑让位于视觉拼凑。最核心的失败在于镂空内外的空间关系——模型似乎分别生成了两个不同视角的布达拉宫图像，然后强行拼接，导致「透过镂空看实景」这一核心创意沦为视觉谎言。色彩执行（藏青色→灰黑）与画幅要求（宽屏→标准）的偏离，进一步证明模型对提示词细节的服从度不足。作为「写实摄影」风格的宣称，其塑料质感的手部、不自然的景深与破坏性的AI水印，使这一宣称难以成立。

进阶难度评测结果

得分：62.0 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一只手在户外举着一本深蓝色封面的笔记本，背景是宏伟的布达拉宫。画面构图采用浅景深效果，前景的笔记本清晰可见，而远处的布达拉宫和广场则处于模糊状态。笔记本封面上有黑色镂空的艺术字体，下方印有金色的数字“2026”和一匹奔跑的小马图案。背景中的布达拉宫在蓝天映衬下显得庄严，红白相间的建筑错落有致。画面中存在明显的 AI 生成缺陷：首先，笔记本封面上的黑色艺术字体并非真实的汉字或藏文，而是扭曲且无意义的符号组合；其次，左侧托举笔记本的手部细节异常，手指的比例和关节连接处显得僵硬且不自然，指甲的形状也较为模糊。此外，背景中布达拉宫的窗户和建筑线条在放大后显得杂乱且不连贯，缺乏真实建筑的严谨结构。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】该图像在构图和背景还原上表现尚可，但在核心交互逻辑（镂空）和材质表现上存在明显缺陷。未能实现「透过镂空看建筑」的视觉效果，导致作品失去了预期的艺术表现力。手部细节和材质纹理的缺失进一步降低了写实摄影的真实感。【KIMI】该图像在核心创意执行上遭遇彻底失败。提示词最具特色的「镂空祥字框景布达拉宫」概念被完全曲解为「黑色实心字遮挡背景」，从交互式视觉设计降格为普通的平面印刷品展示。材质替换（纸→皮）进一步偏离手工质感诉求。模型似乎未能理解「镂空」这一关键空间指令，或将其误识为「黑色文字装饰」。整体呈现为一张平庸的旅游商品摆拍，与提示词要求的艺术性和空间巧思相去甚远。

困难难度评测结果

得分：62.5 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一只左手拿着一张蓝色正方形卡片，背景是宏伟的布达拉宫和连绵的群山。卡片质感粗糙，边缘有不规则的撕裂痕迹，中心镂空刻有一个复杂的汉字，下方印有金色的数字“2026”和一个微小的马形图案。背景中的布达拉宫红白相间，在明亮的蓝天和阳光下显得庄严肃穆。画面构图采用了前景特写与远景虚化相结合的方式，色彩以深蓝、砖红和天空蓝为主，整体氛围宁静。然而，作为一张 AI 生成的图片，画面中存在明显的逻辑错误。首先，卡片中心镂空的汉字结构混乱，并非现实中的有效文字，笔画扭曲且无法辨认。其次，手持卡片的姿势略显生硬，大拇指的纹路处理不够自然。此外，背景中布达拉宫的建筑细节与真实景观相比存在简化和变形，左下角的人影也显得模糊且比例失调。这些特征共同揭示了图片的 AI 生成属性。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】该图像在材质纹理的初步模拟上有所表现，但在核心逻辑（汉字结构、景深物理、光影交互）上表现欠佳。尤其是镂空汉字的崩坏和景深逻辑的完全错位，使其失去了写实摄影应有的真实感，更像是一张AI生成的拼贴画。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

相关链接

反馈评测问题