GLM-Image 在「广州塔镂空字卡片摄影生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-Image
用例名称：广州塔镂空字卡片摄影生成
测试类型：图像生成
评测维度：VG-FramedPerspective

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张第一人称视角的照片：一只手持着一张黑色卡片，卡片中心镂空刻有汉字「发」，透过镂空部分可以看到远处的广州塔（小蛮腰）。写实摄影风格。

任务要求

AI 模型需要满足以下要求：

画面呈现第一人称手持卡片的视角
卡片为黑色，中心有镂空汉字「发」
透过镂空部分可见广州塔（小蛮腰）轮廓
整体画面清晰，构图合理
写实摄影风格

评测结果

综合得分

该模型在此用例的得分为：58.0 分（满分 100 分），未通过

基础难度评测结果

得分：58.0 分
通过状态：未通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一只左手拿着一张黑色卡片的近景。卡片上有一个白色的镂空字符，背景是蓝天下的城市景观，远处隐约可见一座类似广州塔的高耸电视塔。画面整体色调明亮，前景的手部皮肤纹理清晰。然而，作为一张 AI 生成的图片，画面存在明显的逻辑错误和缺陷：首先，卡片上的白色字符是一个“错别字”，它看起来像是“爱”字或“复”字的变形，但笔画结构完全错误，不属于任何标准汉字。其次，手部结构异常，大拇指的指甲形状不自然，且食指与卡片接触的位置透视关系混乱，手指仿佛直接嵌入了卡片边缘。此外，背景中的电视塔虽然轮廓清晰，但塔身细节模糊且比例略显失调，右下角还带有明显的“AI生成”水印。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】这是一次失败的生成尝试。尽管模型识别了「手持卡片」和「广州塔」这两个核心元素，但在汉字书写、人体解剖结构以及空间透视逻辑上表现极差。尤其是汉字「发」的完全错误，使得该图像失去了作为「镂空文字卡片」这一核心创意点的意义。【KIMI】这是一张「概念正确、执行失败」的典型AI生成图像。模型理解了「手持黑卡+镂空文字+广州塔」的构图框架，却完全搞砸了最核心的空间透视关系——镂空处该透明时不透明，非镂空处反而透出背景，导致「透过发字看小蛮腰」的创意彻底落空。广州塔的标志性曲线被抹平为直柱，进一步削弱了地标辨识度。建议重新生成时严格校验镂空区域与背景建筑的空间对应关系，确保光学逻辑正确。

进阶难度评测结果

得分：67.9 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一双人手在黄昏或夜晚的城市背景前，平举着一张黑色纹理的矩形卡片。背景是模糊的城市夜景，灯火点点，远处隐约可见一座高耸的电视塔。卡片中心有一个巨大的灰色艺术字，其形状融合了汉字“发”的笔画与电视塔的轮廓，下方印有白色的年份数字“2026”。整体色调偏冷，以深蓝色和黑色为主，点缀着暖黄色的灯光。在 AI 生成的细节方面，存在明显的逻辑和结构缺陷：首先，卡片中心艺术字的笔画结构混乱，并非标准的汉字，看起来像是随机组合的符号；其次，手部细节处理不自然，左手大拇指的指甲形状略显畸形，且手指与卡片边缘的接触显得生硬。最明显的异常在于透视关系，背景中的电视塔顶端从卡片上方露出来，而卡片图案中的塔尖却与之并不完全对齐，给人一种视觉上的割裂感。此外，画面右下角标有“AI生成”字样。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】该图像在材质纹理和背景虚化处理上表现尚可，但在核心任务——文字生成与空间透视逻辑上表现糟糕。尤其是汉字镂空部分的生成完全偏离提示词，且透视比例的失调使得图像缺乏写实摄影的真实感，整体完成度较低。【KIMI】该图像在完成基础构图方面表现尚可，但在核心空间透视逻辑上出现致命失误——「双塔」错位直接破坏了提示词最关键的「透过镂空看到广州塔」的意图。双手持握与单手要求的偏差、碳纤维质感的平面化处理、以及科技感光效的缺失，共同导致图像未能达到写实摄影应有的精确性。作为第一人称视角的测试，空间关系的错误是原则性问题，严重拉低了整体完成度。

困难难度评测结果

得分：63.2 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一只右手正拿着一张黑色纹理卡片，背景是夜色下的城市江景。卡片中心有一个巨大的、由白色线条勾勒的异形符号，其中心透出紫色的光芒，下方印有橙色的数字「2026」和一个简笔动物图标。背景中，一座亮着紫色灯光的高塔（形似广州塔）矗立在画面中央，远处是模糊的城市建筑群和江面倒影，整体色调以深蓝、紫和黑为主。在 AI 生成的细节方面，存在明显的逻辑缺陷：卡片上的白色符号并非真实的汉字或已知文字，线条结构混乱且无意义；持卡的手部比例略显僵硬，大拇指与食指的捏握姿势与卡片的受力点不完全匹配；此外，背景高塔的塔尖部分与卡片边缘的遮挡关系处理得不够自然，呈现出一种生硬的叠加感。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】该图像在氛围营造和色彩控制上表现尚可，但在核心的「透视对齐」与「细节精准度」上表现较差。AI未能理解镂空透视的物理逻辑，导致画面失去了最重要的视觉交互点。同时，手部解剖结构的崩坏和汉字书写的乱码化，严重影响了作品的写实摄影质感。【KIMI】这是一张在核心创意执行上严重失败的AI生成图像。提示词最具挑战性的「镂空文字与地标透视对齐」要求被完全误解——模型似乎将「发」字理解为装饰性图案而非物理镂空，导致广州塔结构错误地出现在卡片下方而非穿透文字。碳纤维材质、荧光橙色、金属高光等细节要求均未准确还原。整体呈现出「构图框架正确但核心逻辑崩塌」的典型AI特征：能理解场景元素却无法整合正确的空间物理关系。建议评分区间：50-60分，属于「部分完成要求，有多处需要改进」的档次。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

相关链接

反馈评测问题