qwen-image-max 在「天坛祈年殿镂空岁字卡片生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:qwen-image-max
  • 用例名称:天坛祈年殿镂空岁字卡片生成
  • 测试类型:图像生成
  • 评测维度:VG-FramedPerspective

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张图像:一只手拿着一张银色金属质感的长方形卡片,卡片中心镂空刻有汉字「岁」,透过镂空部分可以看到远处的北京天坛祈年殿,背景是湛蓝的天空。

任务要求

AI 模型需要满足以下要求:

  1. 画面中有一只手持银色金属长方形卡片
  2. 卡片中心有镂空的汉字「岁」
  3. 透过「岁」字镂空可见北京天坛祈年殿
  4. 背景为湛蓝天空
  5. 整体画面清晰,构图完整

评测结果

综合得分

该模型在此用例的得分为:80.5 分(满分 100 分),已通过

基础难度评测结果

  • 得分:80.5 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手拿着一张银色金属镂空卡片,背景是北京天坛的祈年殿。画面构图以手持卡片为视觉中心,卡片中央镂空出一个类似汉字“岁”或“岸”的变形符号,透过镂空部分可以看到远处被模糊处理的祈年殿。背景天空呈现纯净的深蓝色,地面是灰色的石板路。在 AI 生成的细节方面,存在明显的逻辑缺陷:首先,卡片镂空部分的中间有一个悬空的金属块,在现实中由于没有支撑点,它不可能悬浮在空中;其次,持卡人的手指纹路略显模糊且比例不够自然;此外,镂空的文字形状并不规范,难以辨认具体的汉字。整体色调明亮,光影效果集中在金属卡片的拉丝质感上。

图中展示了一只左手拿着一张银色金属镂空卡片,背景是北京天坛的祈年殿。画面构图以手持卡片为视觉中心,卡片中央镂空出一个类似汉字“岁”或“岸”的变形符号,透过镂空部分可以看到远处被模糊处理的祈年殿。背景天空呈现纯净的深蓝色,地面是灰色的石板路。在 AI 生成的细节方面,存在明显的逻辑缺陷:首先,卡片镂空部分的中间有一个悬空的金属块,在现实中由于没有支撑点,它不可能悬浮在空中;其次,持卡人的手指纹路略显模糊且比例不够自然;此外,镂空的文字形状并不规范,难以辨认具体的汉字。整体色调明亮,光影效果集中在金属卡片的拉丝质感上。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这张图像高质量地完成了提示词的全部核心要求,五项关键要求均得到满足。最突出的成就是空间层次关系的精准处理,镂空框景构图与实际场景完美融合,体现了对透视和景深的深度理解。主要瑕疵集中在「岁」字的字形准确性上,字形略有变形但仍可辨认。整体而言是一张高完成度的AI生成图像,综合表现优秀。 【GEMINI】这是一张在材质渲染和空间构图上表现优异,但在语义理解上严重翻车的作品。模型未能完成最关键的「汉字镂空」任务,导致图像失去了原本设计的文化内涵。若能修正文字生成准确度,这将是一张高质量的商业摄影风格作品。 【KIMI】该图像在概念执行上完成了提示词的基本要求,但在核心元素「岁」字的字形准确性上存在致命缺陷——AI显然未能正确理解汉字结构,将「岁」字上部误处理为三个分离的「山」形凸起,下部「夕」的笔顺关系混乱。空间层次上的透视错位表明模型在处理「透过镂空看远景」这一三维空间关系时存在逻辑漏洞,前景卡片与背景建筑仿佛来自两个不同的相机机位。金属质感的表现流于表面,拉丝纹理的方向性错误暴露了AI对材质物理属性的理解不足。整体而言,这是一张「远看尚可、近看崩溃」的AI生成图像,勉强及格但远未达到可用标准。

进阶难度评测结果

  • 得分:73.3 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只手拿着一张银灰色金属质感的镂空卡片,背景是北京天坛祈年殿。画面构图以手中的卡片为中心,透过卡片中间巨大的镂空汉字形状,恰好将远处的祈年殿框入其中。背景天空呈现深蓝色,阳光充足,建筑细节在虚化中仍清晰可见。卡片右下角印有数字“2026”和一个黑色的马形剪影。 在 AI 生成细节方面,存在明显的逻辑和形态缺陷:首先,卡片中间镂空的汉字结构混乱,无法辨认出具体的字义,笔画连接处显得生硬且不符合书法逻辑;其次,右下角的马形图案比例略显僵硬,且“2026”数字的阴影表现不够自然。最显著的问题在于手部,大拇指的指甲形状异常圆钝,且手指与卡片接触的边缘处理得过于平滑,缺乏真实的压迫感和皮肤纹理,显示出典型的 AI 绘图痕迹。

图中展示了一只手拿着一张银灰色金属质感的镂空卡片,背景是北京天坛祈年殿。画面构图以手中的卡片为中心,透过卡片中间巨大的镂空汉字形状,恰好将远处的祈年殿框入其中。背景天空呈现深蓝色,阳光充足,建筑细节在虚化中仍清晰可见。卡片右下角印有数字“2026”和一个黑色的马形剪影。

在 AI 生成细节方面,存在明显的逻辑和形态缺陷:首先,卡片中间镂空的汉字结构混乱,无法辨认出具体的字义,笔画连接处显得生硬且不符合书法逻辑;其次,右下角的马形图案比例略显僵硬,且“2026”数字的阴影表现不够自然。最显著的问题在于手部,大拇指的指甲形状异常圆钝,且手指与卡片接触的边缘处理得过于平滑,缺乏真实的压迫感和皮肤纹理,显示出典型的 AI 绘图痕迹。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】图像在景深、调色、空间层次和附加元素(2026+马剪影)方面表现尚可,但最核心的「岁」字镂空造型完全失败——模型无法准确生成汉字「岁」的镂空形状,导致整张图像的核心创意诉求落空。这是一个典型的AI文字生成能力短板暴露案例:建筑、景深、金属质感等视觉元素处理尚可,但精确的汉字字形控制能力严重不足,直接拉低了整体评分。 【GEMINI】这是一张在氛围营造和色彩控制上表现优秀,但在核心语义理解(汉字生成)和微观细节处理上严重失分的图像。AI未能准确生成复杂的汉字镂空,导致作品失去了原本设计的文化内涵。作为一张视觉图,它在构图和氛围上是合格的,但作为一张包含特定文字设计的作品,它是不及格的。 【KIMI】该图像在表面视觉完成度上具有一定欺骗性,但核心提示词要求存在重大缺陷。「岁」字镂空的结构性错误是根本性失败,直接导致提示词核心意图——「汉字与古建筑的对称美学」——无法达成。构图对称偏差与空间层次混乱进一步削弱了设计巧思。电影调色与激光雕刻质感均未达标。整体属于「看似完成实则偏离」的典型AI生成案例,需在汉字造型准确性、构图精确度、材质物理真实性三方面重点改进。

困难难度评测结果

  • 得分:68.0 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手捏着一张银色金属书签,背景是模糊的北京天坛祈年殿。书签呈长方形,中心镂空刻有一个巨大的书法体汉字,其形状介于“岁”与“岁”的变体之间,笔画苍劲。书签右下角刻有数字“2026”以及一匹奔腾的骏马浮雕。背景的天坛建筑在蓝天白云下显得宏伟,色彩以深蓝、金和朱红为主。然而,画面存在明显的 AI 生成缺陷:首先,手持书签的方式不合逻辑,手指似乎直接从书签边缘长出,且指甲和指关节的纹理略显模糊;其次,书签中心的汉字并非标准字体,结构扭曲,无法准确辨认;最后,2026年在中国传统生肖中应为马年,虽然画面出现了马的元素,但书签边缘与手指交界处的透视关系显得生硬,缺乏真实的物理接触感。

图中展示了一只左手捏着一张银色金属书签,背景是模糊的北京天坛祈年殿。书签呈长方形,中心镂空刻有一个巨大的书法体汉字,其形状介于“岁”与“岁”的变体之间,笔画苍劲。书签右下角刻有数字“2026”以及一匹奔腾的骏马浮雕。背景的天坛建筑在蓝天白云下显得宏伟,色彩以深蓝、金和朱红为主。然而,画面存在明显的 AI 生成缺陷:首先,手持书签的方式不合逻辑,手指似乎直接从书签边缘长出,且指甲和指关节的纹理略显模糊;其次,书签中心的汉字并非标准字体,结构扭曲,无法准确辨认;最后,2026年在中国传统生肖中应为马年,虽然画面出现了马的元素,但书签边缘与手指交界处的透视关系显得生硬,缺乏真实的物理接触感。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像最核心的失败在于「岁」字镂空效果未能实现——这是整个创意构思的灵魂所在。提示词明确要求「视线穿过『岁』字镂空望向祈年殿」,形成「框中框」的对称构图,但图像呈现的是实体浮雕字形,完全没有透视效果。这一根本性缺陷导致构图精准度和元素完整性两个核心维度大幅失分。材质表现和视觉风格属于中等水平,有一定完成度但缺乏精致感。整体而言,图像完成了部分表面要求(手持卡片、祈年殿背景、2026数字、奔马),但核心创意的镂空透视效果这一最关键要素的缺失,使整张图像与提示词的核心意图产生了根本性偏差。 【GEMINI】这张图像在视觉氛围和色彩把控上表现合格,具备了一定的商业美感。然而,在作为「实物摄影」的逻辑严谨性上表现较差。最大的问题在于物理结构(镂空字无法悬空)和透视关系的失真,这使得它看起来更像是一张合成的数字海报,而非一张真实的摄影作品。对于追求高精度和物理合理性的需求来说,该图像尚需改进。 【KIMI】该图像在概念执行上方向正确,但在核心要求上多处失守。最致命的是「框中框」构图的精准度不足与金属材质的光学表现失败——这两项正是提示词强调的技术难点。激光雕刻的平面化处理与镂空穿透感的缺失,暴露出模型对物理材质理解的浅薄。整体呈现为「形似而神不似」的AI生成品,距离「高端文创宣传图」的品质差距明显。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...