Google: Nano Banana Pro (Gemini 3 Pro Image Preview) 在「天坛祈年殿镂空岁字卡片生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:Google: Nano Banana Pro (Gemini 3 Pro Image Preview)
  • 用例名称:天坛祈年殿镂空岁字卡片生成
  • 测试类型:图像生成
  • 评测维度:VG-FramedPerspective

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张图像:一只手拿着一张银色金属质感的长方形卡片,卡片中心镂空刻有汉字「岁」,透过镂空部分可以看到远处的北京天坛祈年殿,背景是湛蓝的天空。

任务要求

AI 模型需要满足以下要求:

  1. 画面中有一只手持银色金属长方形卡片
  2. 卡片中心有镂空的汉字「岁」
  3. 透过「岁」字镂空可见北京天坛祈年殿
  4. 背景为湛蓝天空
  5. 整体画面清晰,构图完整

评测结果

综合得分

该模型在此用例的得分为:74.7 分(满分 100 分),已通过

基础难度评测结果

  • 得分:74.7 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手拿着一张长方形金属镂空卡片,背景是晴朗蓝天下的一处中式古建筑广场。金属卡片占据画面中心,上面镂空刻着一个简体中文字“岁”,字的两侧带有直角括号。透过镂空的文字,可以看到远处模糊的天坛祈年殿顶端。背景的广场地面平坦,透视向远方延伸,右侧有一排红色的矮墙。 画面中存在明显的 AI 生成缺陷:首先是手部结构异常,大拇指的生长位置和角度显得非常生硬,且食指与中指的关节连接处缺乏自然的肌肉纹理,看起来有些扭曲。其次,金属卡片上的镂空文字“岁”存在物理逻辑错误,字体的中间部分(如“夕”部的内部)在现实中应该是悬空的,但在图中却没有任何连接点就能漂浮在金属框内。此外,背景中的古建筑细节模糊且结构不严谨,呈现出一种不自然的涂抹感。

图中展示了一只左手拿着一张长方形金属镂空卡片,背景是晴朗蓝天下的一处中式古建筑广场。金属卡片占据画面中心,上面镂空刻着一个简体中文字“岁”,字的两侧带有直角括号。透过镂空的文字,可以看到远处模糊的天坛祈年殿顶端。背景的广场地面平坦,透视向远方延伸,右侧有一排红色的矮墙。

画面中存在明显的 AI 生成缺陷:首先是手部结构异常,大拇指的生长位置和角度显得非常生硬,且食指与中指的关节连接处缺乏自然的肌肉纹理,看起来有些扭曲。其次,金属卡片上的镂空文字“岁”存在物理逻辑错误,字体的中间部分(如“夕”部的内部)在现实中应该是悬空的,但在图中却没有任何连接点就能漂浮在金属框内。此外,背景中的古建筑细节模糊且结构不严谨,呈现出一种不自然的涂抹感。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在材质表现和空间层次上完成度较高,金属卡片的质感尤为出色。然而,提示词中最核心的两个要素均告失败:镂空汉字被错误生成为「夢」而非「岁」,透过镂空可见的建筑也非天坛祈年殿。这两处失误直接导致图像偏离了提示词的核心意图——「岁」字与祈年殿的文化意象组合完全缺失,整体评价属于「部分完成」级别。 【GEMINI】这是一张典型的「AI绘画在处理复杂汉字结构时翻车」的案例。虽然模型在空间构图和基础材质渲染上表现合格,但作为核心视觉焦点的「岁」字完全丧失了文字属性,导致作品在语义传达上失败。对于需要精确文字呈现的设计需求,该模型目前表现尚不达标。 【KIMI】该图像完成了提示词的基础框架要求,但在核心元素「岁」字的结构准确性和祈年殿的识别性上存在明显缺陷。AI 模型在处理汉字异形镂空与背景建筑的透视融合时表现出技术瓶颈——字形结构错误和建筑特征丢失是两大硬伤。材质表现达到可用水准,但整体属于「概念成立、执行打折」的典型案例,未能达到精密合成图像的标准。

进阶难度评测结果

  • 得分:78.3 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

画面中,一只左手的大拇指和食指捏着一张银色金属质感的镂空卡片。卡片中心镂空出一个变形的汉字,透过镂空处可以看到背景中模糊的天坛祈年殿。卡片下方刻有数字“2026”和一匹奔马的剪影。背景是晴朗的蓝天和空旷的广场。在 AI 生成的细节方面,存在明显的逻辑错误:首先,手部结构异常,食指显得过长且关节连接僵硬,手掌皮肤纹理在某些部位过于模糊或扭曲;其次,卡片上的镂空汉字并非标准字体,结构支离破碎,难以辨认具体含义;最显著的错误是,2026 年在农历中应为马年,但卡片上的数字与生肖马的组合与现实年份不符(2026 年实为马年,此处逻辑正确,但金属卡片边缘与手指接触的透视略显生硬)。此外,背景天坛的轮廓在镂空边缘处有轻微的像素溢出和重影。

画面中,一只左手的大拇指和食指捏着一张银色金属质感的镂空卡片。卡片中心镂空出一个变形的汉字,透过镂空处可以看到背景中模糊的天坛祈年殿。卡片下方刻有数字“2026”和一匹奔马的剪影。背景是晴朗的蓝天和空旷的广场。在 AI 生成的细节方面,存在明显的逻辑错误:首先,手部结构异常,食指显得过长且关节连接僵硬,手掌皮肤纹理在某些部位过于模糊或扭曲;其次,卡片上的镂空汉字并非标准字体,结构支离破碎,难以辨认具体含义;最显著的错误是,2026 年在农历中应为马年,但卡片上的数字与生肖马的组合与现实年份不符(2026 年实为马年,此处逻辑正确,但金属卡片边缘与手指接触的透视略显生硬)。此外,背景天坛的轮廓在镂空边缘处有轻微的像素溢出和重影。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这张图像在视觉质量层面表现相当出色,电影调色、景深控制和金属材质细节均达到较高水准,整体观感精致大气。然而在提示词核心要求的精准执行上存在两处明显短板:其一是镂空文字「岁」的字形辨识度不足,艺术变形过度导致汉字特征丧失;其二是祈年殿与镂空的对称居中关系未能精准实现。这两点恰好是提示词着重考察的「岁字异形镂空与古建筑对称美学」,属于核心失分项。综合来看,图像的视觉表现力强,但对提示词关键语义的精准还原有待提升。 【GEMINI】这张图像在氛围营造和摄影质感上表现优秀,但在核心的汉字结构处理上出现了严重的AI幻觉。作为一张以汉字镂空为核心卖点的图片,汉字结构的崩坏是致命的缺陷。如果能修正镂空部分的几何结构,这将是一张高质量的作品。 【KIMI】该图像在完成「手持金属卡片框景古建筑」的核心创意上达到及格水平,但作为测试「岁」字异形镂空与古建筑对称美学的专项任务,其在汉字结构准确性、建筑构图精度、材质工艺真实性三个关键维度均存在不可忽视的缺陷。模型对中文字形结构的语义理解明显弱于对西方字母的处理,「岁」字的变形并非随机误差而是系统性结构误判。电影级调色的要求被简化为「冷色调+高对比度」,缺乏真正的色彩科学与胶片质感。综合判定为「概念传达成功,执行细节失败」的典型案例。

困难难度评测结果

  • 得分:66.4 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只手在明亮的蓝天白云背景下,握着一块长方形的银色金属拉丝质感卡片。卡片中心有一个巨大的镂空汉字,透过这个字可以看到远处的北京天坛祈年殿。卡片底部刻有数字“2026”和一匹奔马的剪影。整体色调清新,光影自然,构图以手持卡片为中心,呈现出一种文创产品的既视感。 然而,画面中存在明显的 AI 生成缺陷:首先是卡片中心的镂空汉字,其形状介于“岁”和“发”之间,笔画结构不正确,属于典型的 AI 无法准确生成复杂汉字的问题。其次,手部细节存在异常,握住卡片右侧的手指比例不协调,指尖形状略显生硬。最后,卡片镂空处看到的天坛景观与背景天空的透视关系略显违和,天坛顶部的尖端在镂空边缘处出现了不自然的切断感,缺乏真实物理空间的深度。

图中展示了一只手在明亮的蓝天白云背景下,握着一块长方形的银色金属拉丝质感卡片。卡片中心有一个巨大的镂空汉字,透过这个字可以看到远处的北京天坛祈年殿。卡片底部刻有数字“2026”和一匹奔马的剪影。整体色调清新,光影自然,构图以手持卡片为中心,呈现出一种文创产品的既视感。

然而,画面中存在明显的 AI 生成缺陷:首先是卡片中心的镂空汉字,其形状介于“岁”和“发”之间,笔画结构不正确,属于典型的 AI 无法准确生成复杂汉字的问题。其次,手部细节存在异常,握住卡片右侧的手指比例不协调,指尖形状略显生硬。最后,卡片镂空处看到的天坛景观与背景天空的透视关系略显违和,天坛顶部的尖端在镂空边缘处出现了不自然的切断感,缺乏真实物理空间的深度。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】图像在材质表现和视觉风格上有较高水准,拉丝金属质感、冷蓝色调和整体构图美感均属合格以上。然而存在两个根本性错误:其一,镂空汉字为「营」而非「岁」,核心文字元素完全错误;其二,视角为低角度仰拍而非第一人称主观视角。这两个问题严重偏离了提示词的核心要求,尤其是文字错误直接导致「岁」字书法风格与「框中框」构图的测试目标无法实现。综合加权后整体质量处于中等偏下水平。 【GEMINI】这是一张典型的「远看不错,细看崩坏」的 AI 生成图。虽然在色彩氛围和构图意图上达到了高端文创宣传图的基准,但在最核心的「文字准确性」和「手部解剖学」上出现了严重失误。特别是汉字「岁」的生成失败,直接导致该图像无法作为成品使用。模型在处理复杂汉字结构和精细人体结构时,仍存在巨大的技术瓶颈。 【KIMI】该图像作为 AI 生成结果,在概念层面完成了「镂空汉字框景古建筑」的视觉隐喻,但在执行层面暴露出多重技术缺陷。核心败笔在于「岁」字书法风格的失真与「框中框」构图的精准度缺失——这两项正是提示词强调的关键测试点。材质表现上,拉丝金属与激光雕刻均停留在「像金属」而非「是金属」的符号层面,缺乏物理真实性的细节支撑。整体而言,这是一张「能看懂创意但经不起审视」的中低质量生成图像,距离「电影级」「高端文创」的目标存在显著差距。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...