Google: Gemini 2.5 Flash Image (Nano Banana) 在「天坛祈年殿镂空岁字卡片生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:Google: Gemini 2.5 Flash Image (Nano Banana)
  • 用例名称:天坛祈年殿镂空岁字卡片生成
  • 测试类型:图像生成
  • 评测维度:VG-FramedPerspective

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张图像:一只手拿着一张银色金属质感的长方形卡片,卡片中心镂空刻有汉字「岁」,透过镂空部分可以看到远处的北京天坛祈年殿,背景是湛蓝的天空。

任务要求

AI 模型需要满足以下要求:

  1. 画面中有一只手持银色金属长方形卡片
  2. 卡片中心有镂空的汉字「岁」
  3. 透过「岁」字镂空可见北京天坛祈年殿
  4. 背景为湛蓝天空
  5. 整体画面清晰,构图完整

评测结果

综合得分

该模型在此用例的得分为:70.9 分(满分 100 分),已通过

基础难度评测结果

  • 得分:70.9 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手拿着一张银色金属卡片,背景是北京天坛祈年殿在蓝天下的远景。卡片中心有一个长方形镂空,镂空处悬浮着一个银色的、类似汉字的符号。构图上,手和卡片位于画面左侧和中心,处于焦点位置,而背景的天坛则被刻意虚化,呈现出一种浅景深效果。天空呈现纯净的深蓝色,阳光从左上方照射,在手指和卡片上留下了清晰的光影。 这张图片存在明显的 AI 生成缺陷:首先,卡片中心的汉字并非真实的文字,而是一个笔画扭曲、逻辑不通的臆造字符。其次,该字符在物理结构上完全悬浮在镂空区域中心,没有任何连接点支撑,违背了物理常识。此外,持卡的手部细节也存在异常,食指的长度和关节弯曲角度显得不够自然,指甲的形状也略显模糊。背景中的天坛建筑虽然轮廓清晰,但细节部分因 AI 渲染而显得有些简化和生硬。

图中展示了一只左手拿着一张银色金属卡片,背景是北京天坛祈年殿在蓝天下的远景。卡片中心有一个长方形镂空,镂空处悬浮着一个银色的、类似汉字的符号。构图上,手和卡片位于画面左侧和中心,处于焦点位置,而背景的天坛则被刻意虚化,呈现出一种浅景深效果。天空呈现纯净的深蓝色,阳光从左上方照射,在手指和卡片上留下了清晰的光影。

这张图片存在明显的 AI 生成缺陷:首先,卡片中心的汉字并非真实的文字,而是一个笔画扭曲、逻辑不通的臆造字符。其次,该字符在物理结构上完全悬浮在镂空区域中心,没有任何连接点支撑,违背了物理常识。此外,持卡的手部细节也存在异常,食指的长度和关节弯曲角度显得不够自然,指甲的形状也略显模糊。背景中的天坛建筑虽然轮廓清晰,但细节部分因 AI 渲染而显得有些简化和生硬。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】本图在空间层次、材质表现和整体构图上完成度较高,尤其是金属卡片质感和景深处理表现出色。然而,最致命的问题是汉字识别/生成错误——提示词要求镂空「岁」字,实际生成的是「劳」字,这一核心元素的失误严重拉低了整体评分。对于一个以「岁」字异形镂空为核心考察点的测试任务而言,汉字生成错误属于根本性失败,即便其他方面表现优秀,也无法弥补这一关键缺陷。 【GEMINI】图像在摄影质感和空间构图上表现优异,但在 AI 绘图最核心的文字控制能力上出现了严重失误。由于未能准确呈现「岁」字,导致图像未能完成最基础的语义传达任务。 【KIMI】该图像在材质渲染和基础构图上具备一定水准,但存在致命的提示词违背:核心元素「岁」字被错误生成为「关」,且背景祈年殿的可见性与构图意图严重不符。作为测试「汉字异形镂空与古建筑对称美学」的任务,模型在最关键的文字准确性和建筑呈现上双双失败。尽管画面整体观感尚可,但偏离用户核心意图的程度足以判定为不合格输出。

进阶难度评测结果

  • 得分:76.0 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手拿着一张银灰色金属质感卡片的场景,背景是模糊的蓝天白云。卡片中心有一个镂空的汉字,形状近似「善」字,透过这个镂空可以看到远处的北京天坛祈年殿建筑。在镂空文字下方,印有一个黑色的马形剪影和数字「2026」。整体色调偏冷,呈现出一种现代与传统结合的设计感。 画面中存在明显的 AI 生成缺陷:首先,卡片中心的镂空汉字结构扭曲,并非标准的汉字,笔画断裂且逻辑不通;其次,虽然数字是 2026 年,但旁边的生肖图案是马,而 2026 年在农历中实际应为马年,这在逻辑上虽然契合,但马的剪影线条略显生硬;最明显的缺陷在于手部,大拇指的指甲形状异常,且手指与卡片接触的边缘处理不够自然,缺乏真实的压迫感。此外,透过镂空看到的建筑透视与背景天空的衔接也略显违和。

图中展示了一只左手拿着一张银灰色金属质感卡片的场景,背景是模糊的蓝天白云。卡片中心有一个镂空的汉字,形状近似「善」字,透过这个镂空可以看到远处的北京天坛祈年殿建筑。在镂空文字下方,印有一个黑色的马形剪影和数字「2026」。整体色调偏冷,呈现出一种现代与传统结合的设计感。

画面中存在明显的 AI 生成缺陷:首先,卡片中心的镂空汉字结构扭曲,并非标准的汉字,笔画断裂且逻辑不通;其次,虽然数字是 2026 年,但旁边的生肖图案是马,而 2026 年在农历中实际应为马年,这在逻辑上虽然契合,但马的剪影线条略显生硬;最明显的缺陷在于手部,大拇指的指甲形状异常,且手指与卡片接触的边缘处理不够自然,缺乏真实的压迫感。此外,透过镂空看到的建筑透视与背景天空的衔接也略显违和。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像整体完成度中等偏上,电影调色与金属材质是最大亮点,基本元素均已呈现。核心问题集中在两点:其一,镂空汉字字形识别度不足,未能准确还原「岁」字标准字形;其二,祈年殿与镂空的对称居中构图关系处理不够精准,建筑与字形存在叠压遮挡,削弱了提示词所追求的「字框建筑、对称居中」的视觉美学。整体属于「基本完成但有明显瑕疵」的水平。 【GEMINI】该图像在氛围营造和色彩控制上表现优异,但在核心指令——汉字「岁」的准确性上出现了严重的逻辑错误。作为视觉设计作品,文字结构的崩坏是致命的,且金属材质的物理细节处理仍有较大提升空间。 【KIMI】该图像在概念执行上抓住了提示词的核心创意(镂空汉字透景古建筑),但在最关键的文字造型与建筑对称关系上出现严重失误。「岁」字的结构性崩坏是AI生成汉字的典型失败案例,直接导致视觉传达失效;祈年殿与镂空的错位则破坏了构图的仪式感。整体属于「想法不错、执行打折」的中等偏下水准,电影调色和材质表现仅达及格线,未能支撑起概念的高级感。

困难难度评测结果

  • 得分:71.1 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手拿着一张银灰色金属质感的卡片,背景是蓝天白云下的北京天坛祈年殿。卡片中心有一个镂空的汉字,透过这个镂空可以看到背景中模糊的天坛建筑。卡片右下角刻有“2026”字样以及一个小马形状的剪影。构图采用了第一人称视角,焦点集中在手持的卡片上,背景建筑则呈现出明显的虚化效果。 画面中存在几处明显的 AI 生成缺陷:首先,卡片中心的镂空汉字并非标准字体,笔画结构扭曲且难以辨认,似乎是多个汉字特征的错误融合;其次,手部细节存在异常,大拇指的指甲形状不自然,且食指与中指的连接处逻辑混乱,看起来像是手指重叠或缺失了部分关节;最后,卡片右下角的马形图案线条生硬,缺乏细节。整体光影虽然协调,但卡片边缘与手指的接触位置显得有些生硬,缺乏真实的压痕感。

图中展示了一只左手拿着一张银灰色金属质感的卡片,背景是蓝天白云下的北京天坛祈年殿。卡片中心有一个镂空的汉字,透过这个镂空可以看到背景中模糊的天坛建筑。卡片右下角刻有“2026”字样以及一个小马形状的剪影。构图采用了第一人称视角,焦点集中在手持的卡片上,背景建筑则呈现出明显的虚化效果。

画面中存在几处明显的 AI 生成缺陷:首先,卡片中心的镂空汉字并非标准字体,笔画结构扭曲且难以辨认,似乎是多个汉字特征的错误融合;其次,手部细节存在异常,大拇指的指甲形状不自然,且食指与中指的连接处逻辑混乱,看起来像是手指重叠或缺失了部分关节;最后,卡片右下角的马形图案线条生硬,缺乏细节。整体光影虽然协调,但卡片边缘与手指的接触位置显得有些生硬,缺乏真实的压痕感。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在材质表现和整体视觉风格上完成度较高,拉丝金属卡片的质感是最大亮点。但在提示词的核心考察点上存在明显缺陷:第一人称视角未严格实现,「岁」字书法字形失真是最突出的问题,祈年殿与镂空的精准对齐也未达到提示词要求的「框中框」对称精度。综合来看,图像具备一定的商业美感,但对提示词关键技术要求的完成度约在70-75分区间,属于「部分完成」级别。 【GEMINI】这是一张典型的「初看惊艳,细看崩坏」的 AI 生成图。虽然在整体色调和氛围营造上达到了高端文创宣传图的视觉标准,但在核心的文字准确性与物理空间逻辑上表现极差。汉字「岁」的严重变形直接否定了设计意图,而镂空处背景图像的「贴图感」更是破坏了摄影作品应有的真实光学逻辑。对于需要精准传达信息的文创设计而言,该图像目前处于不可用状态。 【KIMI】这是一张在核心创意点上完全失败的AI生成图像。模型未能正确生成指定的「岁」字,以「春」字替代,导致整个「岁」字镂空与祈年殿框景的概念基础崩塌。构图上,祈年殿未实现精准居中的对称美学,材质的光学表现也未达到提示词要求的环境反射和雕刻质感。尽管基础的金属纹理和手臂姿态尚可,但文字准确性的致命错误和构图偏移使其无法作为合格的文创宣传图使用。建议重新生成时强化汉字结构的约束,并验证镂空与背景建筑的对齐关系。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...