Google: Gemini 2.5 Flash Image (Nano Banana) 在「简单位置关系」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:Google: Gemini 2.5 Flash Image (Nano Banana)
  • 用例名称:简单位置关系
  • 测试类型:图像生成
  • 评测维度:空间关系

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张图片:一只红色的苹果放在蓝色盘子的上方(不是在盘子里面) 要求: - 苹果明确在盘子上方悬浮 - 颜色准确(红色苹果、蓝色盘子) - 背景简洁(白色或浅色)

任务要求

AI 模型需要满足以下要求:

  1. 苹果必须位于盘子正上方,且两者之间存在明显垂直间距(以观众视角为准,苹果底部与盘子上沿不接触),明确呈现"悬浮于上方"而非"放置于盘子内部"的视觉效果
  2. 苹果颜色为红色(允许自然高光,但主色调须为红色系),盘子颜色为蓝色(主色调须为蓝色系),两者颜色须具备足够饱和度以便清晰辨认
  3. 苹果与盘子的物体轮廓清晰可辨,形态符合常识(苹果呈圆润果实状,盘子呈圆形餐具状)
  4. 背景须为白色或浅色(浅灰、米白等),不得包含复杂场景元素,确保主体物体的颜色与空间关系不受背景干扰

评测结果

综合得分

该模型在此用例的得分为:92.9 分(满分 100 分),已通过

基础难度评测结果

  • 得分:92.9 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一个极简主义风格的静物场景。画面的中心是一个深红色的成熟苹果,它正神奇地悬浮在半空中。苹果表面光滑,带有细腻的自然斑点和明亮的反光,顶端有一根细小的深褐色果柄。在苹果的正下方,放置着一个深蓝色的陶瓷平盘,盘子呈现出哑光质感。背景是纯净且带有微弱渐变的浅灰色墙面,下方则是铺着白色桌布的水准桌面。整体构图对称,色调冷暖对比鲜明,营造出一种超现实的宁静感。在 AI 生成的细节方面,虽然苹果和盘子的质感非常逼真,但画面中存在明显的物理逻辑异常:苹果在没有任何支撑的情况下悬浮,且盘子表面完全没有映照出上方苹果的投影,这种光影关系的缺失揭示了图像的非真实性。此外,盘子的边缘轮廓在左侧略显生硬,与桌面的衔接处缺乏自然的阴影过渡。

图中展示了一个极简主义风格的静物场景。画面的中心是一个深红色的成熟苹果,它正神奇地悬浮在半空中。苹果表面光滑,带有细腻的自然斑点和明亮的反光,顶端有一根细小的深褐色果柄。在苹果的正下方,放置着一个深蓝色的陶瓷平盘,盘子呈现出哑光质感。背景是纯净且带有微弱渐变的浅灰色墙面,下方则是铺着白色桌布的水准桌面。整体构图对称,色调冷暖对比鲜明,营造出一种超现实的宁静感。在 AI 生成的细节方面,虽然苹果和盘子的质感非常逼真,但画面中存在明显的物理逻辑异常:苹果在没有任何支撑的情况下悬浮,且盘子表面完全没有映照出上方苹果的投影,这种光影关系的缺失揭示了图像的非真实性。此外,盘子的边缘轮廓在左侧略显生硬,与桌面的衔接处缺乏自然的阴影过渡。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这张图像高质量地完成了提示词的全部核心要求:苹果明确悬浮于蓝色盘子正上方,颜色准确(红色苹果、蓝色盘子),背景简洁(浅灰白色)。空间位置关系表达清晰无歧义,实体属性准确,画面清晰度极高。属于AI图像生成中对空间关系理解较为准确的优秀案例,仅有极细微的构图比例问题,不影响整体评价。 【GEMINI】这是一张高质量的 AI 生成图像,精准地完成了所有提示词要求。空间位置关系处理得非常干净利落,色彩和背景的简洁性为展示「悬浮」这一主题提供了极佳的视觉环境。虽然在光影物理逻辑和物体边缘质感上仍有细微的 AI 痕迹,但已属于同类测试中的上乘之作。 【KIMI】该图像基本完美完成了提示词的所有核心要求。空间位置关系表达清晰无误,色彩准确,背景简洁。苹果的高光质感略有过度渲染倾向,但属于可接受的审美范畴,不影响对提示词意图的准确传达。整体而言,这是一张高质量的指令遵循图像。

进阶难度评测结果

  • 得分:91.6 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一个温馨宁静的室内场景。一张木质方桌摆放在窗前,桌面上放着一瓶盛开的白色百合花,花朵洁白,绿叶繁茂,插在透明的玻璃花瓶中。花瓶左侧有一本棕色皮质封面的厚书,夹着粉色书签;右侧是一杯冒着热气的白色咖啡杯,放在深色杯垫上。桌子下方,一只橘色的长毛猫正端坐在阴影中,睁着绿色的眼睛直视镜头,神态乖巧。背景是模糊的窗外景色,光线柔和自然。 画面中存在明显的 AI 生成缺陷:首先,桌子下方的橘猫只有头部和胸部,完全缺失了身体后半部分和四肢,像是悬浮在空中的半截躯体;其次,桌面上咖啡杯冒出的蒸汽线条生硬且不自然,缺乏真实烟雾的弥散感;此外,花瓶中的花茎在水下的折射逻辑略显混乱,书本的边缘线条也存在轻微的扭曲。

图中展示了一个温馨宁静的室内场景。一张木质方桌摆放在窗前,桌面上放着一瓶盛开的白色百合花,花朵洁白,绿叶繁茂,插在透明的玻璃花瓶中。花瓶左侧有一本棕色皮质封面的厚书,夹着粉色书签;右侧是一杯冒着热气的白色咖啡杯,放在深色杯垫上。桌子下方,一只橘色的长毛猫正端坐在阴影中,睁着绿色的眼睛直视镜头,神态乖巧。背景是模糊的窗外景色,光线柔和自然。

画面中存在明显的 AI 生成缺陷:首先,桌子下方的橘猫只有头部和胸部,完全缺失了身体后半部分和四肢,像是悬浮在空中的半截躯体;其次,桌面上咖啡杯冒出的蒸汽线条生硬且不自然,缺乏真实烟雾的弥散感;此外,花瓶中的花茎在水下的折射逻辑略显混乱,书本的边缘线条也存在轻微的扭曲。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像高质量地完成了提示词的全部核心要求:五个实体完整出现,四组位置关系(花瓶在桌上、书在左、杯在右、猫在桌下)均准确无误,空间层次清晰,透视逻辑自然。仅存在猫体下半部轻微遮挡和书本位置略偏等细节瑕疵,不影响整体判断。属于AI图像生成中对空间位置指令理解和执行的优秀案例。 【GEMINI】这是一张在空间布局上表现优异但在物理细节上经不起推敲的作品。它完美解决了提示词中关于「左书右杯、猫在地下」的位置逻辑挑战,但在处理透明材质(花瓶水折射)和家具结构(桌腿衔接)等视觉逻辑细节时表现出了 AI 生成的典型短板。整体构图平衡,符合摄影审美,但严谨性有待提高。 【KIMI】该图像出色完成了提示词的核心要求。空间位置关系准确无误,五个指定物体完整呈现,桌上下空间层次清晰。猫的位置处理尤为得当——既明确处于桌下,又通过仰视角度保证面部可见,兼顾了指令约束与视觉表现。整体无明显硬伤,属于高质量的空间关系测试输出。

困难难度评测结果

  • 得分:69.1 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

画面中呈现了一个温馨的室内场景,光线柔和地从左侧洒入。画面左侧是一个木质书架,顶层放着一个地球仪和两本绿色的书,中层有两本红色的书和三本蓝绿色的书,底层则放着一个纸箱,一只白色的小猫正从箱子里探出头来。画面右侧是一张棕红色花纹的布艺单人沙发,一只金毛寻回犬正端坐在沙发中央,面带憨厚的微笑,直视镜头。整体色调以温暖的棕色和木色为主,氛围宁静。在 AI 生成的细节方面,存在一些明显的逻辑缺陷:书架上的书籍缺乏书名和纹理,显得过于平滑且厚度不均;地球仪的支架结构略显简化;最明显的缺陷在于金毛犬的后腿与身体的连接处透视异常,显得有些扭曲,且沙发扶手的花纹在边缘处衔接得不够自然。此外,书架底层的阴影投射方向与左侧窗户的光源方向略有偏差。

画面中呈现了一个温馨的室内场景,光线柔和地从左侧洒入。画面左侧是一个木质书架,顶层放着一个地球仪和两本绿色的书,中层有两本红色的书和三本蓝绿色的书,底层则放着一个纸箱,一只白色的小猫正从箱子里探出头来。画面右侧是一张棕红色花纹的布艺单人沙发,一只金毛寻回犬正端坐在沙发中央,面带憨厚的微笑,直视镜头。整体色调以温暖的棕色和木色为主,氛围宁静。在 AI 生成的细节方面,存在一些明显的逻辑缺陷:书架上的书籍缺乏书名和纹理,显得过于平滑且厚度不均;地球仪的支架结构略显简化;最明显的缺陷在于金毛犬的后腿与身体的连接处透视异常,显得有些扭曲,且沙发扶手的花纹在边缘处衔接得不够自然。此外,书架底层的阴影投射方向与左侧窗户的光源方向略有偏差。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】图像整体视觉质量较高,7类物体全部出现,大部分空间关系正确。但核心属性要求「三本书从左到右红蓝绿连续排列」未能满足(书架中层被分隔为两个区域导致排列断裂),且椅子与书架的前后空间层次感不够明显。这两处偏差直接影响了提示词的核心测试目标——空间关系准确性,导致综合得分无法进入优秀区间。 【GEMINI】这张图片在单体建模和质感表现上非常出色,但在执行复杂的逻辑指令时出现了明显偏差。最严重的失误在于未能理解「椅子在书架前」这一关键空间指令,将其处理成了并列关系;同时,对于特定顺序的颜色指令(红蓝绿)完全忽视,导致实体属性准确性大幅下降。这是一张视觉精美但逻辑执行力较弱的AI生成图。 【KIMI】该图像在「有物体」层面基本达标,但在「物体属性正确」层面出现致命失误。中层书籍的颜色顺序与数量完全违背提示词要求,这是不可接受的核心错误——AI 似乎将「红、蓝、绿」理解为「包含这些颜色」而非「严格顺序排列」。此外,「书架前面有椅子」的空间关系仅停留在文字对应,未转化为有效的视觉纵深表达。整体属于「形似而神不似」的典型案例:画面温馨完整,但指令遵循度低下。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...