Google: Gemini 2.5 Flash Image (Nano Banana) 在「三个物体」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:Google: Gemini 2.5 Flash Image (Nano Banana)
  • 用例名称:三个物体
  • 测试类型:图像生成
  • 评测维度:数量控制

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

在白色背景上放置三个红色苹果。苹果应该是新鲜的,有光泽,排成一排。每个苹果都要完整清晰,没有遮挡。简洁的静物摄影风格。

任务要求

AI 模型需要满足以下要求:

  1. 图像中必须恰好包含三个苹果,数量不多不少,需逐一点数确认
  2. 每个苹果必须为红色,颜色饱和度自然适中,不可偏绿、偏黄或偏橙
  3. 每个苹果表面应呈现光泽感,外观新鲜饱满,符合新鲜水果的视觉特征
  4. 三个苹果须从左到右排列成一排,相互间距大致均匀
  5. 每个苹果必须完整可见,不得被其他苹果、画框或任何元素遮挡或截断
  6. 背景必须为白色或接近白色(如浅灰白),背景干净,无复杂纹理或装饰元素
  7. 整体风格须符合简洁静物摄影风格,光线自然,构图简约

评测结果

综合得分

该模型在此用例的得分为:91.4 分(满分 100 分),已通过

基础难度评测结果

  • 得分:91.4 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了三个鲜红色的苹果,它们在纯白色的背景中水平整齐地排成一列。每个苹果都呈现出饱满的圆形,果皮带有自然的亮光和细微的浅色斑点,顶部各有一根褐色的果柄和一片朝向右侧的绿色叶子。光线从上方照射,在苹果底部留下了柔和的淡灰色投影,营造出一种极简且干净的视觉风格。 然而,画面中存在明显的 AI 生成缺陷:这三个苹果的外观、光影位置、果柄弯曲度以及叶子的形状和纹理几乎完全一致,如同通过“复制粘贴”而成,缺乏自然界中果实应有的个体差异。最显著的错误在于叶子与果柄的连接方式:叶子并非自然地生长在果柄上,而是像悬浮或直接粘贴在果柄侧面,且连接处缺乏合理的解剖结构,显得非常生硬和不真实。

图中展示了三个鲜红色的苹果,它们在纯白色的背景中水平整齐地排成一列。每个苹果都呈现出饱满的圆形,果皮带有自然的亮光和细微的浅色斑点,顶部各有一根褐色的果柄和一片朝向右侧的绿色叶子。光线从上方照射,在苹果底部留下了柔和的淡灰色投影,营造出一种极简且干净的视觉风格。

然而,画面中存在明显的 AI 生成缺陷:这三个苹果的外观、光影位置、果柄弯曲度以及叶子的形状和纹理几乎完全一致,如同通过“复制粘贴”而成,缺乏自然界中果实应有的个体差异。最显著的错误在于叶子与果柄的连接方式:叶子并非自然地生长在果柄上,而是像悬浮或直接粘贴在果柄侧面,且连接处缺乏合理的解剖结构,显得非常生硬和不真实。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这是一张高质量的AI生成静物图像,整体上非常忠实地完成了提示词的核心要求:三个红色、新鲜、有光泽的苹果排列在白色背景上,静物摄影风格简洁专业。主要问题集中在细节层面:三个苹果间距轻微不均匀,以及三片叶子形态高度雷同暴露了AI生成的「模板复制」特征。这些问题不影响整体观感,但在严格评审标准下值得指出。综合来看,该图像属于高完成度作品,适合商业静物展示用途。 【GEMINI】这是一张在指令遵循和构图美学上表现优异的作品,完美捕捉了静物摄影的简洁感。然而,作为专业评审,必须指出其在生物细节多样性上的缺失——三个苹果的叶片如同工业模具生产般一致,这在严苛的写实摄影标准下是不自然的,也是 AI 生成痕迹最明显的地方。 【KIMI】这是一张完成度较高的AI生成图像,基本满足提示词的所有核心要求。三个苹果数量准确、颜色正确、排列有序、背景干净,作为测试「生成三个物体」的任务而言表现良好。然而,作为挑剔的评审员,必须指出其AI生成的典型痕迹:多物体间的过度一致性(果柄、叶子的复制感)、过于完美的背景、以及细微的空间对齐偏差。这些细节在普通观看中难以察觉,但在专业审视下暴露了生成模型的局限性。整体属于「合格以上、完美未满」的水平。

进阶难度评测结果

  • 得分:81.8 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一个繁华都市的夜晚街头,三辆色彩鲜艳的出租车并排停在湿漉漉的柏油马路上。从左至右,出租车的颜色分别为明黄色、深绿色和鲜红色,车顶都装有发光的黄色顶灯。背景是模糊的城市夜景,充满了五颜六色的霓虹灯招牌和建筑灯光,地面反射着灯光的倒影,营造出一种雨后湿润的质感。构图采用平视角度,三辆车占据了画面中心。 画面中存在明显的 AI 生成缺陷:首先,三辆车的车牌号码出现了逻辑错误,左侧黄车和右侧红车的车牌号几乎完全相同,且上面的文字是扭曲变形的乱码,无法辨认。其次,车头的标志模糊不清,形状怪异。最明显的异常在于透视和空间关系,三辆车并排占据了整条车道,却没有任何驾驶员在车内,且车辆的后视镜和车窗轮廓在细节处显得生硬且不自然。此外,背景中的招牌文字也均为无法解读的乱码字符。

图中展示了一个繁华都市的夜晚街头,三辆色彩鲜艳的出租车并排停在湿漉漉的柏油马路上。从左至右,出租车的颜色分别为明黄色、深绿色和鲜红色,车顶都装有发光的黄色顶灯。背景是模糊的城市夜景,充满了五颜六色的霓虹灯招牌和建筑灯光,地面反射着灯光的倒影,营造出一种雨后湿润的质感。构图采用平视角度,三辆车占据了画面中心。

画面中存在明显的 AI 生成缺陷:首先,三辆车的车牌号码出现了逻辑错误,左侧黄车和右侧红车的车牌号几乎完全相同,且上面的文字是扭曲变形的乱码,无法辨认。其次,车头的标志模糊不清,形状怪异。最明显的异常在于透视和空间关系,三辆车并排占据了整条车道,却没有任何驾驶员在车内,且车辆的后视镜和车窗轮廓在细节处显得生硬且不自然。此外,背景中的招牌文字也均为无法解读的乱码字符。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这张图像在氛围营造和核心指令遵循方面表现较好,成功呈现了三辆不同颜色出租车在夜晚湿润城市街道的场景,霓虹背景和地面反光是明显亮点。然而,AI生成的典型缺陷在细节层面暴露无遗:车牌乱码且三辆高度雷同、车标无品牌差异、灯箱文字不可读,这些问题虽不影响整体视觉印象,但在严格评审标准下显著拉低了图像质量分。综合来看,这是一张「远看惊艳、近看破绽」的AI生成图像,适合用于氛围展示但无法通过专业细节审查。 【GEMINI】这是一张在指令遵循上表现近乎完美的图像,准确完成了多物体、特定颜色排序及复杂环境要求的挑战。构图与氛围渲染达到了专业摄影水准。然而,图像质量在经受「挑剔」审视时,暴露出 AI 在处理文字符号、对称性零件(后视镜)以及复杂机械结构(轮毂)上的典型短板。如果能修正这些细节,将是一张顶级的商业级素材。 【KIMI】该图像在「三辆出租车」的核心指令上勉强达标,但细节执行粗糙。车牌重复、颜色偏差、空间逻辑僵硬等问题暴露了AI生成的典型缺陷。背景霓虹的符号缺失使「都市夜景」沦为空泛标签,地面反光与光源的脱节进一步削弱真实感。作为「测试模型生成三个物体」的任务,数量与基础排列合格,但物体属性精度与场景一致性不足,属于「完成形但失其神」的中下水准生成结果。

困难难度评测结果

  • 得分:79.5 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

画面中展示了一个装饰华丽的室内空间,三位穿着不同时代风格服饰的女性并排站立,仿佛一场跨越时空的聚会。左侧女性穿着19世纪维多利亚风格的深蓝色天鹅绒长裙,手持折扇;中间女性身着20世纪20年代的金色亮片流苏裙,头戴羽毛发带,手持细长烟杆;右侧女性则穿着50年代风格的红色白点蓬蓬裙,端着茶杯。背景融合了古典油画、壁炉、装饰艺术风格的挂画以及老式收音机。整体色调温暖且富有质感,构图均衡。然而,画面存在明显的 AI 生成缺陷:中间女性右手持烟杆的姿势僵硬,手指与烟杆的衔接不自然;右侧女性端茶杯的手部结构模糊,手指数量异常且扭曲;背景中的场记板文字杂乱无章,无法辨认;此外,地面地毯的边缘与家具的透视关系略显生硬。

画面中展示了一个装饰华丽的室内空间,三位穿着不同时代风格服饰的女性并排站立,仿佛一场跨越时空的聚会。左侧女性穿着19世纪维多利亚风格的深蓝色天鹅绒长裙,手持折扇;中间女性身着20世纪20年代的金色亮片流苏裙,头戴羽毛发带,手持细长烟杆;右侧女性则穿着50年代风格的红色白点蓬蓬裙,端着茶杯。背景融合了古典油画、壁炉、装饰艺术风格的挂画以及老式收音机。整体色调温暖且富有质感,构图均衡。然而,画面存在明显的 AI 生成缺陷:中间女性右手持烟杆的姿势僵硬,手指与烟杆的衔接不自然;右侧女性端茶杯的手部结构模糊,手指数量异常且扭曲;背景中的场记板文字杂乱无章,无法辨认;此外,地面地毯的边缘与家具的透视关系略显生硬。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这张图像在核心指令遵循方面表现良好,六项关键属性全部到位,三个时代的服装特征准确,古典油画风格整体可信。最大的败笔是右下角场记板的出现——这个现代道具的植入完全破坏了油画的历史沉浸感,是一个不应出现的低级错误。手部细节是AI生成的集中暴露区,三位人物的手部均存在不同程度的瑕疵。构图上三人平行站立缺乏纵深,略显刻板。综合来看,这是一张完成度较高但存在几处明显硬伤的作品,场记板问题尤为可惜。 【GEMINI】这是一张在视觉风格和叙事构思上非常出色的作品,成功复刻了古典油画的质感并巧妙地在同一空间内融合了三个时代。然而,作为严苛的评审,模型在「指令执行」的完整度上存在硬伤(缺失折扇),且在处理多人物复杂手部动作时表现出典型的AI解剖学逻辑混乱,拉低了整体的工业可用性。 【KIMI】该图像在执行「三位不同时代女性」的核心概念上基本合格,但存在明显的AI生成典型问题:时代符号的误植(场记板)、风格执行的半吊子(油画质感不足)、以及提示词细节的妥协(裙长、表情差异化)。作为「测试模型生成三个物体」的任务,模型成功区分了三个人物主体,但在精确控制每个主体的属性细节上仍有显著改进空间。场记板的出现暴露了模型对「时代」概念的语义漂移问题,这是需要重点关注的系统性缺陷。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...