Google: Gemini 2.5 Flash Image (Nano Banana) 在「三个物体」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：Google: Gemini 2.5 Flash Image (Nano Banana)
用例名称：三个物体
测试类型：图像生成
评测维度：数量控制

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

在白色背景上放置三个红色苹果。苹果应该是新鲜的，有光泽，排成一排。每个苹果都要完整清晰，没有遮挡。简洁的静物摄影风格。

任务要求

AI 模型需要满足以下要求：

图像中必须恰好包含三个苹果，数量不多不少，需逐一点数确认
每个苹果必须为红色，颜色饱和度自然适中，不可偏绿、偏黄或偏橙
每个苹果表面应呈现光泽感，外观新鲜饱满，符合新鲜水果的视觉特征
三个苹果须从左到右排列成一排，相互间距大致均匀
每个苹果必须完整可见，不得被其他苹果、画框或任何元素遮挡或截断
背景必须为白色或接近白色（如浅灰白），背景干净，无复杂纹理或装饰元素
整体风格须符合简洁静物摄影风格，光线自然，构图简约

评测结果

综合得分

该模型在此用例的得分为：91.4 分（满分 100 分），已通过

基础难度评测结果

得分：91.4 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了三个鲜红色的苹果，它们在纯白色的背景中水平整齐地排成一列。每个苹果都呈现出饱满的圆形，果皮带有自然的亮光和细微的浅色斑点，顶部各有一根褐色的果柄和一片朝向右侧的绿色叶子。光线从上方照射，在苹果底部留下了柔和的淡灰色投影，营造出一种极简且干净的视觉风格。然而，画面中存在明显的 AI 生成缺陷：这三个苹果的外观、光影位置、果柄弯曲度以及叶子的形状和纹理几乎完全一致，如同通过“复制粘贴”而成，缺乏自然界中果实应有的个体差异。最显著的错误在于叶子与果柄的连接方式：叶子并非自然地生长在果柄上，而是像悬浮或直接粘贴在果柄侧面，且连接处缺乏合理的解剖结构，显得非常生硬和不真实。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这是一张高质量的AI生成静物图像，整体上非常忠实地完成了提示词的核心要求：三个红色、新鲜、有光泽的苹果排列在白色背景上，静物摄影风格简洁专业。主要问题集中在细节层面：三个苹果间距轻微不均匀，以及三片叶子形态高度雷同暴露了AI生成的「模板复制」特征。这些问题不影响整体观感，但在严格评审标准下值得指出。综合来看，该图像属于高完成度作品，适合商业静物展示用途。【GEMINI】这是一张在指令遵循和构图美学上表现优异的作品，完美捕捉了静物摄影的简洁感。然而，作为专业评审，必须指出其在生物细节多样性上的缺失——三个苹果的叶片如同工业模具生产般一致，这在严苛的写实摄影标准下是不自然的，也是 AI 生成痕迹最明显的地方。【KIMI】这是一张完成度较高的AI生成图像，基本满足提示词的所有核心要求。三个苹果数量准确、颜色正确、排列有序、背景干净，作为测试「生成三个物体」的任务而言表现良好。然而，作为挑剔的评审员，必须指出其AI生成的典型痕迹：多物体间的过度一致性（果柄、叶子的复制感）、过于完美的背景、以及细微的空间对齐偏差。这些细节在普通观看中难以察觉，但在专业审视下暴露了生成模型的局限性。整体属于「合格以上、完美未满」的水平。

进阶难度评测结果

得分：81.8 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一个繁华都市的夜晚街头，三辆色彩鲜艳的出租车并排停在湿漉漉的柏油马路上。从左至右，出租车的颜色分别为明黄色、深绿色和鲜红色，车顶都装有发光的黄色顶灯。背景是模糊的城市夜景，充满了五颜六色的霓虹灯招牌和建筑灯光，地面反射着灯光的倒影，营造出一种雨后湿润的质感。构图采用平视角度，三辆车占据了画面中心。画面中存在明显的 AI 生成缺陷：首先，三辆车的车牌号码出现了逻辑错误，左侧黄车和右侧红车的车牌号几乎完全相同，且上面的文字是扭曲变形的乱码，无法辨认。其次，车头的标志模糊不清，形状怪异。最明显的异常在于透视和空间关系，三辆车并排占据了整条车道，却没有任何驾驶员在车内，且车辆的后视镜和车窗轮廓在细节处显得生硬且不自然。此外，背景中的招牌文字也均为无法解读的乱码字符。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这张图像在氛围营造和核心指令遵循方面表现较好，成功呈现了三辆不同颜色出租车在夜晚湿润城市街道的场景，霓虹背景和地面反光是明显亮点。然而，AI生成的典型缺陷在细节层面暴露无遗：车牌乱码且三辆高度雷同、车标无品牌差异、灯箱文字不可读，这些问题虽不影响整体视觉印象，但在严格评审标准下显著拉低了图像质量分。综合来看，这是一张「远看惊艳、近看破绽」的AI生成图像，适合用于氛围展示但无法通过专业细节审查。【GEMINI】这是一张在指令遵循上表现近乎完美的图像，准确完成了多物体、特定颜色排序及复杂环境要求的挑战。构图与氛围渲染达到了专业摄影水准。然而，图像质量在经受「挑剔」审视时，暴露出 AI 在处理文字符号、对称性零件（后视镜）以及复杂机械结构（轮毂）上的典型短板。如果能修正这些细节，将是一张顶级的商业级素材。【KIMI】该图像在「三辆出租车」的核心指令上勉强达标，但细节执行粗糙。车牌重复、颜色偏差、空间逻辑僵硬等问题暴露了AI生成的典型缺陷。背景霓虹的符号缺失使「都市夜景」沦为空泛标签，地面反光与光源的脱节进一步削弱真实感。作为「测试模型生成三个物体」的任务，数量与基础排列合格，但物体属性精度与场景一致性不足，属于「完成形但失其神」的中下水准生成结果。

困难难度评测结果

得分：79.5 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

画面中展示了一个装饰华丽的室内空间，三位穿着不同时代风格服饰的女性并排站立，仿佛一场跨越时空的聚会。左侧女性穿着19世纪维多利亚风格的深蓝色天鹅绒长裙，手持折扇；中间女性身着20世纪20年代的金色亮片流苏裙，头戴羽毛发带，手持细长烟杆；右侧女性则穿着50年代风格的红色白点蓬蓬裙，端着茶杯。背景融合了古典油画、壁炉、装饰艺术风格的挂画以及老式收音机。整体色调温暖且富有质感，构图均衡。然而，画面存在明显的 AI 生成缺陷：中间女性右手持烟杆的姿势僵硬，手指与烟杆的衔接不自然；右侧女性端茶杯的手部结构模糊，手指数量异常且扭曲；背景中的场记板文字杂乱无章，无法辨认；此外，地面地毯的边缘与家具的透视关系略显生硬。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这张图像在核心指令遵循方面表现良好，六项关键属性全部到位，三个时代的服装特征准确，古典油画风格整体可信。最大的败笔是右下角场记板的出现——这个现代道具的植入完全破坏了油画的历史沉浸感，是一个不应出现的低级错误。手部细节是AI生成的集中暴露区，三位人物的手部均存在不同程度的瑕疵。构图上三人平行站立缺乏纵深，略显刻板。综合来看，这是一张完成度较高但存在几处明显硬伤的作品，场记板问题尤为可惜。【GEMINI】这是一张在视觉风格和叙事构思上非常出色的作品，成功复刻了古典油画的质感并巧妙地在同一空间内融合了三个时代。然而，作为严苛的评审，模型在「指令执行」的完整度上存在硬伤（缺失折扇），且在处理多人物复杂手部动作时表现出典型的AI解剖学逻辑混乱，拉低了整体的工业可用性。【KIMI】该图像在执行「三位不同时代女性」的核心概念上基本合格，但存在明显的AI生成典型问题：时代符号的误植（场记板）、风格执行的半吊子（油画质感不足）、以及提示词细节的妥协（裙长、表情差异化）。作为「测试模型生成三个物体」的任务，模型成功区分了三个人物主体，但在精确控制每个主体的属性细节上仍有显著改进空间。场记板的出现暴露了模型对「时代」概念的语义漂移问题，这是需要重点关注的系统性缺陷。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

相关链接

反馈评测问题