Google: Gemini 2.5 Flash Image (Nano Banana) 在「初中化学实验室仪器组合图生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：Google: Gemini 2.5 Flash Image (Nano Banana)
用例名称：初中化学实验室仪器组合图生成
测试类型：图像生成
评测维度：教材插图

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张初中化学实验室桌面场景图。桌面上整齐排列以下仪器： - 烧杯 - 试管架（含若干试管） - 酒精灯 - 量筒 - 漏斗要求： - 每件仪器下方或侧面标注对应的中文名称 - 玻璃仪器体现基本的透明质感 - 画面整洁，仪器排列有序

任务要求

AI 模型需要满足以下要求：

画面中包含烧杯、试管架（含试管）、酒精灯、量筒、漏斗，共五类仪器
每件仪器均有对应的中文名称标注
玻璃仪器具备基本透明感，可与非玻璃仪器区分
仪器造型基本准确，可辨识
整体画面整洁，仪器排列有序

评测结果

综合得分

该模型在此用例的得分为：70.2 分（满分 100 分），已通过

基础难度评测结果

得分：70.2 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

AI 生成图片，模型：Google: Gemini 2.5 Flash Image (Nano Banana) — 在新标签页中查看原图

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】图像在仪器完整性和玻璃材质表现方面完成较好，五类仪器齐全且透明质感自然。然而最严重的问题在于文字标注：五处标注中有三处存在错别字（「烧单」「试管茱」「酒情灯」），这对于一张教育场景图像而言是不可接受的硬伤，直接拉低了整体评分。如果文字标注全部正确，该图像可达到80分以上水平。【GEMINI】该图像在视觉渲染上具备一定的写实感，尤其是玻璃材质的通透度表现较好。然而，作为一张教学或功能性场景图，其核心失败在于中文文字生成的准确性极差，出现了多处无法容忍的错别字。此外，在仪器造型的逻辑建模上，漏斗与烧杯的融合属于严重的AI幻觉，导致图像在专业性上完全不合格。【KIMI】该图像在核心任务——中文名称标注上遭遇惨败，60%的标注错误率使其无法用于任何教育场景。仪器形态的逻辑错误（倒置漏斗、异常量筒）进一步暴露AI对物理世界常识的理解缺失。玻璃材质虽勉强及格，但无法挽救整体质量的崩塌。作为「初中化学实验室」教学图，此生成结果不合格。

进阶难度评测结果

得分：64.6 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图在仪器造型和玻璃材质渲染方面表现较好，场景氛围真实，光影效果到位。然而文字标注质量极差，是本图最致命的缺陷——5件仪器中有4件标注出现严重错字或乱码，完全不符合「规范中文名称」的要求，且字体也非黑体或楷体。此外量筒刻度不清晰、试管液体数量与要求不符等问题也影响了整体评分。综合来看，图像视觉质量尚可，但文字标注的严重失误使其在核心考察维度上大幅失分。【GEMINI】该图像在视觉氛围和材质渲染上表现尚可，但在逻辑严谨性要求极高的化学实验场景中表现糟糕。最严重的问题在于中文标注完全不可用，充斥着错别字和逻辑错误，且关键仪器（量筒、漏斗、试管架）的物理结构存在明显畸变，未能满足教学演示类提示词的基本准确性要求。【KIMI】该图像在文字标注维度出现严重失败，几乎完全不符合「规范中文名称」的核心要求，乱码式标注与错位箭头使其丧失教学图示功能。仪器细节与构图亦存在多处瑕疵，整体质量远低于初中化学教学素材标准。仅玻璃材质与光影效果勉强及格，但不足以弥补标注灾难带来的功能性缺失。

困难难度评测结果

得分：55.0 分
通过状态：未通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在场景整体布局和色彩表现上有一定基础，但在关键要求上存在多处严重失误。最突出的问题是文字标注系统性错误——多个仪器名称出现乱码或错误汉字（「雏彩矾」「烧埚」「试管茱」），这对于一张教学用途的化学实验室图像而言是根本性缺陷。仪器造型方面，漏斗形态严重失真，酒精灯火焰缺乏层次感。玻璃光学效果停留在基础渲染水平，未达到提示词要求的「高度写实」标准。综合来看，该图像仅部分完成了提示词要求，核心的标注准确性和仪器细节均存在明显偏差。【GEMINI】该图像在视觉氛围上捕捉到了实验室的质感，但在核心的「准确性」要求上表现极差。文字标注系统完全失效，充斥着AI臆造的错别字；实验仪器的物理结构存在多处硬伤（如悬空火焰、断裂漏斗），无法作为教学或专业用途的示意图。模型在处理中文文本与复杂器皿逻辑连接时存在显著缺陷。【KIMI】该图像在核心任务——中文名称标注上遭遇灾难性失败，6处标注中5处为乱码或错字，严重偏离「规范楷体标注」要求。仪器造型方面，酒精灯结构完全错误、火焰效果缺失、液面位置偏差等问题叠加，显示模型对化学实验仪器缺乏基本认知。玻璃光学效果与光照虽有一定基础，但关键细节（刻度折射、冷暖光混合、弯月面）均未达标。整体呈现「形似而神不似」的AI生成特征，作为教学用图会产生严重误导，评分需大幅拉低以反映其与提示词的显著偏差。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题