doubao-seedream-4-0 在「初中化学实验室仪器组合图生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：doubao-seedream-4-0
用例名称：初中化学实验室仪器组合图生成
测试类型：图像生成
评测维度：教材插图

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张初中化学实验室桌面场景图。桌面上整齐排列以下仪器： - 烧杯 - 试管架（含若干试管） - 酒精灯 - 量筒 - 漏斗要求： - 每件仪器下方或侧面标注对应的中文名称 - 玻璃仪器体现基本的透明质感 - 画面整洁，仪器排列有序

任务要求

AI 模型需要满足以下要求：

画面中包含烧杯、试管架（含试管）、酒精灯、量筒、漏斗，共五类仪器
每件仪器均有对应的中文名称标注
玻璃仪器具备基本透明感，可与非玻璃仪器区分
仪器造型基本准确，可辨识
整体画面整洁，仪器排列有序

评测结果

综合得分

该模型在此用例的得分为：84.9 分（满分 100 分），已通过

基础难度评测结果

得分：84.9 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

AI 生成图片，模型：doubao-seedream-4-0 — 在新标签页中查看原图

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像高质量地完成了提示词的全部核心要求：五类化学仪器齐全、造型准确可辨、中文标注正确完整、玻璃透明质感基本体现、画面整洁有序。动漫插画风格统一，整体视觉效果良好。主要局限在于玻璃材质为风格化简化处理而非写实渲染，以及漏斗标注位置略偏，但均属轻微瑕疵，不影响整体完成度的高水准评价。【GEMINI】该模型在文字理解和中文渲染上表现优异，但在三维建模逻辑和物理常识上存在显著缺陷。玻璃仪器的结构完整性较差，尤其是漏斗和试管架的造型属于严重的AI幻觉，无法作为严谨的教学或展示素材使用。【KIMI】该图像作为初中化学教学插图基本合格，仪器种类齐全、标注清晰、布局合理。主要扣分点在于玻璃材质的细节物理准确性（液面弯月面缺失、量筒刻度模糊）以及漏斗的质感表现。整体风格偏向日式动画赛璐珞风格，牺牲了部分写实细节换取画面整洁度，在教育场景下可接受但专业精度不足。

进阶难度评测结果

得分：70.5 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在仪器种类覆盖和玻璃材质表现上有一定水准，酒精灯火焰与光影效果较为自然，构图角度符合要求。但存在两个核心缺陷：一是中文标注内容严重错误（「荟枝」「大角」「酒精水」均为AI文字生成失误），完全无法作为教学标注使用；二是烧杯被锥形瓶替代，仪器种类不准确。这两点直接影响图像作为「初中化学实验室场景」的实用性和准确性，是明显的模型能力短板。【GEMINI】该模型在视觉渲染（光影、材质、构图）方面表现极其出色，达到了专业摄影级水准。然而，在语义理解和逻辑准确性上存在重大缺陷：不仅未能正确区分烧杯与锥形瓶，且中文标注内容完全牛头不对马嘴，属于典型的「画得好但看不懂指令」的表现。【KIMI】此图作为「初中化学实验室」场景的视觉呈现存在明显短板。虽然玻璃材质与色彩表现达到中等水平，但仪器形态识别错误（锥形瓶≠烧杯）与文字标注的系统性混乱（多处无意义乱码）严重损害了教学场景的实用性与专业性。特别值得注意的是，文字标注错误并非简单的字体问题，而是内容层面的彻底失败——「巷枚」「大角」等词汇表明模型在中文语义理解与化学术语关联上存在深层缺陷。光影表现亦未兑现提示词承诺的火焰暖色影响。综合判定为「部分完成要求，有多处需要改进」，若用于实际教学场景需大幅修正标注内容与仪器形态。

困难难度评测结果

得分：64.5 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像整体视觉质量较高，玻璃仪器的光学渲染和冷暖混合光照是明显亮点。然而在关键细节上存在多处失误：最严重的是文字标注错误（「管管架」「锥筒瓶」），这是基础性错误；量筒刻度混乱无法读取正确液面高度；试管数量不足；漏斗与锥形瓶未正确连接。这些问题表明模型在文字生成准确性和仪器细节规范性上仍有明显短板，综合评分偏中等偏下。【GEMINI】这张图像在视觉氛围和光学渲染上表现尚可，但在严谨的科学逻辑和文字标注任务上彻底失败。模型完全无法理解化学仪器的功能逻辑（如火焰加热对象、漏斗的使用方式），且中文OCR与语义关联能力极差，标注文字错漏百出且指向混乱，不符合「高度写实」和「规范标注」的核心要求。【KIMI】该图像在视觉渲染层面具有一定完成度，但在核心任务——化学仪器识别与中文标注规范性上遭遇严重失败。模型表现出明显的「幻觉」特征：仪器名称与实物对应关系全面混乱，错别字密集出现，提示词要求的「规范楷体引线标注」沦为形式上的灾难。这暴露出当前AI在结构化标注任务中的脆弱性：当需要精确对应「文字-物体-属性」三重关系时，模型倾向于生成「看似合理」的伪标签而非真实识别。玻璃光学效果与光照构图虽勉强及格，但无法挽救标注系统的崩溃。建议优先改进视觉-语言对齐能力与中文专业术语的准确性。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题