wan2.7-image 在「四个物体」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：wan2.7-image
用例名称：四个物体
测试类型：图像生成
评测维度：数量控制

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

在白色背景上，画四个不同颜色的气球，分别是红色、黄色、蓝色和绿色，每个气球都有细长的绳子垂下，气球漂浮在空中，相互之间有一定间隔。

任务要求

AI 模型需要满足以下要求：

图像中必须恰好包含4个气球，不多不少，每个气球形态完整且清晰可辨
四个气球的颜色须与以下对应关系严格一致：红色1个、黄色1个、蓝色1个、绿色1个，四种颜色各出现且仅出现一次，不得串色或重复
四个气球均呈漂浮状态（位于画面中上部），气球之间保持明显间隔，不得发生重叠或遮挡
每个气球底部须有一根细长绳子垂下，共计4根绳子，绳子清晰可见
背景须为纯白色，不得出现渐变、纹理或其他场景元素

评测结果

综合得分

该模型在此用例的得分为：90.8 分（满分 100 分），已通过

基础难度评测结果

得分：90.8 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这是一张高质量的 AI 生成图像，几乎完美地完成了提示词的所有要求。四个气球的数量、颜色、空间布局和细节要素均严格符合规范，背景纯净，视觉呈现清晰。唯一极其微小的瑕疵是绿色气球绳子下端略显纤细，但这不影响整体完成度。该图像充分展示了模型在多物体生成、颜色属性绑定和空间布局控制方面的优秀能力。【GEMINI】该图像在基础计数任务上表现出色，但在复杂的属性绑定和空间逻辑遵循上表现平庸。颜色偏差和物体重叠是视觉上的致命伤，背景的纯净度处理也未达到专业设计稿的要求。作为一张以‘简洁、准确’为目标的AI生成图，其逻辑严密性有待加强。【KIMI】整体上，图像质量很高，基本完美地完成了提示词要求，气球的颜色、数量和空间布局都符合预期。

进阶难度评测结果

得分：84.5 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在数量准确性和属性绑定方面表现优秀，四种水果的种类、颜色、形态均精准符合提示词要求，且每种水果清晰可辨、形态真实。背景虚化和市场环境氛围营造也达到了较高水准。主要扣分点在于空间构图维度：虽然展示架具有两层结构，但四种目标水果均集中摆放在上层的同一水平面上，未实现「分别放在不同层面上」的空间分布要求。整体而言，图像完成了提示词的核心要求，但在空间布局的层次感上存在改进空间。【GEMINI】这张图像在宏观视觉上较好地捕捉了水果摊的氛围，但在严苛的逻辑检查下暴露出多处破绽。主要问题在于对‘数量’限制的理解不够纯粹（出现了散落零件）以及木质展示架的物理结构生成逻辑错误。作为针对模型指令遵循能力的测试，其在空间构图和数量精度维度上仍有较大进步空间。【KIMI】图像基本完成了提示词的要求，水果的数量和种类准确，摆放位置合理。但在颜色属性和背景模糊效果上还有改进空间。

困难难度评测结果

得分：65.9 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在氛围营造上表现尚可，但在核心任务「生成四个不同风格路灯」上存在多处严重失误。最关键的问题是：四盏灯中有三盏发出相同的暖黄色光（完全违反光色差异要求）；维多利亚灯与复古铁艺灯风格高度雷同无法区分；日式石灯笼以地面摆件而非路灯形式呈现。这些问题导致提示词的核心测试目标（四个不同风格、不同光色的路灯）基本未能实现，整体完成度较低。【GEMINI】这是一张典型的‘氛围优于逻辑’的AI生成图像。在视觉艺术表现力和深夜氛围的渲染上达到了专业级水准，但在执行复杂的‘多对象精确控制’指令时表现欠佳。模型未能严格遵守数量约束，且在处理相似风格（维多利亚 vs 复古铁艺）和光色分配时出现了特征混淆，属于‘第一眼惊艳，经不起推敲’的作品。【KIMI】总体而言，这张AI生成的图像基本完成了提示词的要求，但在路灯数量、光色差异和倒影效果等方面还有改进空间。如果能增加复古铁艺灯，并加强光色和倒影的细节表现，整体质量将更上一层楼。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题