qwen-image-2.0 在「多人互动」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：qwen-image-2.0
用例名称：多人互动
测试类型：图像生成
评测维度：人物生成

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

画面中有三个小朋友在公园草地上玩耍，一个穿红色T恤的男孩在踢球，一个穿黄色连衣裙的女孩在跳绳，还有一个穿蓝色短裤的男孩在旁边拍手。阳光明媚，背景有几棵绿树。

任务要求

AI 模型需要满足以下要求：

画面中必须恰好包含三个小朋友，每个人物均清晰可见，不得多于或少于三人
必须有一个穿红色T恤的男孩正在执行踢球动作，腿部姿势需符合踢球的基本物理形态
必须有一个穿黄色连衣裙的女孩正在执行跳绳动作，手持跳绳或跳绳道具清晰可见
必须有一个穿蓝色短裤的男孩正在执行拍手动作，双手合拢姿势明确可辨
场景必须为公园草地户外环境，背景中需有至少两棵绿树，整体呈现阳光明媚的明亮色调
三个人物的肢体结构需基本正确，手部无明显多指或畸变，面部五官清晰，无严重AI生成瑕疵

评测结果

综合得分

该模型在此用例的得分为：87.4 分（满分 100 分），已通过

基础难度评测结果

得分：87.4 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一个充满阳光的户外草坪场景，三名年幼的孩子正在欢快地玩耍。左侧的小男孩穿着红色短袖和卡其色短裤，正低头踢着一个黑白相间的足球；中间的小女孩扎着双马尾，穿着黄色无袖连衣裙，正跳起在半空中练习跳绳；右侧的小男孩赤裸上身，穿着蓝色短裤，正笑着鼓掌。背景是绿色的草地和两棵枝繁叶茂的大树，阳光从左上方洒下，整体色调明亮温暖。然而，画面中存在多处明显的 AI 生成缺陷：中间女孩手中的跳绳线条逻辑混乱，绳子并没有穿过手柄，而是直接连接在手柄末端，且绳索在空中呈现出不自然的断裂和扭曲感；左侧踢球男孩的左脚脚踝处结构模糊，与足球的接触位置透视异常；右侧鼓掌男孩的手指细节模糊且数量模糊，脚下的凉鞋带子也与脚部皮肤融合在一起，缺乏真实的物理结构。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这张图像高质量地完成了提示词的全部核心要求：三名儿童、三种活动、三套服装均准确呈现，场景环境还原度极高。人体结构在多人复杂动态场景下表现稳定，仅有少量手部细节的轻微简化。整体而言是一张接近完美的多人场景生成图像，综合表现优秀。【GEMINI】这是一张在指令遵循和氛围营造上表现优异的作品，成功处理了复杂的多人动态交互场景。然而，作为挑剔的评审员，不能忽视其在精细人体结构上的典型AI败笔，尤其是手部细节的崩坏严重拉低了图像的专业质感。【KIMI】该图像在多人场景生成中表现中等偏上，基本完成了「三儿童+三动作+指定服装」的核心指令，但 anatomical_correctness 维度存在不可忽视的硬伤——手部畸变与足部结构问题在放大审视时明显。作为「测试模型生成多人场景」的任务，模型展现了一定的复杂场景编排能力，然而细节处的物理合理性与解剖准确性仍有提升空间。评分策略上，instruction_fidelity 因动作语义偏差小幅扣分，scene_environment 因背景质感问题中等扣分，anatomical_correctness 因多处结构瑕疵大幅扣分至 71 分，以拉开模型差距。

进阶难度评测结果

得分：71.0 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一个现代化的办公会议场景，五位穿着职业西装的男女正围坐在浅木色的长形会议桌旁。画面中心，一位金发女性正手持红色指示棒，指向背景投影幕布上的彩色数据图表。桌面上散布着笔记本电脑、文件资料、笔和水杯，整体色调明亮且专业。然而，画面中存在多处明显的 AI 生成缺陷。最显著的问题在于人物的手部：右侧举手提问的女性，其右手手指数量异常且扭曲，呈现出一种不自然的丛生感；左侧操作电脑的男性，其左手手指也显得模糊且比例失调。此外，投影幕布上的图表文字和数字均为无法辨认的乱码，缺乏逻辑性。会议桌上的水杯投影和光影处理也略显生硬，部分物体的边缘与背景融合得不够自然。尽管构图呈现出积极讨论的氛围，但这些细节处的畸变揭示了其 AI 生成的本质。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像基本完成了多人商务会议场景的生成任务，五人数量准确、各人物动作与提示词大体对应、屏幕图表内容丰富。最显著的失误是会议桌形态——提示词明确要求「椭圆形会议桌」，但生成结果为长方形桌，这直接影响了主位空间逻辑的表达。此外，翻阅文件的动作细节不够明确，激光笔缺乏光点效果。综合来看，属于「基本完成但有明显可识别瑕疵」的中上水平生成结果。【GEMINI】该图像在环境渲染和基本构图上达到了商务摄影的标准，但在多人场景的逻辑处理上表现较差。最严重的问题在于人物数量失控（多出一人）以及手部解剖结构的灾难性崩坏。指令遵循度方面，虽然大部分动作有所体现，但细节（如激光笔变指示杆、托下巴动作模糊）仍显严谨性不足。【KIMI】该图像作为AI生成的多人商务场景，在整体氛围营造上达到基础可用水平，但在关键的空间逻辑与指令遵循上存在硬伤。最核心的失败在于「椭圆形会议桌」与「对面两位同事」的空间关系未正确构建——实际呈现的是五人围坐长条桌的同侧排列，而非提示词要求的对面布局。此外，多人场景下的手部细节崩坏显著，举手动作与翻阅动作的执行均不到位。作为测试「多人场景生成」的图像，其在人物交互复杂性与空间准确性上未能达标，属于「看似完整、细究失效」的典型AI生成缺陷案例。

困难难度评测结果

得分：72.0 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一个热闹的亚洲夜市面馆摊位。左侧一位戴着白色厨师帽、身穿白色围裙的中年厨师正在大锅前拉面，面条在空中划出一道夸张的弧线。摊位右侧紧凑地坐着几位食客，包括一名正在喝汤的老年男子和一名看手机的年轻人。背景是灯火通明的街道，挂满了带有汉字和霓虹灯的招牌，充满了烟火气。画面色调温暖，充满了蒸汽升腾的质感。然而，画面中存在明显的 AI 生成缺陷：最显著的是厨师手中的面条，它们并没有连接在面团或锅里，而是像一捆悬浮的木棍或塑料管一样在空中扭曲，完全违背物理常识。厨师的左手手指模糊且融合在一起。右侧食客手中拿的筷子与面条的衔接非常生硬，背景中霓虹灯牌上的文字大多是无法辨认的乱码。此外，背景人物的手部动作和持物姿势也显得模糊且不自然。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这张图像较好地完成了「繁忙街头美食夜市」的核心场景构建，拉面弧线动态感是最突出的成功之处，三层次空间关系清晰，多人场景人物动作各有区分。主要失分点集中在：背景章鱼烧摊位细节缺失（提示词明确要求的关键元素）、夜间光效不够强烈、以及部分手部细节模糊。整体属于「基本完成要求但存在1-2处明显瑕疵」的水平，综合评分约在81分区间。【GEMINI】这是一张氛围感极佳但经不起细节推敲的 AI 生成图像。模型在处理复杂多人交互和特定手部动作时出现了严重的逻辑崩溃。虽然成功还原了夜市的色彩和拥挤感，但在核心指令（如拉面动态、特定顾客动作）和基础人体结构（尤其是手部持握道具）上存在多处不可忽视的畸变，属于典型的「远看形似，近看神散」的作品。【KIMI】该图像在「完成提示词要求」这一核心任务上存在系统性失败。最关键的问题在于吧台三位顾客的身份与动作完全错位，这是指令遵循度的重大失误；同时拉面面条的几何圆环形态是物理真实性的致命伤，直接暴露了AI生成对动态物理规律的理解缺失。背景摊位的类型错误（非章鱼烧）进一步削弱了场景的可信度。虽然整体色调与氛围营造有一定基础，但多处肢体结构问题与空间逻辑矛盾使其难以达到合格标准。建议重点关注：人物动作的精确对应、物理动态的真实模拟、以及文化语境的一致性。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

相关链接

反馈评测问题