qwen-image-2.0 在「多人互动」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:qwen-image-2.0
- 用例名称:多人互动
- 测试类型:图像生成
- 评测维度:人物生成
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
画面中有三个小朋友在公园草地上玩耍,一个穿红色T恤的男孩在踢球,一个穿黄色连衣裙的女孩在跳绳,还有一个穿蓝色短裤的男孩在旁边拍手。阳光明媚,背景有几棵绿树。
任务要求
AI 模型需要满足以下要求:
- 画面中必须恰好包含三个小朋友,每个人物均清晰可见,不得多于或少于三人
- 必须有一个穿红色T恤的男孩正在执行踢球动作,腿部姿势需符合踢球的基本物理形态
- 必须有一个穿黄色连衣裙的女孩正在执行跳绳动作,手持跳绳或跳绳道具清晰可见
- 必须有一个穿蓝色短裤的男孩正在执行拍手动作,双手合拢姿势明确可辨
- 场景必须为公园草地户外环境,背景中需有至少两棵绿树,整体呈现阳光明媚的明亮色调
- 三个人物的肢体结构需基本正确,手部无明显多指或畸变,面部五官清晰,无严重AI生成瑕疵
评测结果
综合得分
该模型在此用例的得分为:87.4 分(满分 100 分),已通过
基础难度评测结果
- 得分:87.4 分
- 通过状态:已通过
模型生成产物
该模型生成了以下图片:
图片内容描述(由 AI 生成,供你参考)
图中展示了一个充满阳光的户外草坪场景,三名年幼的孩子正在欢快地玩耍。左侧的小男孩穿着红色短袖和卡其色短裤,正低头踢着一个黑白相间的足球;中间的小女孩扎着双马尾,穿着黄色无袖连衣裙,正跳起在半空中练习跳绳;右侧的小男孩赤裸上身,穿着蓝色短裤,正笑着鼓掌。背景是绿色的草地和两棵枝繁叶茂的大树,阳光从左上方洒下,整体色调明亮温暖。 然而,画面中存在多处明显的 AI 生成缺陷:中间女孩手中的跳绳线条逻辑混乱,绳子并没有穿过手柄,而是直接连接在手柄末端,且绳索在空中呈现出不自然的断裂和扭曲感;左侧踢球男孩的左脚脚踝处结构模糊,与足球的接触位置透视异常;右侧鼓掌男孩的手指细节模糊且数量模糊,脚下的凉鞋带子也与脚部皮肤融合在一起,缺乏真实的物理结构。
注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】这张图像高质量地完成了提示词的全部核心要求:三名儿童、三种活动、三套服装均准确呈现,场景环境还原度极高。人体结构在多人复杂动态场景下表现稳定,仅有少量手部细节的轻微简化。整体而言是一张接近完美的多人场景生成图像,综合表现优秀。 【GEMINI】这是一张在指令遵循和氛围营造上表现优异的作品,成功处理了复杂的多人动态交互场景。然而,作为挑剔的评审员,不能忽视其在精细人体结构上的典型AI败笔,尤其是手部细节的崩坏严重拉低了图像的专业质感。 【KIMI】该图像在多人场景生成中表现中等偏上,基本完成了「三儿童+三动作+指定服装」的核心指令,但 anatomical_correctness 维度存在不可忽视的硬伤——手部畸变与足部结构问题在放大审视时明显。作为「测试模型生成多人场景」的任务,模型展现了一定的复杂场景编排能力,然而细节处的物理合理性与解剖准确性仍有提升空间。评分策略上,instruction_fidelity 因动作语义偏差小幅扣分,scene_environment 因背景质感问题中等扣分,anatomical_correctness 因多处结构瑕疵大幅扣分至 71 分,以拉开模型差距。
进阶难度评测结果
- 得分:71.0 分
- 通过状态:已通过
模型生成产物
该模型生成了以下图片:
图片内容描述(由 AI 生成,供你参考)
图中展示了一个现代化的办公会议场景,五位穿着职业西装的男女正围坐在浅木色的长形会议桌旁。画面中心,一位金发女性正手持红色指示棒,指向背景投影幕布上的彩色数据图表。桌面上散布着笔记本电脑、文件资料、笔和水杯,整体色调明亮且专业。 然而,画面中存在多处明显的 AI 生成缺陷。最显著的问题在于人物的手部:右侧举手提问的女性,其右手手指数量异常且扭曲,呈现出一种不自然的丛生感;左侧操作电脑的男性,其左手手指也显得模糊且比例失调。此外,投影幕布上的图表文字和数字均为无法辨认的乱码,缺乏逻辑性。会议桌上的水杯投影和光影处理也略显生硬,部分物体的边缘与背景融合得不够自然。尽管构图呈现出积极讨论的氛围,但这些细节处的畸变揭示了其 AI 生成的本质。
注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】该图像基本完成了多人商务会议场景的生成任务,五人数量准确、各人物动作与提示词大体对应、屏幕图表内容丰富。最显著的失误是会议桌形态——提示词明确要求「椭圆形会议桌」,但生成结果为长方形桌,这直接影响了主位空间逻辑的表达。此外,翻阅文件的动作细节不够明确,激光笔缺乏光点效果。综合来看,属于「基本完成但有明显可识别瑕疵」的中上水平生成结果。 【GEMINI】该图像在环境渲染和基本构图上达到了商务摄影的标准,但在多人场景的逻辑处理上表现较差。最严重的问题在于人物数量失控(多出一人)以及手部解剖结构的灾难性崩坏。指令遵循度方面,虽然大部分动作有所体现,但细节(如激光笔变指示杆、托下巴动作模糊)仍显严谨性不足。 【KIMI】该图像作为AI生成的多人商务场景,在整体氛围营造上达到基础可用水平,但在关键的空间逻辑与指令遵循上存在硬伤。最核心的失败在于「椭圆形会议桌」与「对面两位同事」的空间关系未正确构建——实际呈现的是五人围坐长条桌的同侧排列,而非提示词要求的对面布局。此外,多人场景下的手部细节崩坏显著,举手动作与翻阅动作的执行均不到位。作为测试「多人场景生成」的图像,其在人物交互复杂性与空间准确性上未能达标,属于「看似完整、细究失效」的典型AI生成缺陷案例。
困难难度评测结果
- 得分:72.0 分
- 通过状态:已通过
模型生成产物
该模型生成了以下图片:
图片内容描述(由 AI 生成,供你参考)
图中展示了一个热闹的亚洲夜市面馆摊位。左侧一位戴着白色厨师帽、身穿白色围裙的中年厨师正在大锅前拉面,面条在空中划出一道夸张的弧线。摊位右侧紧凑地坐着几位食客,包括一名正在喝汤的老年男子和一名看手机的年轻人。背景是灯火通明的街道,挂满了带有汉字和霓虹灯的招牌,充满了烟火气。画面色调温暖,充满了蒸汽升腾的质感。 然而,画面中存在明显的 AI 生成缺陷:最显著的是厨师手中的面条,它们并没有连接在面团或锅里,而是像一捆悬浮的木棍或塑料管一样在空中扭曲,完全违背物理常识。厨师的左手手指模糊且融合在一起。右侧食客手中拿的筷子与面条的衔接非常生硬,背景中霓虹灯牌上的文字大多是无法辨认的乱码。此外,背景人物的手部动作和持物姿势也显得模糊且不自然。
注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】这张图像较好地完成了「繁忙街头美食夜市」的核心场景构建,拉面弧线动态感是最突出的成功之处,三层次空间关系清晰,多人场景人物动作各有区分。主要失分点集中在:背景章鱼烧摊位细节缺失(提示词明确要求的关键元素)、夜间光效不够强烈、以及部分手部细节模糊。整体属于「基本完成要求但存在1-2处明显瑕疵」的水平,综合评分约在81分区间。 【GEMINI】这是一张氛围感极佳但经不起细节推敲的 AI 生成图像。模型在处理复杂多人交互和特定手部动作时出现了严重的逻辑崩溃。虽然成功还原了夜市的色彩和拥挤感,但在核心指令(如拉面动态、特定顾客动作)和基础人体结构(尤其是手部持握道具)上存在多处不可忽视的畸变,属于典型的「远看形似,近看神散」的作品。 【KIMI】该图像在「完成提示词要求」这一核心任务上存在系统性失败。最关键的问题在于吧台三位顾客的身份与动作完全错位,这是指令遵循度的重大失误;同时拉面面条的几何圆环形态是物理真实性的致命伤,直接暴露了AI生成对动态物理规律的理解缺失。背景摊位的类型错误(非章鱼烧)进一步削弱了场景的可信度。虽然整体色调与氛围营造有一定基础,但多处肢体结构问题与空间逻辑矛盾使其难以达到合格标准。建议重点关注:人物动作的精确对应、物理动态的真实模拟、以及文化语境的一致性。
相关链接
您可以通过以下链接查看更多相关内容: