qwen-image-max 在「多人互动」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：qwen-image-max
用例名称：多人互动
测试类型：图像生成
评测维度：人物生成

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

画面中有三个小朋友在公园草地上玩耍，一个穿红色T恤的男孩在踢球，一个穿黄色连衣裙的女孩在跳绳，还有一个穿蓝色短裤的男孩在旁边拍手。阳光明媚，背景有几棵绿树。

任务要求

AI 模型需要满足以下要求：

画面中必须恰好包含三个小朋友，每个人物均清晰可见，不得多于或少于三人
必须有一个穿红色T恤的男孩正在执行踢球动作，腿部姿势需符合踢球的基本物理形态
必须有一个穿黄色连衣裙的女孩正在执行跳绳动作，手持跳绳或跳绳道具清晰可见
必须有一个穿蓝色短裤的男孩正在执行拍手动作，双手合拢姿势明确可辨
场景必须为公园草地户外环境，背景中需有至少两棵绿树，整体呈现阳光明媚的明亮色调
三个人物的肢体结构需基本正确，手部无明显多指或畸变，面部五官清晰，无严重AI生成瑕疵

评测结果

综合得分

该模型在此用例的得分为：82.2 分（满分 100 分），已通过

基础难度评测结果

得分：82.2 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一个阳光明媚的公园绿地，三名年约五六岁的儿童正在草坪上愉快地玩耍。画面中央是一名穿着黄色无袖连衣裙的小女孩，她正跳起在半空中练习跳绳，头发随风飞扬；左侧是一名穿着红色T恤和牛仔短裤的小男孩，正低头踢着一个黑白相间的足球；右侧则是一名穿着蓝色套装的小男孩，正拍手欢笑。背景是郁郁葱葱的树木，阳光透过叶缝洒下斑驳的光影，整体色调明亮温暖。然而，画面中存在多处明显的 AI 生成缺陷：首先，中间女孩手中的跳绳逻辑混乱，绳子并没有连贯地绕过身体，而是断裂并扭曲地悬浮在空中，且她的右手手指数量异常，显得模糊。其次，右侧拍手男孩的双手交叠方式极不自然，手指细长且结构畸形。此外，左侧踢球男孩的左脚脚踝处透视异常，与足球的位置关系显得生硬，草地上也缺乏自然的阴影投射。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这是一张整体质量较高的AI生成多人场景图像，成功完成了提示词的核心要求：三人物、三动作、三服装颜色均准确呈现，公园阳光环境还原度优秀。主要扣分点集中在跳绳绳体的物理形态失真以及手部细节的AI生成瑕疵，这是当前AI模型在动态道具和手部生成上的典型短板。综合来看，该图像属于「基本完成要求，存在1-2处明显瑕疵」的水准，加权综合分约为86分。【GEMINI】这是一张在指令遵循和氛围营造上表现优异的作品，但在多人场景的肢体细节处理上未能经受住严苛审查。模型成功理解了复杂的动作组合（踢球、跳绳、拍手），但在处理「跳绳」这一道具与人体的交互时出现了明显的物理逻辑错误，且手部微小细节的畸变拉低了整体的专业水准。【KIMI】该图像在「看起来像个场景」的表层合格，但经不起专业审视。三人动作中两人未真正执行提示词要求，解剖结构错误在放大后暴露明显。作为「测试模型生成多人场景」的样本，其核心价值在于展示了当前AI在「动作语义理解」与「多人物手部细节」上的典型瓶颈——模型能摆放人物位置，却难以让姿态符合物理真实。评分需拉开差距：场景环境尚可，指令遵循与解剖正确性均不及格。

进阶难度评测结果

得分：63.6 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

画面中展示了一个现代化的会议室场景，五名身着商务正装的男女正围坐在棕色木质会议桌旁讨论。背景是一个大型投影屏幕，上面显示着彩色的柱状图和饼图。一位金发中年女性站立着，正用红色激光笔指向屏幕上的数据，其他成员则在倾听或记录。室内光线柔和，整体色调以深蓝、白和木色为主，营造出专业的办公氛围。然而，画面中存在多处明显的 AI 生成缺陷：首先，演讲女性右手持握的激光笔形状扭曲，且笔尖并未与屏幕上的红点对齐；其次，左侧男性的左手手指数量和结构异常，显得模糊且不自然；右侧坐着的男性右手托腮时，手指与下巴的衔接处逻辑混乱；最明显的错误在于右下角，一名女性举起的右手只有四根细长且扭曲的手指，且其左手拿着的纸张边缘与手臂融合。此外，投影幕布上的文字和图表标签均为无法辨认的乱码，缺乏实际含义。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在核心场景氛围和部分角色动作上完成度尚可，但存在两个根本性缺陷：其一，人物数量不足5人，第5位人物缺失；其二，会议桌形态为长方形而非提示词要求的椭圆形。这两点直接拉低了指令遵循度和空间逻辑的得分。人体结构方面整体尚可，但持笔手部细节和举手姿态的精准度有待提升。综合来看，图像仅部分完成了提示词的要求，属于「有亮点但核心要素缺失」的中等偏下水平。【GEMINI】这张图像在构图和氛围营造上达到了商务摄影的标准，但在严苛的细节审查下暴露了大量 AI 生成的典型缺陷。最严重的问题集中在多人场景下的手部解剖结构（几乎全员手部崩坏）以及关键道具（激光笔）的物理逻辑错误。此外，未能精准控制人物数量，导致画面边缘出现了多余的肢体干扰，属于中等偏下的生成质量。【KIMI】该图像在人物数量和基础场景搭建上基本达标，但在核心空间逻辑和动作细节执行上存在明显缺陷。会议桌形态错误、投影屏幕与主位者的空间关系矛盾、以及多处人物动作与提示词要求不符，反映出模型在理解复杂空间布局和精确动作描述方面的不足。整体属于「部分完成要求，有多处需要改进」的层级。

困难难度评测结果

得分：69.4 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

画面中展示了一个热闹非凡的亚洲夜市摊位，充满了烟火气息。左侧一位穿着黑色厨师服、戴着高白帽的厨师正在表演拉面，他手中挥舞着一大把呈环状散开的黄色面条，面条在空中划出动感的弧线。摊位上方挂着几盏明亮的白炽灯，背景中热气腾腾，许多食客坐在简陋的木质长桌前用餐，街道远处的霓虹灯招牌闪烁，营造出一种拥挤而温馨的都市夜生活氛围。然而，画面中存在明显的 AI 生成缺陷。最显著的是厨师的动作极不自然，面条的一端似乎直接从他的嘴里伸出，且他的手部与面条的连接处结构混乱。右侧前景中，一名正在看手机的年轻男子的手指出现了严重的重叠和扭曲，显得非常畸形。此外，背景中摊位的招牌文字模糊不清，呈现出无意义的乱码符号。整体构图虽然生动，但这些细节上的逻辑错误揭示了其 AI 生成的本质。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这张图像在核心视觉表现上有相当亮眼的成就——拉面弧线动态感是难得的高质量AI生成表现，三层次空间构建和夜市氛围营造也较为成功。然而在指令精确遵循方面存在明显失误：最关键的三位顾客座位顺序与提示词不符（左右对调），这是多人场景生成中常见的「位置混淆」问题。手部细节是整张图最大的技术短板，右侧男青年握手机的手部完全失真，厨师拉面手势也存在手指问题。背景章鱼烧摊位的细节完成度不足。综合来看，这是一张「氛围感强、细节有缺陷」的典型AI生成图像，在多人复杂场景的精确指令遵循上仍有明显提升空间。【GEMINI】这是一张氛围感极佳但经不起细节推敲的 AI 生成图像。模型在处理复杂多人交互和特定动作指令时表现较差，尤其是厨师拉面的核心动作产生了严重的逻辑错误（面条连在嘴上），且在手部微操（持筷、握手机）上出现了典型的 AI 畸变。虽然环境渲染和色彩表现达到了专业摄影水准，但作为功能性图像，其解剖学和逻辑错误使其评价大幅下降。【KIMI】该图像作为AI生成的多人复杂场景，在整体构图和氛围营造上达到一定水准，但在关键指令遵循上存在明显短板。最核心的失败在于「筷子夹面条」这一标志性动作未形成有效接触，以及「拉面弧线」的动态表现缺失，直接削弱了提示词的核心叙事。人体结构方面，厨师手部畸变和背景人物面部简化是典型AI缺陷。空间逻辑上，三层次虽在但透视与景深处理平庸。综合判定为「部分完成要求，有多处需要改进」，尤其在动作精确性和人体解剖准确性上需大幅提升。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

相关链接

反馈评测问题