qwen-image-max 在「多人互动」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:qwen-image-max
  • 用例名称:多人互动
  • 测试类型:图像生成
  • 评测维度:人物生成

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

画面中有三个小朋友在公园草地上玩耍,一个穿红色T恤的男孩在踢球,一个穿黄色连衣裙的女孩在跳绳,还有一个穿蓝色短裤的男孩在旁边拍手。阳光明媚,背景有几棵绿树。

任务要求

AI 模型需要满足以下要求:

  1. 画面中必须恰好包含三个小朋友,每个人物均清晰可见,不得多于或少于三人
  2. 必须有一个穿红色T恤的男孩正在执行踢球动作,腿部姿势需符合踢球的基本物理形态
  3. 必须有一个穿黄色连衣裙的女孩正在执行跳绳动作,手持跳绳或跳绳道具清晰可见
  4. 必须有一个穿蓝色短裤的男孩正在执行拍手动作,双手合拢姿势明确可辨
  5. 场景必须为公园草地户外环境,背景中需有至少两棵绿树,整体呈现阳光明媚的明亮色调
  6. 三个人物的肢体结构需基本正确,手部无明显多指或畸变,面部五官清晰,无严重AI生成瑕疵

评测结果

综合得分

该模型在此用例的得分为:82.2 分(满分 100 分),已通过

基础难度评测结果

  • 得分:82.2 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一个阳光明媚的公园绿地,三名年约五六岁的儿童正在草坪上愉快地玩耍。画面中央是一名穿着黄色无袖连衣裙的小女孩,她正跳起在半空中练习跳绳,头发随风飞扬;左侧是一名穿着红色T恤和牛仔短裤的小男孩,正低头踢着一个黑白相间的足球;右侧则是一名穿着蓝色套装的小男孩,正拍手欢笑。背景是郁郁葱葱的树木,阳光透过叶缝洒下斑驳的光影,整体色调明亮温暖。 然而,画面中存在多处明显的 AI 生成缺陷:首先,中间女孩手中的跳绳逻辑混乱,绳子并没有连贯地绕过身体,而是断裂并扭曲地悬浮在空中,且她的右手手指数量异常,显得模糊。其次,右侧拍手男孩的双手交叠方式极不自然,手指细长且结构畸形。此外,左侧踢球男孩的左脚脚踝处透视异常,与足球的位置关系显得生硬,草地上也缺乏自然的阴影投射。

图中展示了一个阳光明媚的公园绿地,三名年约五六岁的儿童正在草坪上愉快地玩耍。画面中央是一名穿着黄色无袖连衣裙的小女孩,她正跳起在半空中练习跳绳,头发随风飞扬;左侧是一名穿着红色T恤和牛仔短裤的小男孩,正低头踢着一个黑白相间的足球;右侧则是一名穿着蓝色套装的小男孩,正拍手欢笑。背景是郁郁葱葱的树木,阳光透过叶缝洒下斑驳的光影,整体色调明亮温暖。

然而,画面中存在多处明显的 AI 生成缺陷:首先,中间女孩手中的跳绳逻辑混乱,绳子并没有连贯地绕过身体,而是断裂并扭曲地悬浮在空中,且她的右手手指数量异常,显得模糊。其次,右侧拍手男孩的双手交叠方式极不自然,手指细长且结构畸形。此外,左侧踢球男孩的左脚脚踝处透视异常,与足球的位置关系显得生硬,草地上也缺乏自然的阴影投射。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这是一张整体质量较高的AI生成多人场景图像,成功完成了提示词的核心要求:三人物、三动作、三服装颜色均准确呈现,公园阳光环境还原度优秀。主要扣分点集中在跳绳绳体的物理形态失真以及手部细节的AI生成瑕疵,这是当前AI模型在动态道具和手部生成上的典型短板。综合来看,该图像属于「基本完成要求,存在1-2处明显瑕疵」的水准,加权综合分约为86分。 【GEMINI】这是一张在指令遵循和氛围营造上表现优异的作品,但在多人场景的肢体细节处理上未能经受住严苛审查。模型成功理解了复杂的动作组合(踢球、跳绳、拍手),但在处理「跳绳」这一道具与人体的交互时出现了明显的物理逻辑错误,且手部微小细节的畸变拉低了整体的专业水准。 【KIMI】该图像在「看起来像个场景」的表层合格,但经不起专业审视。三人动作中两人未真正执行提示词要求,解剖结构错误在放大后暴露明显。作为「测试模型生成多人场景」的样本,其核心价值在于展示了当前AI在「动作语义理解」与「多人物手部细节」上的典型瓶颈——模型能摆放人物位置,却难以让姿态符合物理真实。评分需拉开差距:场景环境尚可,指令遵循与解剖正确性均不及格。

进阶难度评测结果

  • 得分:63.6 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

画面中展示了一个现代化的会议室场景,五名身着商务正装的男女正围坐在棕色木质会议桌旁讨论。背景是一个大型投影屏幕,上面显示着彩色的柱状图和饼图。一位金发中年女性站立着,正用红色激光笔指向屏幕上的数据,其他成员则在倾听或记录。室内光线柔和,整体色调以深蓝、白和木色为主,营造出专业的办公氛围。 然而,画面中存在多处明显的 AI 生成缺陷:首先,演讲女性右手持握的激光笔形状扭曲,且笔尖并未与屏幕上的红点对齐;其次,左侧男性的左手手指数量和结构异常,显得模糊且不自然;右侧坐着的男性右手托腮时,手指与下巴的衔接处逻辑混乱;最明显的错误在于右下角,一名女性举起的右手只有四根细长且扭曲的手指,且其左手拿着的纸张边缘与手臂融合。此外,投影幕布上的文字和图表标签均为无法辨认的乱码,缺乏实际含义。

画面中展示了一个现代化的会议室场景,五名身着商务正装的男女正围坐在棕色木质会议桌旁讨论。背景是一个大型投影屏幕,上面显示着彩色的柱状图和饼图。一位金发中年女性站立着,正用红色激光笔指向屏幕上的数据,其他成员则在倾听或记录。室内光线柔和,整体色调以深蓝、白和木色为主,营造出专业的办公氛围。

然而,画面中存在多处明显的 AI 生成缺陷:首先,演讲女性右手持握的激光笔形状扭曲,且笔尖并未与屏幕上的红点对齐;其次,左侧男性的左手手指数量和结构异常,显得模糊且不自然;右侧坐着的男性右手托腮时,手指与下巴的衔接处逻辑混乱;最明显的错误在于右下角,一名女性举起的右手只有四根细长且扭曲的手指,且其左手拿着的纸张边缘与手臂融合。此外,投影幕布上的文字和图表标签均为无法辨认的乱码,缺乏实际含义。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在核心场景氛围和部分角色动作上完成度尚可,但存在两个根本性缺陷:其一,人物数量不足5人,第5位人物缺失;其二,会议桌形态为长方形而非提示词要求的椭圆形。这两点直接拉低了指令遵循度和空间逻辑的得分。人体结构方面整体尚可,但持笔手部细节和举手姿态的精准度有待提升。综合来看,图像仅部分完成了提示词的要求,属于「有亮点但核心要素缺失」的中等偏下水平。 【GEMINI】这张图像在构图和氛围营造上达到了商务摄影的标准,但在严苛的细节审查下暴露了大量 AI 生成的典型缺陷。最严重的问题集中在多人场景下的手部解剖结构(几乎全员手部崩坏)以及关键道具(激光笔)的物理逻辑错误。此外,未能精准控制人物数量,导致画面边缘出现了多余的肢体干扰,属于中等偏下的生成质量。 【KIMI】该图像在人物数量和基础场景搭建上基本达标,但在核心空间逻辑和动作细节执行上存在明显缺陷。会议桌形态错误、投影屏幕与主位者的空间关系矛盾、以及多处人物动作与提示词要求不符,反映出模型在理解复杂空间布局和精确动作描述方面的不足。整体属于「部分完成要求,有多处需要改进」的层级。

困难难度评测结果

  • 得分:69.4 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

画面中展示了一个热闹非凡的亚洲夜市摊位,充满了烟火气息。左侧一位穿着黑色厨师服、戴着高白帽的厨师正在表演拉面,他手中挥舞着一大把呈环状散开的黄色面条,面条在空中划出动感的弧线。摊位上方挂着几盏明亮的白炽灯,背景中热气腾腾,许多食客坐在简陋的木质长桌前用餐,街道远处的霓虹灯招牌闪烁,营造出一种拥挤而温馨的都市夜生活氛围。 然而,画面中存在明显的 AI 生成缺陷。最显著的是厨师的动作极不自然,面条的一端似乎直接从他的嘴里伸出,且他的手部与面条的连接处结构混乱。右侧前景中,一名正在看手机的年轻男子的手指出现了严重的重叠和扭曲,显得非常畸形。此外,背景中摊位的招牌文字模糊不清,呈现出无意义的乱码符号。整体构图虽然生动,但这些细节上的逻辑错误揭示了其 AI 生成的本质。

画面中展示了一个热闹非凡的亚洲夜市摊位,充满了烟火气息。左侧一位穿着黑色厨师服、戴着高白帽的厨师正在表演拉面,他手中挥舞着一大把呈环状散开的黄色面条,面条在空中划出动感的弧线。摊位上方挂着几盏明亮的白炽灯,背景中热气腾腾,许多食客坐在简陋的木质长桌前用餐,街道远处的霓虹灯招牌闪烁,营造出一种拥挤而温馨的都市夜生活氛围。

然而,画面中存在明显的 AI 生成缺陷。最显著的是厨师的动作极不自然,面条的一端似乎直接从他的嘴里伸出,且他的手部与面条的连接处结构混乱。右侧前景中,一名正在看手机的年轻男子的手指出现了严重的重叠和扭曲,显得非常畸形。此外,背景中摊位的招牌文字模糊不清,呈现出无意义的乱码符号。整体构图虽然生动,但这些细节上的逻辑错误揭示了其 AI 生成的本质。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这张图像在核心视觉表现上有相当亮眼的成就——拉面弧线动态感是难得的高质量AI生成表现,三层次空间构建和夜市氛围营造也较为成功。然而在指令精确遵循方面存在明显失误:最关键的三位顾客座位顺序与提示词不符(左右对调),这是多人场景生成中常见的「位置混淆」问题。手部细节是整张图最大的技术短板,右侧男青年握手机的手部完全失真,厨师拉面手势也存在手指问题。背景章鱼烧摊位的细节完成度不足。综合来看,这是一张「氛围感强、细节有缺陷」的典型AI生成图像,在多人复杂场景的精确指令遵循上仍有明显提升空间。 【GEMINI】这是一张氛围感极佳但经不起细节推敲的 AI 生成图像。模型在处理复杂多人交互和特定动作指令时表现较差,尤其是厨师拉面的核心动作产生了严重的逻辑错误(面条连在嘴上),且在手部微操(持筷、握手机)上出现了典型的 AI 畸变。虽然环境渲染和色彩表现达到了专业摄影水准,但作为功能性图像,其解剖学和逻辑错误使其评价大幅下降。 【KIMI】该图像作为AI生成的多人复杂场景,在整体构图和氛围营造上达到一定水准,但在关键指令遵循上存在明显短板。最核心的失败在于「筷子夹面条」这一标志性动作未形成有效接触,以及「拉面弧线」的动态表现缺失,直接削弱了提示词的核心叙事。人体结构方面,厨师手部畸变和背景人物面部简化是典型AI缺陷。空间逻辑上,三层次虽在但透视与景深处理平庸。综合判定为「部分完成要求,有多处需要改进」,尤其在动作精确性和人体解剖准确性上需大幅提升。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...