qwen-image-2.0-pro 在「互动动作」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:qwen-image-2.0-pro
  • 用例名称:互动动作
  • 测试类型:图像生成
  • 评测维度:动作表现

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张图片:一位母亲正在教小女儿骑自行车,母亲双手扶着车座后面,身体前倾,正在小跑着推动自行车。小女儿双手握住车把,双脚踩在踏板上,身体略显紧张但充满期待。画面要体现出母亲推动的动作和女儿学习平衡的姿态。

任务要求

AI 模型需要满足以下要求:

  1. 母亲双手扶住自行车车座后方(非车架、非车把),手部接触位置清晰可辨
  2. 母亲身体明显前倾,重心向前,呈现出推动自行车前行的动态姿势
  3. 小女儿双手握住车把,手部与车把存在明确的接触关系
  4. 小女儿双脚踩在踏板上,脚与踏板接触合理,无明显悬空
  5. 母亲位于自行车正后方,女儿坐于车座上,两人空间位置关系符合骑车教学场景
  6. 画面整体传达出母亲推行中的动势与女儿学习平衡时的紧张期待感,体现教学互动关系

评测结果

综合得分

该模型在此用例的得分为:70.7 分(满分 100 分),已通过

基础难度评测结果

  • 得分:70.7 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展现了一个温馨的户外场景,一位母亲正在阳光明媚的街道上教年幼的女儿骑自行车。母亲身穿灰色长袖毛衣和蓝色牛仔裤,正弯腰奔跑,双手扶着自行车的后座以保持平衡。小女孩约四五岁,穿着灰色短袖和牛仔裤,神情专注且略显紧张,双手紧握车把。背景是郁郁葱葱的绿色树木,阳光从侧后方洒下,为人物轮廓镀上了一层金边。 然而,画面中存在多处明显的 AI 生成缺陷:最显著的是母亲的右手,其手指结构混乱,似乎与自行车的座垫融合在了一起,且手掌形状异常。自行车的构造也存在逻辑错误,前叉处缺少连接车轮的轴承,刹车线线条杂乱且没有明确的终点。此外,小女孩左脚下方的脚踏板悬浮在空中,并未与单车的传动系统连接,母亲左脚的鞋子边缘也显得模糊且与地面衔接不自然。这些细节揭示了图像并非真实摄影。

图中展现了一个温馨的户外场景,一位母亲正在阳光明媚的街道上教年幼的女儿骑自行车。母亲身穿灰色长袖毛衣和蓝色牛仔裤,正弯腰奔跑,双手扶着自行车的后座以保持平衡。小女孩约四五岁,穿着灰色短袖和牛仔裤,神情专注且略显紧张,双手紧握车把。背景是郁郁葱葱的绿色树木,阳光从侧后方洒下,为人物轮廓镀上了一层金边。

然而,画面中存在多处明显的 AI 生成缺陷:最显著的是母亲的右手,其手指结构混乱,似乎与自行车的座垫融合在了一起,且手掌形状异常。自行车的构造也存在逻辑错误,前叉处缺少连接车轮的轴承,刹车线线条杂乱且没有明确的终点。此外,小女孩左脚下方的脚踏板悬浮在空中,并未与单车的传动系统连接,母亲左脚的鞋子边缘也显得模糊且与地面衔接不自然。这些细节揭示了图像并非真实摄影。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】整体而言,这张图像在动态表现和情感叙事上表现优秀,母女教学骑车的场景氛围营造得相当成功。最主要的扣分点集中在「母亲双手扶车座后方」这一核心动作要求未能准确还原——手部实际接触的是车架区域而非车座正后方,这是提示词中最具体的动作描述,未能精准执行。其余方面基本达标,是一张完成度较高但存在关键细节偏差的生成图像。 【GEMINI】图像在氛围营造和宏观动态上表现出色,但在严苛的物理逻辑和指令执行上存在显著缺陷。母亲单手扶车且手指畸变、自行车关键部件(踏板)缺失,直接违反了提示词中的核心动作要求。作为教学场景,手脚的接触点是评价互动的核心,该模型在精细肢体控制上失分较多。 【KIMI】该图像在人物表情和氛围营造上有一定水准,但在核心动作还原上存在严重失误。母亲手部位置偏离提示词要求的「车座后方」,改为握持座杆,这是不可接受的指令遵循失败。同时母亲身体站位、腿部姿态的物理不合理性,暴露出AI在复杂人体互动场景中的空间逻辑缺陷。作为「测试模型表现人物互动」的生成任务,该结果未能通过关键动作准确性检验。

进阶难度评测结果

  • 得分:75.2 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了三位舞者在纯白色背景下进行现代舞表演的场景,整体色调简洁,以深蓝、灰色和黑色服装为主。画面中心是一位女性舞者,她单脚伫立,双臂高举,右腿向侧上方优美地伸展;左侧是一位女性舞者正处于跃起状态,身体蜷缩,双臂向前伸展;右侧则是一位男性舞者,他身体倒置,仅靠单手支撑地面,双腿在空中弯曲,展现出极强的力量感。 然而,画面中存在多处明显的 AI 生成缺陷:中心女性舞者的右手手指扭曲且数量异常,左脚脚趾结构模糊;左侧跃起女性的双手手指呈现出不自然的融合状,且其右脚掌的形状过于细长,缺乏正常的足弓结构;右侧男性舞者的左手(支撑地面的手)手指过长且关节僵硬,其悬空的右脚脚趾也显得杂乱模糊。此外,人物之间的光影衔接略显生硬,缺乏真实的物理互动感。

图中展示了三位舞者在纯白色背景下进行现代舞表演的场景,整体色调简洁,以深蓝、灰色和黑色服装为主。画面中心是一位女性舞者,她单脚伫立,双臂高举,右腿向侧上方优美地伸展;左侧是一位女性舞者正处于跃起状态,身体蜷缩,双臂向前伸展;右侧则是一位男性舞者,他身体倒置,仅靠单手支撑地面,双腿在空中弯曲,展现出极强的力量感。

然而,画面中存在多处明显的 AI 生成缺陷:中心女性舞者的右手手指扭曲且数量异常,左脚脚趾结构模糊;左侧跃起女性的双手手指呈现出不自然的融合状,且其右脚掌的形状过于细长,缺乏正常的足弓结构;右侧男性舞者的左手(支撑地面的手)手指过长且关节僵硬,其悬空的右脚脚趾也显得杂乱模糊。此外,人物之间的光影衔接略显生硬,缺乏真实的物理互动感。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】图像整体质量尚可,三位舞者的出现与位置关系清晰,人体解剖学表现良好。但核心动作还原存在明显偏差:中间舞者的后腿方向与角度是最大失误,向侧前方抬腿约90度与提示词要求的「向后高抬180度」相差甚远;右侧舞者侧撑动作缺乏腾空瞬间感。整体偏向静态摆拍效果,未能充分传达现代舞的动态张力与瞬间感。综合评估属于「部分完成要求」的中等水平。 【GEMINI】该图像在构图布局上完成了基础要求,但在核心动作还原和人体结构准确性上表现糟糕。特别是关键的「180度后踢腿」和「侧翻瞬间」均未能准确表达,且伴随明显的AI生成常见肢体畸形(多趾、断指),严重影响了专业视觉评审下的质量评价。 【KIMI】该图像在人物完整性和空间布局上表现良好,但在核心动作执行上存在严重缺陷:中间舞者后腿角度远未达标,右侧舞者动作性质完全偏离「侧翻」要求而呈现失控坠落状态,且伴随解剖学不合理问题。视觉动感表现平庸,缺乏现代舞应有的瞬间爆发力。综合判定为「部分完成要求,有多处需要改进」层级,action_accuracy与anatomical_correctness维度得分显著偏低。

困难难度评测结果

  • 得分:65.9 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一个繁忙的地铁站台场景。画面中央,一名穿着深蓝色西装、打着领带的白人男子正拎着棕色公文包,大步跨向即将关闭或正在运行的地铁车门,他的领带因奔跑而向后飘起,神情焦急。背景是一列银色的金属材质地铁,车窗内挤满了乘客,站台上还有几位亚裔面孔的行人正注视着这一幕。整体色调偏冷,光线明亮,营造出一种都市生活的紧迫感。 然而,画面中存在多处明显的 AI 生成缺陷:最显著的是奔跑男子的领带,它竟然穿透了他的身体,从背后凭空延伸出来,完全不符合物理逻辑。男子的右手握拳姿势僵硬,手指细节模糊。此外,背景中车窗内的乘客面部特征扭曲,左侧站立女性的右手手指显得异常细长且结构混乱。地铁车门的边缘与男子腿部的交界处也存在透视衔接不自然的问题,显示出 AI 在处理复杂动态构图时的局限。

图中展示了一个繁忙的地铁站台场景。画面中央,一名穿着深蓝色西装、打着领带的白人男子正拎着棕色公文包,大步跨向即将关闭或正在运行的地铁车门,他的领带因奔跑而向后飘起,神情焦急。背景是一列银色的金属材质地铁,车窗内挤满了乘客,站台上还有几位亚裔面孔的行人正注视着这一幕。整体色调偏冷,光线明亮,营造出一种都市生活的紧迫感。

然而,画面中存在多处明显的 AI 生成缺陷:最显著的是奔跑男子的领带,它竟然穿透了他的身体,从背后凭空延伸出来,完全不符合物理逻辑。男子的右手握拳姿势僵硬,手指细节模糊。此外,背景中车窗内的乘客面部特征扭曲,左侧站立女性的右手手指显得异常细长且结构混乱。地铁车门的边缘与男子腿部的交界处也存在透视衔接不自然的问题,显示出 AI 在处理复杂动态构图时的局限。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】图像在人物动态表现和环境氛围营造上有一定水准,男士奔跑姿态基本符合人体运动规律,地铁站场景细节较为完整。然而,图像在最核心的叙事要求上存在根本性缺失:提示词明确要求「一脚踏入车厢、一脚在站台」的跨门瞬间未能实现,男士整体仍处于站台侧奔跑状态;地铁门关闭的动态感缺失;画面缺乏运动模糊等动感视觉手法。这些问题导致「千钧一发」的紧张叙事核心无法成立,整体完成度与提示词要求存在明显差距。 【GEMINI】这张图片在捕捉大跨度动态姿势方面具有一定的视觉冲击力,但在严苛的物理逻辑和解剖学细节面前溃不成军。最核心的失败在于主体与环境的交互——跨门动作产生的穿模现象直接破坏了画面的真实感,且完全忽略了提示词中关于「乘客侧身让路」和「门正在关闭」的关键互动要求,导致叙事张力仅停留在表面,经不起细节推敲。 【KIMI】该图像在核心叙事要求的完成度上存在显著缺陷。提示词强调的「一脚在车厢一脚在站台」「车门正在关闭」「侧身让路」三项关键动作均未准确呈现,主体姿态更接近悬浮跳跃而非真实奔跑。画面静态化处理彻底消解了「千钧一发」的紧张感,背景人群稀疏进一步削弱了环境可信度。作为「测试模型表现人物互动」的任务,其在空间交互逻辑(穿模/悬空)和群体动作差异性(姿态同质化)方面表现不佳,整体处于「概念可见、执行失真」的水平。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...