qwen-image-max 在「多风格融合」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:qwen-image-max
- 用例名称:多风格融合
- 测试类型:图像生成
- 评测维度:风格还原
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
创作一幅融合日本浮世绘和西方印象派风格的静物画:画面中央是一个青花瓷瓶,瓶中插着几枝盛开的向日葵。使用浮世绘的平面化构图和线条感,结合印象派的色彩斑斓和光影变化。
任务要求
AI 模型需要满足以下要求:
- 画面中必须出现青花瓷瓶作为视觉主体,瓶身需可见蓝白相间的青花纹样,而非普通素色花瓶
- 瓷瓶中必须插有至少两枝向日葵,花朵需具备可辨认的圆形花盘与放射状花瓣结构
- 必须体现浮世绘的平面化构图特征:画面中可见明确的勾线轮廓,色彩以平涂色块为主,整体构图具有装饰性平面感
- 必须展现印象派的色彩与光影特征:色彩丰富饱满(非单色或低饱和),可见碎笔触、色点或光斑等印象派笔法痕迹
- 两种风格须在同一画面中共存,不得出现一种风格完全压倒另一种的情况,且风格融合处不应产生明显的色彩脏乱或结构崩坏
评测结果
综合得分
该模型在此用例的得分为:68.2 分(满分 100 分),已通过
基础难度评测结果
- 得分:68.2 分
- 通过状态:已通过
模型生成产物
该模型生成了以下图片:
图片内容描述(由 AI 生成,供你参考)
画面中呈现了一幅模仿梵高油画风格的静物画,主体是一个插满向日葵的青花瓷瓶。画面中心是一个圆润的白底蓝花瓷瓶,上面绘有精细的缠枝莲纹样,放置在色彩斑驳的木质桌面上。瓶中插着五朵盛开的向日葵,花瓣呈现出明亮的金黄色,花心则是深棕色。背景由粗犷、动感的短促笔触组成,左侧色调偏向深蓝与暗红,右侧则较为明亮,带有浅绿和淡黄的色调。整幅画作色彩对比强烈,笔触厚重且富有节奏感。 在 AI 生成的细节方面,存在一些明显的逻辑缺陷:首先,花茎的生长路径显得混乱,部分花茎在进入瓶口处相互交叠,甚至出现了断裂或凭空消失的现象;其次,最左侧向日葵的花瓣与叶片的连接处结构模糊,透视关系不自然;此外,青花瓷瓶表面的纹路在左右两侧并不完全对称,花纹的线条在某些转折处显得过于凌乱,缺乏真实瓷器绘画的连贯性。
注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】本图在元素还原和视觉观感上属于中等偏上水平,青花瓷瓶与向日葵的描绘均较为精良。然而核心任务「融合日本浮世绘与西方印象派」完成度严重不足——模型实际上生成了一幅「印象派风格静物画+描边装饰」,浮世绘的平面化、装饰性、平涂色块等核心特征几乎完全缺席。这是一个典型的「风格偏移」失败案例:模型识别了「印象派」并较好地执行,但对「浮世绘」的理解流于表面(仅保留了轮廓线),未能实现真正的风格融合。综合加权得分约为60分,属于「部分完成要求」区间。 【GEMINI】这是一张视觉冲击力较强的作品,但在「风格融合」这一核心任务上表现欠佳。它更像是一幅背景为印象派风格的现代写实插画,完全丢失了浮世绘的平面装饰性灵魂。此外,AI 在处理复杂遮挡关系时出现了典型的逻辑错误,导致向日葵与花瓶的连接处失真,降低了画面的专业严谨性。 【KIMI】这是一幅技法娴熟的印象派向日葵静物,但作为「浮世绘+印象派融合」的命题作业,它失败了。模型未能理解「风格融合」意味着两种视觉语言的同时在场与相互渗透,而非用印象派技法描绘一个带有东方器物的西方静物。浮世绘的平面性、线条感、装饰性被完全抹除,仅剩青花瓷作为文化符号残留。评分需严格体现这一偏差:prompt_adherence因元素存在但细节瑕疵给82分;style_fusion_quality因核心任务失败给58分;visual_coherence因单一风格内尚可但风格冲突引发混乱给71分。
进阶难度评测结果
- 得分:68.0 分
- 通过状态:已通过
模型生成产物
该模型生成了以下图片:
图片内容描述(由 AI 生成,供你参考)
图中展示了一位身着中国传统汉服的年轻女性,正坐在一间充满欧洲古典风格的奢华房间内弹奏古琴。女子神情专注,发髻高耸并点缀着精致的花朵发饰,身穿青蓝色与米色相间的齐胸襦裙,肩披橘色披帛。她坐在一把雕花精美的欧式红丝绒靠背椅上,面前是一张木质琴桌。背景融合了中西元素:左侧是绘有山水画的中式屏风,墙上则挂着巴洛克风格的油画,右侧垂下厚重的红色流苏窗帘。画面色调沉稳、富丽,光线从右侧窗户柔和地洒入。 在 AI 生成细节方面,存在明显的逻辑和结构缺陷。首先,女子弹奏的乐器虽然形似古琴,但琴弦的排布杂乱且不完整,琴头处垂下的流苏直接穿透了琴桌,不符合物理常识。其次,女子的手部处理不够自然,手指的数量和关节连接处显得模糊。此外,背景中屏风上的绘画图案逻辑混乱,人物比例失调。琴桌的支撑结构与地面接触的位置也存在透视上的轻微扭曲。
注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】这张图像在视觉呈现上具有相当的精致度,巴洛克场景氛围营造较为成功。然而作为「风格融合测试」,它在最核心的两个维度上均存在明显失误:乐器从古琴变成了古筝,屏风从中式变成了西式油画,这两处错误直接破坏了提示词设计的「中西对比」叙事结构;而工笔画风格的缺失使得「风格融合」实际上退化为「巴洛克场景中的古装人物」,未能实现真正的跨文化风格对话。图像更像是一幅精良的数字写实插画,而非提示词所期待的工笔×巴洛克实验性融合作品。 【GEMINI】这是一张在氛围营造和材质渲染上非常出色的作品,但在严苛的细节审查下暴露了 AI 生成的典型弱点。模型虽然理解了「中西合璧」的意图,但在处理具有特定物理结构的乐器(古琴)和复杂肢体动作(弹奏)时出现了严重溃败。风格融合上,巴洛克风格占据了主导,而工笔画的线条精髓被稀释成了普通的细腻贴图,未能达到真正意义上的艺术风格融合。 【KIMI】该图像呈现典型的AI风格融合「表面化合」困境:提示词中的元素标签被机械堆砌,但文化语义与技法特征被稀释或扭曲。最致命的是古琴结构的根本错误——作为画面核心道具,其形制崩坏直接瓦解「弹奏古琴」这一叙事基础;而屏风内容的西化置换,则彻底消解了「中西对比」的提示词意图。工笔画与巴洛克的融合停留在「东方人物+西方背景」的初级拼贴,两种美学的形式语言(线条vs块面、平面性vs纵深感)未形成有效对话。建议评分区间60-75,反映「部分完成要求但核心元素执行失败」的实际情况。
困难难度评测结果
- 得分:68.8 分
- 通过状态:已通过
模型生成产物
该模型生成了以下图片:
图片内容描述(由 AI 生成,供你参考)
图中展示了一座悬浮在云端之上的未来主义赛博朋克城市,融合了浓郁的敦煌壁画艺术风格。画面中心是一座由彩色流线组成的螺旋状摩天大楼,周围环绕着色彩斑斓、带有民族纹样的几何建筑。天空两侧有两尊巨大的飞天神女在空中翱翔,她们身披彩带,姿态灵动。画面上方延伸出两条长卷般的壁画,描绘着多尊佛像。城市下方通过多条发光的悬浮轨道与外界连接,整体色调明亮,结合了金、红、蓝、绿等高饱和度色彩,构图呈现出强烈的透视感和放射状视觉冲击力。 在 AI 生成的细节方面,存在一些明显的逻辑缺陷:画面两侧的飞天神女手部线条模糊,手指数量和形状不自然;上方壁画中的佛像五官细节混乱,部分人物面部扭曲;城市底部的悬浮轨道在透视上显得生硬,部分线条在交汇处出现了断裂或不合理的重叠;此外,远景处的建筑群细节较为粗糙,缺乏真实的结构支撑感。
注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】这张图像在「元素完整性」上基本达标——三种风格的标志性符号均有出现,悬浮城市场景成立,视觉冲击力强。然而核心问题在于「融合深度不足」:三种风格更多是空间分区式并置(飞天在角落、几何纹样在建筑表面、速度线在边缘),而非提示词要求的「在色彩体系、构图原则和文化符号上的和谐统一」。建筑造型未能真正内化敦煌曲线语言,色彩体系缺乏有效桥接导致局部脏乱,顶部壁画装饰带的空间逻辑割裂感明显。这是一张「看起来很努力但融合不够深」的图像,完成了提示词的字面要求,但未能实现其精神内核。 【GEMINI】这是一张典型的「元素堆砌式」AI生成图。虽然它准确地捕捉到了提示词中的所有关键词(飞天、几何图案、速度线、悬浮城市),但在视觉艺术的融合上表现生硬。敦煌壁画被处理成了悬浮的广告牌,墨西哥元素变成了建筑的包装纸,三种风格各行其是,未能实现真正意义上的「和谐统一」。特别是构图上两侧长卷的介入,严重破坏了画面的空间感和专业美感。 【KIMI】该图像是一次「风格拼贴」而非「风格融合」的典型案例。模型未能理解三种风格的核心视觉语法——敦煌飞天的「流动线条」被简化为人物装饰而非建筑语言,墨西哥壁画的「平面叙事性」被降格为建筑贴图,未来主义的「速度动感」被稀释为泛滥的光轨装饰。最致命的问题在于色彩体系的失控:高饱和彩虹色的大面积并置导致视觉疲劳,三种风格的色彩未能建立有效的调和机制。悬浮云端的空间概念执行粗糙,岛屿底部的镜面处理暴露了物理逻辑的矛盾。整体而言,模型完成了「三种风格同时出现」的最低要求,但远未达到「和谐统一、相互渗透」的融合标准,属于典型的AI生成图像中「元素堆砌、缺乏整合」的中低质量产出。
相关链接
您可以通过以下链接查看更多相关内容: