qwen-image-2.0-pro 在「布达拉宫镂空祥字卡片生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:qwen-image-2.0-pro
  • 用例名称:布达拉宫镂空祥字卡片生成
  • 测试类型:图像生成
  • 评测维度:VG-FramedPerspective

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张写实摄影风格的图像:第一人称视角,一只手拿着一张藏青色纸质卡片,卡片中心镂空刻有汉字「祥」,透过镂空部分可以看到远处的布达拉宫,背景天空纯净湛蓝。电影级宽屏构图。

任务要求

AI 模型需要满足以下要求:

  1. 画面中有一只手持藏青色卡片,视角为第一人称
  2. 卡片中心有镂空汉字「祥」
  3. 透过镂空部分可见布达拉宫
  4. 背景天空纯净湛蓝
  5. 整体为写实摄影风格,画面清晰

评测结果

综合得分

该模型在此用例的得分为:79.4 分(满分 100 分),已通过

基础难度评测结果

  • 得分:79.4 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手拿着一张深蓝色方形卡纸,背景是阳光明媚下的拉萨布达拉宫。卡纸中心有一个镂空的汉字,透过镂空部分可以看到远处的布达拉宫建筑。画面构图采用了前景虚化、主体聚焦的方式,天空呈现纯净的深蓝色。左侧前景有一座白色的佛塔,金色的塔尖在阳光下熠熠生辉。背景中的布达拉宫依山而建,红白相间的墙体清晰可见,远处还有连绵的青色山脉。 在 AI 生成细节方面,画面存在明显的逻辑缺陷:首先,卡纸中间镂空的汉字结构混乱,看起来像是“祥”字的变形,但笔画断裂且不符合常规书写逻辑,镂空的笔画在物理上无法悬空连接。其次,持卡的手部比例略显僵硬,大拇指的指甲形状不够自然。此外,背景中布达拉宫的窗户和阶梯纹理在放大后显得模糊且重复感较强,缺乏真实建筑的随机细节。

图中展示了一只左手拿着一张深蓝色方形卡纸,背景是阳光明媚下的拉萨布达拉宫。卡纸中心有一个镂空的汉字,透过镂空部分可以看到远处的布达拉宫建筑。画面构图采用了前景虚化、主体聚焦的方式,天空呈现纯净的深蓝色。左侧前景有一座白色的佛塔,金色的塔尖在阳光下熠熠生辉。背景中的布达拉宫依山而建,红白相间的墙体清晰可见,远处还有连绵的青色山脉。

在 AI 生成细节方面,画面存在明显的逻辑缺陷:首先,卡纸中间镂空的汉字结构混乱,看起来像是“祥”字的变形,但笔画断裂且不符合常规书写逻辑,镂空的笔画在物理上无法悬空连接。其次,持卡的手部比例略显僵硬,大拇指的指甲形状不够自然。此外,背景中布达拉宫的窗户和阶梯纹理在放大后显得模糊且重复感较强,缺乏真实建筑的随机细节。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这张图像整体完成度相当高,四个核心元素齐全且空间关系处理出色,镂空「祥」字与布达拉宫的创意叠合是本图最大亮点。最主要的扣分点是未能实现提示词明确要求的电影级宽屏构图,画面比例偏向正方形,损失了宽屏带来的宏大感与电影质感。若将构图调整为2.35:1宽屏比例,整体评分可进入90分以上区间。 【GEMINI】图像在构图和基础摄影质感上表现尚可,但作为核心视觉载体的「祥」字镂空设计彻底失败。AI未能理解汉字结构,导致画面失去了预期的文化内涵,属于典型的「形似神不似」。 【KIMI】该图像属于「概念及格、执行粗糙」的典型AI生成案例。提示词要求的核心元素虽在画面中都能找到对应,但每一处都经不起细看:「祥」字结构崩坏、空间透视违背光学、色彩过度饱和、构图缺乏设计意识。模型似乎理解了「手持卡片+镂空文字+布达拉宫」的符号组合,却未能掌握汉字结构准确性、物理空间逻辑与摄影美学的深层规则。作为「写实摄影」定位,其可信度远低于合格线。

进阶难度评测结果

  • 得分:80.3 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

画面中,一只左手在镜头前方举着一张深蓝色、质感粗糙的矩形手工纸。纸张中心有一个巨大的镂空汉字,形状近似「祥」字,透过镂空处可以看到背景中雄伟的布达拉宫。纸张底部印有金色的「2026」数字,两侧各有一只金色的马匹图案。背景是晴朗的蓝天和阳光下的西藏拉萨街景,布达拉宫呈现出经典的红白建筑风格,但由于景深效果略显模糊。 这张图片存在明显的 AI 生成缺陷:首先,纸张中心的镂空汉字结构混乱,笔画扭曲且不符合常规书法逻辑,无法准确辨认;其次,左下角持纸的手部比例失调,大拇指异常粗短,指甲形状不自然,且手指与纸张边缘的接触处显得生硬。此外,背景中布达拉宫的建筑细节在放大后显得模糊且结构不连贯,右下角的街道车辆和路灯也存在透视扭曲。

画面中,一只左手在镜头前方举着一张深蓝色、质感粗糙的矩形手工纸。纸张中心有一个巨大的镂空汉字,形状近似「祥」字,透过镂空处可以看到背景中雄伟的布达拉宫。纸张底部印有金色的「2026」数字,两侧各有一只金色的马匹图案。背景是晴朗的蓝天和阳光下的西藏拉萨街景,布达拉宫呈现出经典的红白建筑风格,但由于景深效果略显模糊。

这张图片存在明显的 AI 生成缺陷:首先,纸张中心的镂空汉字结构混乱,笔画扭曲且不符合常规书法逻辑,无法准确辨认;其次,左下角持纸的手部比例失调,大拇指异常粗短,指甲形状不自然,且手指与纸张边缘的接触处显得生硬。此外,背景中布达拉宫的建筑细节在放大后显得模糊且结构不连贯,右下角的街道车辆和路灯也存在透视扭曲。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这是一张整体完成度较高的AI生成图像,成功呈现了提示词要求的核心创意——藏青色手工纸镂空卡片框景布达拉宫。五类主体元素齐全,手工纸质感是全图最大亮点。主要不足在于未能实现电影级宽屏构图比例,以及镂空边缘的光学过渡略显数字合成感。综合来看属于高质量完成,但距离「完美」还有若干可优化空间。 【GEMINI】这是一张在材质表现上非常优秀,但在语义理解和光学模拟上存在明显短板的图像。最核心的镂空文字「祥」未能正确生成,直接导致了作品在功能性上的失败。虽然纸张质感和色彩氛围营造得当,但作为一张要求文字清晰可辨的摄影作品,其核心信息的缺失是无法忽视的硬伤。 【KIMI】该图像在概念传达上基本达标,但作为写实摄影作品存在显著的光学逻辑缺陷。最核心的失败在于景深处理——AI未能理解「透过镂空看远景」这一空间关系所需的物理虚化规律,导致画面呈现「剪纸贴照片」的合成感而非真实摄影的透镜成像。高原光影的平淡处理进一步削弱了场景的真实感,整体处于「形似而神不似」的及格边缘。

困难难度评测结果

  • 得分:69.2 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手拿着一张深蓝色手工纸,背景是宏伟的布达拉宫。这张纸边缘粗糙,中心有一个圆形的镂空或透明区域,透过这个圆洞可以清晰地看到远方的布达拉宫建筑。纸张中央印有一个巨大的黑色书法汉字“祥”,下方印有金色的数字“2026”以及一个金色的马形图案。背景天空湛蓝,阳光明媚,布达拉宫依山而建,红白相间的墙体在绿植和金顶的映衬下显得庄严肃穆。 画面中存在明显的 AI 生成缺陷:首先,左手的大拇指指甲形状异常平扁,且手指与纸张接触的边缘显得模糊,缺乏自然的压痕感。其次,纸张上的书法字“祥”结构略显生硬,笔画末端有不自然的断裂。最显著的逻辑错误在于下方的金色马形图案,因为 2026 年在农历中实际上是马年,但该马的腿部线条略显杂乱。此外,布达拉宫的建筑细节在镂空边缘处出现了轻微的透视错位。

图中展示了一只左手拿着一张深蓝色手工纸,背景是宏伟的布达拉宫。这张纸边缘粗糙,中心有一个圆形的镂空或透明区域,透过这个圆洞可以清晰地看到远方的布达拉宫建筑。纸张中央印有一个巨大的黑色书法汉字“祥”,下方印有金色的数字“2026”以及一个金色的马形图案。背景天空湛蓝,阳光明媚,布达拉宫依山而建,红白相间的墙体在绿植和金顶的映衬下显得庄严肃穆。

画面中存在明显的 AI 生成缺陷:首先,左手的大拇指指甲形状异常平扁,且手指与纸张接触的边缘显得模糊,缺乏自然的压痕感。其次,纸张上的书法字“祥”结构略显生硬,笔画末端有不自然的断裂。最显著的逻辑错误在于下方的金色马形图案,因为 2026 年在农历中实际上是马年,但该马的腿部线条略显杂乱。此外,布达拉宫的建筑细节在镂空边缘处出现了轻微的透视错位。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在元素完整性上基本达标,成功呈现了藏青色手工纸卡片、「祥」字、布达拉宫背景等核心元素,整体氛围具有一定的高原冷峻感。然而,图像存在两个根本性的技术失误:其一是景深逻辑完全未能实现提示词的核心要求——镂空内外的清晰度层次混乱,失去了框景摄影的空间张力;其二是构图比例为4:3而非要求的16:9,直接违背了「电影级宽屏构图」的明确指令。「祥」字的镂空效果更接近数字合成叠加,而非真实的镂空刻痕,物理真实感不足。这些问题使得图像停留在「概念示意」层面,而未能达到「写实摄影」的高标准要求。 【GEMINI】这是一张典型的「远看不错,细看崩坏」的AI生成图像。虽然在整体氛围和构图上达到了预期的冷峻高原感,但在核心细节(汉字、动物形态)和物理光学逻辑(景深、透光)上表现糟糕。尤其是汉字结构的错误和景深处理的倒置,极大地破坏了作品的写实感,使其更像是一张粗糙的合成海报,而非摄影作品。 【KIMI】该图像完成了提示词的基础框架——手持卡片、镂空文字、布达拉宫背景——但在「精刻」「细微反光」「半透明晕边」「清晰对焦」等关键修饰词上全面失守。AI模型对多层次空间关系的处理能力不足,景深逻辑呈现「前景清晰+背景模糊」的简单二分而非光学渐进;对高原强光的物理特性理解肤浅,光影系统内部矛盾;材质渲染停留在表面颜色而非光学特性(透光、反射)。整体属于「概念可见、精度不足」的中等完成度,与提示词要求的「电影级」「精刻」差距显著。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...