qwen-image-2.0-pro 在「布达拉宫镂空祥字卡片生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：qwen-image-2.0-pro
用例名称：布达拉宫镂空祥字卡片生成
测试类型：图像生成
评测维度：VG-FramedPerspective

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张写实摄影风格的图像：第一人称视角，一只手拿着一张藏青色纸质卡片，卡片中心镂空刻有汉字「祥」，透过镂空部分可以看到远处的布达拉宫，背景天空纯净湛蓝。电影级宽屏构图。

任务要求

AI 模型需要满足以下要求：

画面中有一只手持藏青色卡片，视角为第一人称
卡片中心有镂空汉字「祥」
透过镂空部分可见布达拉宫
背景天空纯净湛蓝
整体为写实摄影风格，画面清晰

评测结果

综合得分

该模型在此用例的得分为：79.4 分（满分 100 分），已通过

基础难度评测结果

得分：79.4 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一只左手拿着一张深蓝色方形卡纸，背景是阳光明媚下的拉萨布达拉宫。卡纸中心有一个镂空的汉字，透过镂空部分可以看到远处的布达拉宫建筑。画面构图采用了前景虚化、主体聚焦的方式，天空呈现纯净的深蓝色。左侧前景有一座白色的佛塔，金色的塔尖在阳光下熠熠生辉。背景中的布达拉宫依山而建，红白相间的墙体清晰可见，远处还有连绵的青色山脉。在 AI 生成细节方面，画面存在明显的逻辑缺陷：首先，卡纸中间镂空的汉字结构混乱，看起来像是“祥”字的变形，但笔画断裂且不符合常规书写逻辑，镂空的笔画在物理上无法悬空连接。其次，持卡的手部比例略显僵硬，大拇指的指甲形状不够自然。此外，背景中布达拉宫的窗户和阶梯纹理在放大后显得模糊且重复感较强，缺乏真实建筑的随机细节。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这张图像整体完成度相当高，四个核心元素齐全且空间关系处理出色，镂空「祥」字与布达拉宫的创意叠合是本图最大亮点。最主要的扣分点是未能实现提示词明确要求的电影级宽屏构图，画面比例偏向正方形，损失了宽屏带来的宏大感与电影质感。若将构图调整为2.35:1宽屏比例，整体评分可进入90分以上区间。【GEMINI】图像在构图和基础摄影质感上表现尚可，但作为核心视觉载体的「祥」字镂空设计彻底失败。AI未能理解汉字结构，导致画面失去了预期的文化内涵，属于典型的「形似神不似」。【KIMI】该图像属于「概念及格、执行粗糙」的典型AI生成案例。提示词要求的核心元素虽在画面中都能找到对应，但每一处都经不起细看：「祥」字结构崩坏、空间透视违背光学、色彩过度饱和、构图缺乏设计意识。模型似乎理解了「手持卡片+镂空文字+布达拉宫」的符号组合，却未能掌握汉字结构准确性、物理空间逻辑与摄影美学的深层规则。作为「写实摄影」定位，其可信度远低于合格线。

进阶难度评测结果

得分：80.3 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

画面中，一只左手在镜头前方举着一张深蓝色、质感粗糙的矩形手工纸。纸张中心有一个巨大的镂空汉字，形状近似「祥」字，透过镂空处可以看到背景中雄伟的布达拉宫。纸张底部印有金色的「2026」数字，两侧各有一只金色的马匹图案。背景是晴朗的蓝天和阳光下的西藏拉萨街景，布达拉宫呈现出经典的红白建筑风格，但由于景深效果略显模糊。这张图片存在明显的 AI 生成缺陷：首先，纸张中心的镂空汉字结构混乱，笔画扭曲且不符合常规书法逻辑，无法准确辨认；其次，左下角持纸的手部比例失调，大拇指异常粗短，指甲形状不自然，且手指与纸张边缘的接触处显得生硬。此外，背景中布达拉宫的建筑细节在放大后显得模糊且结构不连贯，右下角的街道车辆和路灯也存在透视扭曲。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这是一张整体完成度较高的AI生成图像，成功呈现了提示词要求的核心创意——藏青色手工纸镂空卡片框景布达拉宫。五类主体元素齐全，手工纸质感是全图最大亮点。主要不足在于未能实现电影级宽屏构图比例，以及镂空边缘的光学过渡略显数字合成感。综合来看属于高质量完成，但距离「完美」还有若干可优化空间。【GEMINI】这是一张在材质表现上非常优秀，但在语义理解和光学模拟上存在明显短板的图像。最核心的镂空文字「祥」未能正确生成，直接导致了作品在功能性上的失败。虽然纸张质感和色彩氛围营造得当，但作为一张要求文字清晰可辨的摄影作品，其核心信息的缺失是无法忽视的硬伤。【KIMI】该图像在概念传达上基本达标，但作为写实摄影作品存在显著的光学逻辑缺陷。最核心的失败在于景深处理——AI未能理解「透过镂空看远景」这一空间关系所需的物理虚化规律，导致画面呈现「剪纸贴照片」的合成感而非真实摄影的透镜成像。高原光影的平淡处理进一步削弱了场景的真实感，整体处于「形似而神不似」的及格边缘。

困难难度评测结果

得分：69.2 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一只左手拿着一张深蓝色手工纸，背景是宏伟的布达拉宫。这张纸边缘粗糙，中心有一个圆形的镂空或透明区域，透过这个圆洞可以清晰地看到远方的布达拉宫建筑。纸张中央印有一个巨大的黑色书法汉字“祥”，下方印有金色的数字“2026”以及一个金色的马形图案。背景天空湛蓝，阳光明媚，布达拉宫依山而建，红白相间的墙体在绿植和金顶的映衬下显得庄严肃穆。画面中存在明显的 AI 生成缺陷：首先，左手的大拇指指甲形状异常平扁，且手指与纸张接触的边缘显得模糊，缺乏自然的压痕感。其次，纸张上的书法字“祥”结构略显生硬，笔画末端有不自然的断裂。最显著的逻辑错误在于下方的金色马形图案，因为 2026 年在农历中实际上是马年，但该马的腿部线条略显杂乱。此外，布达拉宫的建筑细节在镂空边缘处出现了轻微的透视错位。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在元素完整性上基本达标，成功呈现了藏青色手工纸卡片、「祥」字、布达拉宫背景等核心元素，整体氛围具有一定的高原冷峻感。然而，图像存在两个根本性的技术失误：其一是景深逻辑完全未能实现提示词的核心要求——镂空内外的清晰度层次混乱，失去了框景摄影的空间张力；其二是构图比例为4:3而非要求的16:9，直接违背了「电影级宽屏构图」的明确指令。「祥」字的镂空效果更接近数字合成叠加，而非真实的镂空刻痕，物理真实感不足。这些问题使得图像停留在「概念示意」层面，而未能达到「写实摄影」的高标准要求。【GEMINI】这是一张典型的「远看不错，细看崩坏」的AI生成图像。虽然在整体氛围和构图上达到了预期的冷峻高原感，但在核心细节（汉字、动物形态）和物理光学逻辑（景深、透光）上表现糟糕。尤其是汉字结构的错误和景深处理的倒置，极大地破坏了作品的写实感，使其更像是一张粗糙的合成海报，而非摄影作品。【KIMI】该图像完成了提示词的基础框架——手持卡片、镂空文字、布达拉宫背景——但在「精刻」「细微反光」「半透明晕边」「清晰对焦」等关键修饰词上全面失守。AI模型对多层次空间关系的处理能力不足，景深逻辑呈现「前景清晰+背景模糊」的简单二分而非光学渐进；对高原强光的物理特性理解肤浅，光影系统内部矛盾；材质渲染停留在表面颜色而非光学特性（透光、反射）。整体属于「概念可见、精度不足」的中等完成度，与提示词要求的「电影级」「精刻」差距显著。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

相关链接

反馈评测问题