qwen-image-2.0 在「广州塔镂空字卡片摄影生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:qwen-image-2.0
  • 用例名称:广州塔镂空字卡片摄影生成
  • 测试类型:图像生成
  • 评测维度:VG-FramedPerspective

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张第一人称视角的照片:一只手持着一张黑色卡片,卡片中心镂空刻有汉字「发」,透过镂空部分可以看到远处的广州塔(小蛮腰)。写实摄影风格。

任务要求

AI 模型需要满足以下要求:

  1. 画面呈现第一人称手持卡片的视角
  2. 卡片为黑色,中心有镂空汉字「发」
  3. 透过镂空部分可见广州塔(小蛮腰)轮廓
  4. 整体画面清晰,构图合理
  5. 写实摄影风格

评测结果

综合得分

该模型在此用例的得分为:65.8 分(满分 100 分),已通过

基础难度评测结果

  • 得分:65.8 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只右手捏着一张黑色正方形卡片的近景。卡片中心被镂空剪裁出一个汉字“发”,透过镂空的部分,可以看到背景中模糊的白色高塔(疑似广州塔)和明亮的天空。背景是一个开阔的城市广场,远处有模糊的建筑群和走动的人群,整体色调明亮清新。 这张图片存在明显的 AI 生成缺陷:首先,卡片上的“发”字结构异常,笔画连接处显得生硬且不符合常规书写逻辑,左侧还出现了多余的直角镂空符号。其次,手部表现极不自然,大拇指的指甲形状扁平且边缘模糊,食指与中指的衔接处结构混乱,缺乏真实的关节纹理。此外,镂空边缘的裁剪痕迹过于粗糙且带有不自然的白色毛边,与真实的纸张质感不符,背景中的人物也呈现出扭曲的色块状。

图中展示了一只右手捏着一张黑色正方形卡片的近景。卡片中心被镂空剪裁出一个汉字“发”,透过镂空的部分,可以看到背景中模糊的白色高塔(疑似广州塔)和明亮的天空。背景是一个开阔的城市广场,远处有模糊的建筑群和走动的人群,整体色调明亮清新。

这张图片存在明显的 AI 生成缺陷:首先,卡片上的“发”字结构异常,笔画连接处显得生硬且不符合常规书写逻辑,左侧还出现了多余的直角镂空符号。其次,手部表现极不自然,大拇指的指甲形状扁平且边缘模糊,食指与中指的衔接处结构混乱,缺乏真实的关节纹理。此外,镂空边缘的裁剪痕迹过于粗糙且带有不自然的白色毛边,与真实的纸张质感不符,背景中的人物也呈现出扭曲的色块状。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在构图形式和写实质感上完成了基本框架,但在最核心的地标元素上严重失败——广州塔(小蛮腰)完全未出现,背景替换为普通城市建筑和普通信号塔,导致提示词的核心叙事意图(用「发」字镂空框住广州塔)彻底落空。这不是细节瑕疵,而是对提示词核心要求的根本性未完成。综合评分偏低,主要扣分集中在主体元素完整性维度。 【GEMINI】该图像在构图意图上完成了提示词的基本框架,但在核心细节处理上表现糟糕。最致命的问题在于汉字结构的崩坏,这直接导致了图像作为「镂空文字卡片」这一核心概念的失败。此外,空间透视和光学景深的缺失,使得画面缺乏写实摄影的真实感,更像是一张粗糙的数字合成图。 【KIMI】该图像在概念层面完成了「手持镂空卡片+背景地标」的框架搭建,但在核心识别元素上存在实质性缺陷:广州塔沦为不可辨识的模糊背景,汉字「发」的结构完整性受损。作为地标打卡类摄影,无法让观众确认背景确为广州塔,这是致命的完成度缺失。整体处于「形似而神不似」的中间状态,勉强及格但远未达到可用标准。

进阶难度评测结果

  • 得分:74.0 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只右手捏着一张黑色碳纤维质感的矩形卡片,背景是模糊的城市滨江夜景。卡片中心有一个巨大的镂空汉字“发”,透过镂空可以看到背景中高耸的电视塔。卡片下方印有发光的绿色数字“2026”,左上角还有一个绿色的直角装饰符号。背景呈现冷调的蓝色,水面平静,远处高楼林立,灯火点点。在 AI 生成的细节方面,卡片右下角的手指部分存在明显的逻辑缺陷:大拇指的指甲形状不够自然,且手指与卡片边缘的接触位置显得有些生硬,缺乏真实的挤压感。此外,卡片上的碳纤维纹理在边缘处略显模糊,与背景的透视关系虽力求真实,但整体光影衔接略显刻意。

图中展示了一只右手捏着一张黑色碳纤维质感的矩形卡片,背景是模糊的城市滨江夜景。卡片中心有一个巨大的镂空汉字“发”,透过镂空可以看到背景中高耸的电视塔。卡片下方印有发光的绿色数字“2026”,左上角还有一个绿色的直角装饰符号。背景呈现冷调的蓝色,水面平静,远处高楼林立,灯火点点。在 AI 生成的细节方面,卡片右下角的手指部分存在明显的逻辑缺陷:大拇指的指甲形状不够自然,且手指与卡片边缘的接触位置显得有些生硬,缺乏真实的挤压感。此外,卡片上的碳纤维纹理在边缘处略显模糊,与背景的透视关系虽力求真实,但整体光影衔接略显刻意。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这张图像在材质细节和整体氛围上表现优秀,碳纤维质感、荧光字样和冷色调处理均达到较高水准。然而,提示词最核心的视觉要素——「透过镂空部分可见广州塔(小蛮腰)」——完全未能实现,这是一个根本性的内容缺失。广州塔作为广州最具辨识度的地标,其独特的腰部收窄造型在背景中完全缺席,导致整张图像的叙事核心(广州+2026+发财寓意)大打折扣。若广州塔能够准确呈现于镂空处,本图可达到85分以上的水准。 【GEMINI】图像在构图和氛围营造上达到了基本要求,但在细节逻辑和物理真实性上表现欠佳。尤其是汉字结构的错误和镂空透视的逻辑断层,极大地削弱了写实摄影的质感,属于典型的「一眼假」AI 生成物。 【KIMI】这是一张在核心要求上严重失败的AI生成图像。提示词将「透过镂空看到广州塔」作为关键视觉锚点,但模型完全遗漏了这一地标,导致图像失去叙事核心。虽然碳纤维质感与手持视角基本合格,但空间透视的错乱、荧光光效的廉价感以及关键地标的缺席,使这张图像无法被视为成功完成提示词要求的作品。模型在理解「镂空透视特定地标」这一空间逻辑任务上表现出明显缺陷,将「城市背景」简单替代为「广州塔」,暴露了其对地理标志性视觉符号的识别与定位能力不足。

困难难度评测结果

  • 得分:77.0 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

画面中,一只右手的大拇指和食指捏着一张黑色碳纤维质感的长方形卡片,背景是璀璨的城市夜景。卡片中心镂空刻有一个巨大的汉字,虽然形似繁体的「发」字,但笔画结构存在明显的 AI 生成错误,左侧和顶部的线条断裂且不符合常规字形。卡片下方印有橙色的数字「2026」和一匹奔跑的马形图标。背景是虚化的广州塔(小蛮腰)及珠江两岸的建筑群,灯火通明,呈现出深蓝色与金黄色交织的色调。画面构图采用中心对齐,通过镂空的汉字将远处的广州塔框在其中。AI 生成的缺陷主要体现在镂空文字的逻辑混乱,且持卡的手指边缘略显生硬,与背景的融合感稍欠自然。此外,2026 年按生肖应为马年,这与卡片上的马形图标相符。

画面中,一只右手的大拇指和食指捏着一张黑色碳纤维质感的长方形卡片,背景是璀璨的城市夜景。卡片中心镂空刻有一个巨大的汉字,虽然形似繁体的「发」字,但笔画结构存在明显的 AI 生成错误,左侧和顶部的线条断裂且不符合常规字形。卡片下方印有橙色的数字「2026」和一匹奔跑的马形图标。背景是虚化的广州塔(小蛮腰)及珠江两岸的建筑群,灯火通明,呈现出深蓝色与金黄色交织的色调。画面构图采用中心对齐,通过镂空的汉字将远处的广州塔框在其中。AI 生成的缺陷主要体现在镂空文字的逻辑混乱,且持卡的手指边缘略显生硬,与背景的融合感稍欠自然。此外,2026 年按生肖应为马年,这与卡片上的马形图标相符。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这张AI生成图像整体完成度较高,核心构图要素基本到位:第一人称视角、碳纤维卡片、镂空「发」字、广州塔背景、荧光橙色「2026」与奔马剪影均有呈现。最突出的优势在于色调氛围营造——蓝紫色冷色调与荧光橙色的暖冷对比极为成功,夜景氛围感强烈。主要不足集中在卡片光学细节层面:镜面反射效果缺失、金属边缘拉丝高光不足,以及镂空字体边缘精细度有限。广州塔腰部与镂空区域的精准对齐也未达到提示词描述的「恰好对齐」效果。综合来看,这是一张质量较高但存在若干细节瑕疵的生成图像,得分区间在75-89分的「基本完成要求」范畴内。 【GEMINI】该图像在宏观氛围营造和背景渲染上表现良好,但在微观细节和物理逻辑上暴露了AI生成图像的典型弱点。手部结构的崩坏和透视对齐的失败是导致其无法达到高分的主要原因,这使得它更像是一张拼贴画而非真实的摄影作品。 【KIMI】该图像在核心创意——「镂空文字与地标对齐」——上执行失败,广州塔与「发」字的透视关系完全错位,奔马方向这一明确细节也出现反转。碳纤维材质、荧光色表现、持握自然度均未达到写实摄影标准。整体呈现为「概念可识别、执行粗糙」的AI生成特征,属于提示词理解部分到位但细节控制失控的案例。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...