doubao-seedream-4-0 在「广州塔镂空字卡片摄影生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:doubao-seedream-4-0
  • 用例名称:广州塔镂空字卡片摄影生成
  • 测试类型:图像生成
  • 评测维度:VG-FramedPerspective

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张第一人称视角的照片:一只手持着一张黑色卡片,卡片中心镂空刻有汉字「发」,透过镂空部分可以看到远处的广州塔(小蛮腰)。写实摄影风格。

任务要求

AI 模型需要满足以下要求:

  1. 画面呈现第一人称手持卡片的视角
  2. 卡片为黑色,中心有镂空汉字「发」
  3. 透过镂空部分可见广州塔(小蛮腰)轮廓
  4. 整体画面清晰,构图合理
  5. 写实摄影风格

评测结果

综合得分

该模型在此用例的得分为:72.2 分(满分 100 分),已通过

基础难度评测结果

  • 得分:72.2 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手拿着一张黑色正方形卡片,卡片中心镂空刻有一个简体中文字“发”。背景是晴朗的蓝天,远处矗立着广州塔(小蛮腰)的轮廓。拍摄者巧妙地利用透视关系,让镂空的“发”字正好套在远处的广州塔上,阳光从塔尖后方射出,形成剪影效果。画面构图简洁,色彩以蓝、黑、白为主,给人一种积极向上的视觉感受。 在 AI 生成的细节方面,存在一些明显的逻辑和形态缺陷:首先,手部结构异常,拿卡片的手指数量和连接处显得生硬且不符合人体解剖学,指尖与卡片的接触点模糊。其次,黑色卡片的上边缘出现了一处不自然的透光缺口,仿佛卡片材质被“切断”了。此外,背景中右侧的建筑支架结构杂乱,缺乏真实的工程逻辑,且“发”字镂空边缘的透视与背景塔身的衔接略显生硬,暴露出 AI 合成的痕迹。

图中展示了一只左手拿着一张黑色正方形卡片,卡片中心镂空刻有一个简体中文字“发”。背景是晴朗的蓝天,远处矗立着广州塔(小蛮腰)的轮廓。拍摄者巧妙地利用透视关系,让镂空的“发”字正好套在远处的广州塔上,阳光从塔尖后方射出,形成剪影效果。画面构图简洁,色彩以蓝、黑、白为主,给人一种积极向上的视觉感受。

在 AI 生成的细节方面,存在一些明显的逻辑和形态缺陷:首先,手部结构异常,拿卡片的手指数量和连接处显得生硬且不符合人体解剖学,指尖与卡片的接触点模糊。其次,黑色卡片的上边缘出现了一处不自然的透光缺口,仿佛卡片材质被“切断”了。此外,背景中右侧的建筑支架结构杂乱,缺乏真实的工程逻辑,且“发”字镂空边缘的透视与背景塔身的衔接略显生硬,暴露出 AI 合成的痕迹。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】本图在摄影质感与构图形式上完成度较高,第一人称视角、黑色镂空卡片、「发」字均准确呈现,光影处理尤为出色。然而最致命的问题在于背景地标识别错误——画面中的塔楼为直筒型结构,与广州塔(小蛮腰)标志性的双曲面腰身造型相去甚远,导致提示词的核心地标要求未能满足。这一错误直接影响主体元素完整性与空间透视关系的叙事逻辑,使整体评分无法进入优秀区间。 【GEMINI】该图像在构图意图上完成了提示词的基本要求,但在写实摄影的物理逻辑上表现较差。AI 在处理「镂空」这一复杂光学现象时,未能模拟出真实的光线穿透效果,导致卡片看起来像是一个浮在空中的平面贴图,而非真实手持的物体。此外,手部细节与汉字结构的崩坏进一步削弱了画面的真实感。 【KIMI】这是一张「概念过关、执行欠打磨」的AI生成图像。提示词的核心创意——镂空「发」字框住广州塔——得到了视觉化的呈现,但模型在空间深度处理、材质真实感与背景细节保留上暴露出典型短板。广州塔作为「被看见」的对象却沦为模糊色块,是最大扣分项;手部与卡片的「悬浮感」则暴露了AI对物理交互理解的局限。整体属于「一眼可看、细究即溃」的生成质量,勉强满足社交分享需求,但经不起专业审视。

进阶难度评测结果

  • 得分:73.0 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

画面中,一只手正捏着一张黑色碳纤维纹理的长方形卡片,背景是淡蓝色的阴天。卡片的中心有一个镂空的汉字“发”,透过这个镂空,可以清晰地看到远处高耸入云的广州塔(小蛮腰)。卡片底部印有荧光绿色的数字“2026”。构图采用了中心对齐的方式,将卡片作为前景,利用镂空效果将地标建筑巧妙地框在其中。 这张图片存在明显的 AI 生成缺陷:首先,手部动作显得非常不自然,左侧手指的关节连接处模糊且透视扭曲,看起来像是从侧面生硬地长出来的。其次,镂空汉字“发”的笔画边缘极不规整,尤其是撇画和捺画的末端出现了锯齿状的像素缺失。最明显的逻辑错误在于,卡片下方的广州塔塔身竟然直接穿透了卡片的实体边缘,出现在了卡片底部的外侧,这在物理空间上是不可能实现的,属于典型的空间透视层级错误。

画面中,一只手正捏着一张黑色碳纤维纹理的长方形卡片,背景是淡蓝色的阴天。卡片的中心有一个镂空的汉字“发”,透过这个镂空,可以清晰地看到远处高耸入云的广州塔(小蛮腰)。卡片底部印有荧光绿色的数字“2026”。构图采用了中心对齐的方式,将卡片作为前景,利用镂空效果将地标建筑巧妙地框在其中。

这张图片存在明显的 AI 生成缺陷:首先,手部动作显得非常不自然,左侧手指的关节连接处模糊且透视扭曲,看起来像是从侧面生硬地长出来的。其次,镂空汉字“发”的笔画边缘极不规整,尤其是撇画和捺画的末端出现了锯齿状的像素缺失。最明显的逻辑错误在于,卡片下方的广州塔塔身竟然直接穿透了卡片的实体边缘,出现在了卡片底部的外侧,这在物理空间上是不可能实现的,属于典型的空间透视层级错误。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像整体完成了提示词的核心要素:第一人称视角、碳纤维卡片、镂空「发」字内可见广州塔、荧光绿「2026」字样均有呈现,基本框架符合要求。主要短板集中在科技感光效与冷色调氛围的营造上——画面缺乏提示词明确要求的冷色调处理和科技感光效,整体视觉氛围偏向普通产品摄影而非科技感写实风格。镂空透视的物理真实感和背景城市景观的丰富度也有提升空间。综合而言属于「基本完成但有明显瑕疵」的水平。 【GEMINI】这张图像在构图意图上完成了基本要求,但在物理透视逻辑和精细化细节处理上表现平庸。最主要的问题在于镂空透视的逻辑错误,导致画面缺乏真实摄影的沉浸感。作为一张旨在体现科技感和写实摄影的作品,其在细节处理上的粗糙感(尤其是文字和边缘)拉低了整体的专业度。 【KIMI】这是一张概念意图清晰但执行失败的AI生成图像。核心问题在于空间透视关系的物理矛盾——广州塔的双重呈现暴露了模型对「遮挡-镂空-透视」三层空间逻辑的理解缺陷。材质与光效的处理停留在表面纹理叠加,未深入真实物理属性的模拟。作为「写实摄影」风格的作品,其可信度因透视错误而严重受损。建议重新生成时明确约束「广州塔仅通过镂空可见,卡片下方无塔身延伸」的空间关系。

困难难度评测结果

  • 得分:75.0 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只手在夜晚的城市背景前,捏着一张具有碳纤维纹理的黑色矩形卡片。背景是模糊的城市霓虹夜景,隐约可见广州塔(小蛮腰)和珠江的倒影,色调以深蓝和紫色为主。卡片中心有一个镂空的广州塔造型,透出后方璀璨的蓝紫色灯光,塔身上方叠加了一个金属质感的汉字「发」。卡片右下角印有橙色的数字「2026」和一只奔跑的马形剪影。画面构图采用中心对焦,强调卡片细节。 在 AI 生成的缺陷方面,最明显的问题在于手部:大拇指的指甲形状略显生硬,且手指与卡片接触的边缘缺乏自然的压迫感和阴影,显得有些漂浮。此外,背景中左侧建筑的光影分布不够自然,部分光斑呈现出不规则的几何形状。卡片上的汉字「发」与塔身的结合处边缘过于锐利,缺乏真实的物理遮挡关系。

图中展示了一只手在夜晚的城市背景前,捏着一张具有碳纤维纹理的黑色矩形卡片。背景是模糊的城市霓虹夜景,隐约可见广州塔(小蛮腰)和珠江的倒影,色调以深蓝和紫色为主。卡片中心有一个镂空的广州塔造型,透出后方璀璨的蓝紫色灯光,塔身上方叠加了一个金属质感的汉字「发」。卡片右下角印有橙色的数字「2026」和一只奔跑的马形剪影。画面构图采用中心对焦,强调卡片细节。

在 AI 生成的缺陷方面,最明显的问题在于手部:大拇指的指甲形状略显生硬,且手指与卡片接触的边缘缺乏自然的压迫感和阴影,显得有些漂浮。此外,背景中左侧建筑的光影分布不够自然,部分光斑呈现出不规则的几何形状。卡片上的汉字「发」与塔身的结合处边缘过于锐利,缺乏真实的物理遮挡关系。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】本图在视觉呈现上具备一定水准,碳纤维纹理、色调氛围、构图姿势等方面完成度较高。然而,提示词最核心、最具创意的设计要求——「透过『发』字镂空部分精准对齐显现广州塔腰部钢结构」——完全未能实现。模型将广州塔作为印刷图案处理,将「发」字作为浮雕叠加,完全回避了镂空透视这一核心难点。这一根本性偏差使得图像虽然视觉上尚可,但与提示词的核心意图存在本质差距,属于「完成了外观但错过了灵魂」的典型AI生成问题。 【GEMINI】该图像在氛围营造和基础摄影质感上表现优秀,但在处理复杂的「镂空透视」逻辑时出现了明显的理解偏差。未能实现「镂空」导致画面失去了提示词中最具技术挑战性的视觉核心,这是导致评分拉开差距的主要原因。 【KIMI】该图像在氛围营造和基础构图上达到及格水平,但核心创意——「镂空文字与地标建筑透视对齐」——完全失败,这是提示词中最关键的视觉锚点。广州塔腰部钢结构未能透过镂空显现,取而代之的是塔尖的简化图形,且与背景实体无法形成空间连贯性。材质表现方面,碳纤维、荧光色、金属高光等关键元素均未达到写实标准。作为一张以「精准透视对齐」为核心卖点的图像,这一根本性失误导致整体质量大幅下滑。建议重新生成时严格控制镂空区域与背景地标的空间对应关系,并强化材质的细节层次。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...