doubao-seedream-4-0 在「广州塔镂空字卡片摄影生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：doubao-seedream-4-0
用例名称：广州塔镂空字卡片摄影生成
测试类型：图像生成
评测维度：VG-FramedPerspective

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张第一人称视角的照片：一只手持着一张黑色卡片，卡片中心镂空刻有汉字「发」，透过镂空部分可以看到远处的广州塔（小蛮腰）。写实摄影风格。

任务要求

AI 模型需要满足以下要求：

画面呈现第一人称手持卡片的视角
卡片为黑色，中心有镂空汉字「发」
透过镂空部分可见广州塔（小蛮腰）轮廓
整体画面清晰，构图合理
写实摄影风格

评测结果

综合得分

该模型在此用例的得分为：72.2 分（满分 100 分），已通过

基础难度评测结果

得分：72.2 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一只左手拿着一张黑色正方形卡片，卡片中心镂空刻有一个简体中文字“发”。背景是晴朗的蓝天，远处矗立着广州塔（小蛮腰）的轮廓。拍摄者巧妙地利用透视关系，让镂空的“发”字正好套在远处的广州塔上，阳光从塔尖后方射出，形成剪影效果。画面构图简洁，色彩以蓝、黑、白为主，给人一种积极向上的视觉感受。在 AI 生成的细节方面，存在一些明显的逻辑和形态缺陷：首先，手部结构异常，拿卡片的手指数量和连接处显得生硬且不符合人体解剖学，指尖与卡片的接触点模糊。其次，黑色卡片的上边缘出现了一处不自然的透光缺口，仿佛卡片材质被“切断”了。此外，背景中右侧的建筑支架结构杂乱，缺乏真实的工程逻辑，且“发”字镂空边缘的透视与背景塔身的衔接略显生硬，暴露出 AI 合成的痕迹。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本图在摄影质感与构图形式上完成度较高，第一人称视角、黑色镂空卡片、「发」字均准确呈现，光影处理尤为出色。然而最致命的问题在于背景地标识别错误——画面中的塔楼为直筒型结构，与广州塔（小蛮腰）标志性的双曲面腰身造型相去甚远，导致提示词的核心地标要求未能满足。这一错误直接影响主体元素完整性与空间透视关系的叙事逻辑，使整体评分无法进入优秀区间。【GEMINI】该图像在构图意图上完成了提示词的基本要求，但在写实摄影的物理逻辑上表现较差。AI 在处理「镂空」这一复杂光学现象时，未能模拟出真实的光线穿透效果，导致卡片看起来像是一个浮在空中的平面贴图，而非真实手持的物体。此外，手部细节与汉字结构的崩坏进一步削弱了画面的真实感。【KIMI】这是一张「概念过关、执行欠打磨」的AI生成图像。提示词的核心创意——镂空「发」字框住广州塔——得到了视觉化的呈现，但模型在空间深度处理、材质真实感与背景细节保留上暴露出典型短板。广州塔作为「被看见」的对象却沦为模糊色块，是最大扣分项；手部与卡片的「悬浮感」则暴露了AI对物理交互理解的局限。整体属于「一眼可看、细究即溃」的生成质量，勉强满足社交分享需求，但经不起专业审视。

进阶难度评测结果

得分：73.0 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

画面中，一只手正捏着一张黑色碳纤维纹理的长方形卡片，背景是淡蓝色的阴天。卡片的中心有一个镂空的汉字“发”，透过这个镂空，可以清晰地看到远处高耸入云的广州塔（小蛮腰）。卡片底部印有荧光绿色的数字“2026”。构图采用了中心对齐的方式，将卡片作为前景，利用镂空效果将地标建筑巧妙地框在其中。这张图片存在明显的 AI 生成缺陷：首先，手部动作显得非常不自然，左侧手指的关节连接处模糊且透视扭曲，看起来像是从侧面生硬地长出来的。其次，镂空汉字“发”的笔画边缘极不规整，尤其是撇画和捺画的末端出现了锯齿状的像素缺失。最明显的逻辑错误在于，卡片下方的广州塔塔身竟然直接穿透了卡片的实体边缘，出现在了卡片底部的外侧，这在物理空间上是不可能实现的，属于典型的空间透视层级错误。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像整体完成了提示词的核心要素：第一人称视角、碳纤维卡片、镂空「发」字内可见广州塔、荧光绿「2026」字样均有呈现，基本框架符合要求。主要短板集中在科技感光效与冷色调氛围的营造上——画面缺乏提示词明确要求的冷色调处理和科技感光效，整体视觉氛围偏向普通产品摄影而非科技感写实风格。镂空透视的物理真实感和背景城市景观的丰富度也有提升空间。综合而言属于「基本完成但有明显瑕疵」的水平。【GEMINI】这张图像在构图意图上完成了基本要求，但在物理透视逻辑和精细化细节处理上表现平庸。最主要的问题在于镂空透视的逻辑错误，导致画面缺乏真实摄影的沉浸感。作为一张旨在体现科技感和写实摄影的作品，其在细节处理上的粗糙感（尤其是文字和边缘）拉低了整体的专业度。【KIMI】这是一张概念意图清晰但执行失败的AI生成图像。核心问题在于空间透视关系的物理矛盾——广州塔的双重呈现暴露了模型对「遮挡-镂空-透视」三层空间逻辑的理解缺陷。材质与光效的处理停留在表面纹理叠加，未深入真实物理属性的模拟。作为「写实摄影」风格的作品，其可信度因透视错误而严重受损。建议重新生成时明确约束「广州塔仅通过镂空可见，卡片下方无塔身延伸」的空间关系。

困难难度评测结果

得分：75.0 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

图片内容描述（由 AI 生成，供你参考）

图中展示了一只手在夜晚的城市背景前，捏着一张具有碳纤维纹理的黑色矩形卡片。背景是模糊的城市霓虹夜景，隐约可见广州塔（小蛮腰）和珠江的倒影，色调以深蓝和紫色为主。卡片中心有一个镂空的广州塔造型，透出后方璀璨的蓝紫色灯光，塔身上方叠加了一个金属质感的汉字「发」。卡片右下角印有橙色的数字「2026」和一只奔跑的马形剪影。画面构图采用中心对焦，强调卡片细节。在 AI 生成的缺陷方面，最明显的问题在于手部：大拇指的指甲形状略显生硬，且手指与卡片接触的边缘缺乏自然的压迫感和阴影，显得有些漂浮。此外，背景中左侧建筑的光影分布不够自然，部分光斑呈现出不规则的几何形状。卡片上的汉字「发」与塔身的结合处边缘过于锐利，缺乏真实的物理遮挡关系。

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本图在视觉呈现上具备一定水准，碳纤维纹理、色调氛围、构图姿势等方面完成度较高。然而，提示词最核心、最具创意的设计要求——「透过『发』字镂空部分精准对齐显现广州塔腰部钢结构」——完全未能实现。模型将广州塔作为印刷图案处理，将「发」字作为浮雕叠加，完全回避了镂空透视这一核心难点。这一根本性偏差使得图像虽然视觉上尚可，但与提示词的核心意图存在本质差距，属于「完成了外观但错过了灵魂」的典型AI生成问题。【GEMINI】该图像在氛围营造和基础摄影质感上表现优秀，但在处理复杂的「镂空透视」逻辑时出现了明显的理解偏差。未能实现「镂空」导致画面失去了提示词中最具技术挑战性的视觉核心，这是导致评分拉开差距的主要原因。【KIMI】该图像在氛围营造和基础构图上达到及格水平，但核心创意——「镂空文字与地标建筑透视对齐」——完全失败，这是提示词中最关键的视觉锚点。广州塔腰部钢结构未能透过镂空显现，取而代之的是塔尖的简化图形，且与背景实体无法形成空间连贯性。材质表现方面，碳纤维、荧光色、金属高光等关键元素均未达到写实标准。作为一张以「精准透视对齐」为核心卖点的图像，这一根本性失误导致整体质量大幅下滑。建议重新生成时严格控制镂空区域与背景地标的空间对应关系，并强化材质的细节层次。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

进阶难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

困难难度评测结果

模型生成产物

图片内容描述（由 AI 生成，供你参考）

AI 评审点评

相关链接

反馈评测问题