MiniMax image-01 在「布达拉宫镂空祥字卡片生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:MiniMax image-01
  • 用例名称:布达拉宫镂空祥字卡片生成
  • 测试类型:图像生成
  • 评测维度:VG-FramedPerspective

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张写实摄影风格的图像:第一人称视角,一只手拿着一张藏青色纸质卡片,卡片中心镂空刻有汉字「祥」,透过镂空部分可以看到远处的布达拉宫,背景天空纯净湛蓝。电影级宽屏构图。

任务要求

AI 模型需要满足以下要求:

  1. 画面中有一只手持藏青色卡片,视角为第一人称
  2. 卡片中心有镂空汉字「祥」
  3. 透过镂空部分可见布达拉宫
  4. 背景天空纯净湛蓝
  5. 整体为写实摄影风格,画面清晰

评测结果

综合得分

该模型在此用例的得分为:60.0 分(满分 100 分),已通过

基础难度评测结果

  • 得分:60.0 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手举着一张深蓝色长方形卡片的场景,背景是纯净明亮的蔚蓝色天空。卡片中心被镂空成一个类似数字“8”或无穷大符号的形状。通过下方的镂空圆孔,可以看到远处模糊的布达拉宫建筑。构图简洁,色彩对比强烈,阳光从左上方照射,在手部留下了清晰的阴影。 画面中存在明显的 AI 生成缺陷:首先,手部结构极其异常,大拇指与食指的连接处逻辑混乱,且在卡片下方多出了几根重叠且扭曲的手指,手指的数量和生长位置不符合人体解剖学。其次,卡片左侧边缘似乎直接嵌入了虎口皮肤中,缺乏真实的物理接触感。最后,卡片中心镂空处透出的建筑细节与周围空旷的天空背景在透视和景深上显得不够自然,存在合成痕迹。

图中展示了一只左手举着一张深蓝色长方形卡片的场景,背景是纯净明亮的蔚蓝色天空。卡片中心被镂空成一个类似数字“8”或无穷大符号的形状。通过下方的镂空圆孔,可以看到远处模糊的布达拉宫建筑。构图简洁,色彩对比强烈,阳光从左上方照射,在手部留下了清晰的阴影。

画面中存在明显的 AI 生成缺陷:首先,手部结构极其异常,大拇指与食指的连接处逻辑混乱,且在卡片下方多出了几根重叠且扭曲的手指,手指的数量和生长位置不符合人体解剖学。其次,卡片左侧边缘似乎直接嵌入了虎口皮肤中,缺乏真实的物理接触感。最后,卡片中心镂空处透出的建筑细节与周围空旷的天空背景在透视和景深上显得不够自然,存在合成痕迹。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在核心要求上存在严重失误。最致命的问题是镂空形状完全错误——「祥」字被替换为两个简单的圆角矩形,导致整个创意核心崩塌。布达拉宫的呈现也极为模糊,难以辨认。电影级宽屏构图要求被完全忽视。尽管卡片颜色、天空背景和摄影质感有一定完成度,但三项关键要求(「祥」字镂空、布达拉宫清晰可见、宽屏构图)均未能满足,整体评分偏低。 【GEMINI】该图像在基础摄影氛围的营造上表现尚可,但在核心提示词的执行上严重失败。最关键的「镂空汉字」要求未被实现,导致图像失去了原本设计的文化内涵与视觉焦点。此外,手部细节的崩坏也进一步拉低了整体的写实质量。 【KIMI】这是一张在核心创意点上彻底失败的图像。模型似乎无法理解汉字「祥」的字形结构,以两个椭圆进行敷衍替代,导致整个概念的叙事基础崩塌。尽管基础摄影质感尚可,但提示词中最具辨识度的「镂空祥字见布达拉宫」这一视觉隐喻完全落空,属于典型的「形似神不似」——看似完成了「卡片+镂空+远景」的形式组合,实则丢失了全部文化内涵与视觉逻辑。对于需要精确文字生成的场景,该模型表现不合格。

进阶难度评测结果

  • 得分:58.5 分
  • 通过状态:未通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手在户外背景下捏着一张深蓝色卡片的特写。背景是虚化的连绵山脉和明亮的蓝天白云,光线充足,呈现出一种旅行纪实感。深蓝色的卡片具有纸张纹理,中心有一个白色的不规则色块,里面印着一个黑色的艺术化字体。卡片下方印有金色的独角兽图案,以及“2026”字样和几行模糊的小字。 在 AI 生成的细节方面,存在明显的逻辑缺陷:首先是手部结构异常,大拇指的指甲形状不够自然,且手掌与卡片接触的部位缺乏合理的受力结构。其次,卡片中心的黑色字体并非真实的汉字,而是由笔画随机组合而成的虚假字符。最下方的金色小字也完全无法辨认,属于 AI 常见的乱码现象。此外,卡片在手上的投影位置与背景光线方向略有不符,显得有些生硬。

图中展示了一只左手在户外背景下捏着一张深蓝色卡片的特写。背景是虚化的连绵山脉和明亮的蓝天白云,光线充足,呈现出一种旅行纪实感。深蓝色的卡片具有纸张纹理,中心有一个白色的不规则色块,里面印着一个黑色的艺术化字体。卡片下方印有金色的独角兽图案,以及“2026”字样和几行模糊的小字。

在 AI 生成的细节方面,存在明显的逻辑缺陷:首先是手部结构异常,大拇指的指甲形状不够自然,且手掌与卡片接触的部位缺乏合理的受力结构。其次,卡片中心的黑色字体并非真实的汉字,而是由笔画随机组合而成的虚假字符。最下方的金色小字也完全无法辨认,属于 AI 常见的乱码现象。此外,卡片在手上的投影位置与背景光线方向略有不符,显得有些生硬。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在提示词的核心要求上存在严重失误。最关键的两项——镂空「祥」字和透过镂空可见布达拉宫——均未实现:字形错误且镂空仅为白色色块而非透视效果,布达拉宫完全缺席。这两项失误直接导致图像的核心叙事意图(高原圣地框景卡片)无法传达。卡片颜色、马剪影装饰等次要元素基本到位,但无法弥补核心元素的严重缺失。整体评分偏低,属于「部分完成要求但关键要素严重偏差」的情况。 【GEMINI】这是一次失败的生成尝试。模型完全忽略了提示词中最核心的语义要求——「祥」字镂空和「布达拉宫」背景。虽然在材质表现和基础构图上达到了一定水准,但作为视觉传达作品,其核心信息的缺失导致其无法满足任何实际应用需求。AI在处理复杂语义(如特定汉字镂空)和特定地标建筑的结合上,仍存在显著的逻辑断层。 【KIMI】该图像在核心概念上完全失败。提示词要求的关键元素——「祥」字镂空与布达拉宫框景——均未正确呈现,取而代之的是无法辨识的伪汉字和模糊山峦。这反映出模型对复杂汉字结构、特定地标建筑的空间关系理解存在根本性缺陷。虽然表面具有一定的摄影质感,但关键信息的错误使其无法满足提示词的基本要求,属于「形式上有图、内容上跑题」的典型AI生成失败案例。

困难难度评测结果

  • 得分:57.8 分
  • 通过状态:未通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只手在明亮的户外阳光下,捏着一张深蓝色的正方形卡片。背景是纯净的蔚蓝色天空,以及一座被虚化处理的、具有红白相间色彩的藏式风格建筑。卡片的中心有一个不规则边缘的镂空圆洞,圆洞中悬浮着一个金色的汉字“梦”。在“梦”字的下方,还有几个较小的金色艺术字体。 这张图片具有明显的 AI 生成痕迹。首先,卡片中心的金色“梦”字结构异常,笔画之间缺乏物理连接,仿佛悬浮在镂空的空气中,不符合现实中的剪纸或印刷逻辑。其次,下方的小字并非真实的汉字,而是扭曲且无法辨认的乱码符号。此外,捏着卡片的手指在边缘处显得有些生硬,指甲的形状与光影处理不够自然。整体构图虽然色彩鲜艳、视觉冲击力强,但细节上的物理逻辑错误揭示了其 AI 生成的本质。

图中展示了一只手在明亮的户外阳光下,捏着一张深蓝色的正方形卡片。背景是纯净的蔚蓝色天空,以及一座被虚化处理的、具有红白相间色彩的藏式风格建筑。卡片的中心有一个不规则边缘的镂空圆洞,圆洞中悬浮着一个金色的汉字“梦”。在“梦”字的下方,还有几个较小的金色艺术字体。

这张图片具有明显的 AI 生成痕迹。首先,卡片中心的金色“梦”字结构异常,笔画之间缺乏物理连接,仿佛悬浮在镂空的空气中,不符合现实中的剪纸或印刷逻辑。其次,下方的小字并非真实的汉字,而是扭曲且无法辨认的乱码符号。此外,捏着卡片的手指在边缘处显得有些生硬,指甲的形状与光影处理不够自然。整体构图虽然色彩鲜艳、视觉冲击力强,但细节上的物理逻辑错误揭示了其 AI 生成的本质。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在核心内容上存在根本性失误:最关键的镂空汉字从「祥」变成了「梦」,直接导致主体元素完整性严重失分。景深逻辑与提示词要求完全相反,卡片清晰而背景建筑虚化,违背了提示词的核心技术要求。构图比例也未达到16:9宽屏标准。尽管整体色调的冷峻高远感有一定呈现,手持视角构建基本合理,但核心内容错误、景深逻辑倒置、关键装饰元素缺失等问题叠加,使得整体完成度较低,属于「部分完成要求,有多处需要改进」的水平。 【GEMINI】这是一次失败的生成尝试。模型完全忽略了提示词中关于具体文字内容(「祥」、「2026」)和图形(马)的硬性要求。更严重的是,模型未能理解微距摄影的景深逻辑,导致画面主次颠倒,且背景建筑的合成感极强,完全没有达到写实摄影的标准。 【KIMI】该图像在核心语义理解上出现严重偏差:将「祥」误作「梦」,将「精刻镂空」误作「烫金印刷」,将「框景清晰」误作「全局虚化」。模型未能理解「镂空卡片作为取景框」这一关键创意——镂空区域应如窗口般框住清晰的布达拉宫,而非与背景一同虚化。底部关键信息「2026」与马剪影完全缺失,手工纸质感、刻痕层次、边缘透光等精微要求无一达成。仅天空色调与手持构图勉强合格,整体属于「部分完成要求」层级,与提示词意图存在显著偏离。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...