MiniMax image-01 在「天坛祈年殿镂空岁字卡片生成」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:MiniMax image-01
  • 用例名称:天坛祈年殿镂空岁字卡片生成
  • 测试类型:图像生成
  • 评测维度:VG-FramedPerspective

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一张图像:一只手拿着一张银色金属质感的长方形卡片,卡片中心镂空刻有汉字「岁」,透过镂空部分可以看到远处的北京天坛祈年殿,背景是湛蓝的天空。

任务要求

AI 模型需要满足以下要求:

  1. 画面中有一只手持银色金属长方形卡片
  2. 卡片中心有镂空的汉字「岁」
  3. 透过「岁」字镂空可见北京天坛祈年殿
  4. 背景为湛蓝天空
  5. 整体画面清晰,构图完整

评测结果

综合得分

该模型在此用例的得分为:64.0 分(满分 100 分),已通过

基础难度评测结果

  • 得分:64.0 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手捏着一张银灰色正方形金属镂空片,背景是纯净明亮的深蓝色天空。金属片中心镂空出一个圆框,圆框内是一个复杂的汉字造型,其笔画风格带有古建筑的韵味。透过镂空部位,可以看到远处模糊的红色古建筑顶部。构图上,手部位于左下角,金属片占据画面中心,整体色调简洁,蓝银对比鲜明。 在 AI 生成缺陷方面,画面存在明显的逻辑与细节错误:首先是手部结构异常,大拇指的指甲形状不自然,且食指与中指的衔接位置模糊,指缝处出现了多余的皮肤褶皱;其次,金属片中心的镂空汉字并非真实的文字,而是由杂乱笔画堆砌而成的“伪汉字”,无法辨认;最后,金属片右下角有一个类似印章的凹陷图案,其形状扭曲,完全没有实际意义。此外,金属片的边缘在与手指接触的地方显得有些透明或融合,缺乏真实的物理厚度感。

图中展示了一只左手捏着一张银灰色正方形金属镂空片,背景是纯净明亮的深蓝色天空。金属片中心镂空出一个圆框,圆框内是一个复杂的汉字造型,其笔画风格带有古建筑的韵味。透过镂空部位,可以看到远处模糊的红色古建筑顶部。构图上,手部位于左下角,金属片占据画面中心,整体色调简洁,蓝银对比鲜明。

在 AI 生成缺陷方面,画面存在明显的逻辑与细节错误:首先是手部结构异常,大拇指的指甲形状不自然,且食指与中指的衔接位置模糊,指缝处出现了多余的皮肤褶皱;其次,金属片中心的镂空汉字并非真实的文字,而是由杂乱笔画堆砌而成的“伪汉字”,无法辨认;最后,金属片右下角有一个类似印章的凹陷图案,其形状扭曲,完全没有实际意义。此外,金属片的边缘在与手指接触的地方显得有些透明或融合,缺乏真实的物理厚度感。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在形式框架上基本符合「手持镂空卡片对准远处建筑」的构图思路,材质和背景表现尚可。但两个最核心的要素均告失败:镂空汉字并非「岁」而是完全不同的字符,透过镂空可见的建筑也无法辨认为天坛祈年殿。这两处失误直接导致图像未能完成提示词的核心任务——展示「岁」字镂空与祈年殿的文化美学结合。整体评价为部分完成,存在根本性的内容偏差。 【GEMINI】该图像未能完成核心创作意图。最严重的问题在于对汉字「岁」的识别与生成完全失败,导致主体元素缺失。此外,手指的生理结构错误和镂空处建筑的生硬合成,使得作品在专业视觉评审中无法达到及格水平。 【KIMI】这是一次典型的AI文字生成失败案例。模型在视觉质感与空间构图上表现合格,但在核心任务——生成指定汉字「岁」的镂空形态——上完全失控,产出了一个结构混乱的伪字符。祈年殿的呈现也因镂空设计的错误而被严重削弱,几乎无法辨识。这反映出当前扩散模型在复杂汉字结构生成上的根本缺陷:能够模拟金属质感与摄影光影,却无法理解并正确渲染具有特定笔画顺序与间架结构的文字。评分需严格拉开差距,以警示此类「表面光鲜、内核崩塌」的生成结果。

进阶难度评测结果

  • 得分:66.6 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一只左手拿着一张银灰色金属质感卡片的特写场景。背景是深邃且模糊的青蓝色调,营造出一种神秘、科幻的氛围。卡片中心有一个巨大的镂空汉字形状,透过镂空处可以看到微缩的蓝色建筑景观。卡片的右上角刻有类似篆书的艺术字,底部则刻有数字“2026”以及一串模糊的文字。整体构图简洁,光影聚焦在手部和卡片上。 在 AI 生成的细节方面,存在明显的逻辑缺陷:首先,卡片中心的镂空形状虽然神似汉字“六”或“玄”,但笔画结构并不规范,属于无法辨认的臆造字符。其次,卡片右上角和底部的文字均非真实语言,呈现为扭曲、破碎的符号堆砌。最后,持卡的手部在虎口和手指关节处的纹理处理略显生硬,指甲边缘的细节也缺乏真实皮肤的自然过渡。

图中展示了一只左手拿着一张银灰色金属质感卡片的特写场景。背景是深邃且模糊的青蓝色调,营造出一种神秘、科幻的氛围。卡片中心有一个巨大的镂空汉字形状,透过镂空处可以看到微缩的蓝色建筑景观。卡片的右上角刻有类似篆书的艺术字,底部则刻有数字“2026”以及一串模糊的文字。整体构图简洁,光影聚焦在手部和卡片上。

在 AI 生成的细节方面,存在明显的逻辑缺陷:首先,卡片中心的镂空形状虽然神似汉字“六”或“玄”,但笔画结构并不规范,属于无法辨认的臆造字符。其次,卡片右上角和底部的文字均非真实语言,呈现为扭曲、破碎的符号堆砌。最后,持卡的手部在虎口和手指关节处的纹理处理略显生硬,指甲边缘的细节也缺乏真实皮肤的自然过渡。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在核心要素上存在多处严重偏差:最关键的「岁」字被错误生成为「亥」字,天坛祈年殿被替换为其他宫殿建筑,背景天空场景完全缺失。这三项均是提示词的核心要求,全部未能准确实现。材质表现和景深处理属于亮点,但无法弥补主体元素的根本性错误。整体完成度偏低,属于「部分完成要求,有多处需要改进」的层级。 【GEMINI】图像在氛围营造和色彩控制上达到了专业水准,但在关键语义理解和细节刻画上表现平庸。模型未能准确识别并生成指定的汉字「岁」,且在提示词中明确要求的「马的剪影」完全缺失,这在严苛的视觉设计评审中属于严重的执行失误。 【KIMI】此图像在核心创意元素上存在严重偏差:汉字错误(「京」代「岁」)、建筑错误(非祈年殿)、剪影失败(非马形),三项关键要求均未满足。虽色调氛围及格,但主体内容失真导致整体质量大幅下滑,属于「形式尚可、内容失败」的典型AI生成案例。模型对汉字结构理解、地标建筑识别、简单剪影形态控制均存在明显缺陷。

困难难度评测结果

  • 得分:64.8 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一双人手正举着一张银灰色金属材质的镂空卡片,背景是蓝天下一座宏伟的中国传统圆形古建筑,疑似北京天坛。画面构图居中,光线明亮,呈现出清爽的青蓝色调。卡片中心有一个不规则的圆形镂空,内部是一个类似汉字但笔画扭曲的符号。卡片下方刻有一些文字,其中清晰可见“2026”字样,但其余汉字均为无法辨认的乱码,这是典型的 AI 生成错误。此外,画面中的手部存在明显的生理结构异常:左侧手掌边缘多出了一个模糊的肉质凸起,手指的关节连接处显得不够自然,指甲的形状也略显生硬。背景中的古建筑由于大光圈虚化效果,细节较为模糊,整体呈现出一种超现实的旅游纪念照风格。

图中展示了一双人手正举着一张银灰色金属材质的镂空卡片,背景是蓝天下一座宏伟的中国传统圆形古建筑,疑似北京天坛。画面构图居中,光线明亮,呈现出清爽的青蓝色调。卡片中心有一个不规则的圆形镂空,内部是一个类似汉字但笔画扭曲的符号。卡片下方刻有一些文字,其中清晰可见“2026”字样,但其余汉字均为无法辨认的乱码,这是典型的 AI 生成错误。此外,画面中的手部存在明显的生理结构异常:左侧手掌边缘多出了一个模糊的肉质凸起,手指的关节连接处显得不够自然,指甲的形状也略显生硬。背景中的古建筑由于大光圈虚化效果,细节较为模糊,整体呈现出一种超现实的旅游纪念照风格。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在整体概念方向上基本把握了提示词的核心意图——金属卡片镂空框住祈年殿的构图创意,冷蓝色调的电影风格也有所体现。然而在关键细节执行上存在多处严重失误:最致命的是「岁」字字形严重失真无法辨认,奔马剪影元素完全缺失,「2026」数字模糊,卡片底部文字混乱。构图的「框中框」对称精准度不足,视角也未能严格实现第一人称效果。综合来看,图像完成了约60%的提示词要求,在概念层面有一定可取之处,但在文字准确性和元素完整性上存在根本性缺陷,距离高端文创宣传图的品质标准仍有较大差距。 【GEMINI】这是一张典型的「远看有质感,近看全是坑」的 AI 生成图。虽然在色彩氛围和金属材质的初步渲染上表现尚可,但在核心指令的执行上严重失败。特别是文字生成能力和解剖学逻辑的缺失,使得这张图完全无法作为文创宣传图使用。尤其是镂空字体的乱码和底部雕刻的缺失,直接否定了图像的叙事功能。 【KIMI】这是一张在核心元素上严重失败的AI生成图像。最致命的问题在于「岁」字完全错误以及底部文字全面崩坏,直接违背了提示词中最明确的要求。构图虽有基本框架但精准度不足,材质表现流于表面。整体呈现出典型的AI文字生成障碍——模型无法理解并正确渲染指定的汉字与数字信息。作为「高端文创产品宣传图」的定位,因关键信息错误而完全失效。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...