MiniMax image-01 在「俯视视角」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:MiniMax image-01
- 用例名称:俯视视角
- 测试类型:图像生成
- 评测维度:透视视角
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
生成一张图片:从正上方俯视一个圆形的白色陶瓷盘子,盘子中央放着一个红色的苹果。背景是深色的木质桌面,光线从上方均匀照射,苹果和盘子的影子清晰可见。
任务要求
AI 模型需要满足以下要求:
- 图像采用严格的正上方垂直俯视角度(Top-down view),仅能看到盘子和苹果的顶部平面,不应出现明显的侧面透视
- 盘子在俯视视角下呈现为正圆形或接近正圆形(长短轴比不低于0.85)
- 红色苹果位于白色陶瓷盘子的中央位置,偏移量不超过盘子半径的25%
- 背景为深色木质桌面,木纹纹理可见,整体色调较深,与白色盘子形成明显对比
- 光线从正上方照射,苹果和盘子在桌面或盘面上产生可见阴影,阴影应呈现顶光特征(短小、位于物体正下方边缘)
评测结果
综合得分
该模型在此用例的得分为:70.5 分(满分 100 分),已通过
基础难度评测结果
- 得分:70.5 分
- 通过状态:已通过
模型生成产物
该模型生成了以下图片:
图片内容描述(由 AI 生成,供你参考)
图中展示了一个极简主义风格的静物场景。画面正中央是一个纯白色的圆形瓷盘,盘子中心放置着一颗红黄相间的红富士苹果。背景是深黑色且带有细微木纹质感的桌面,与明亮的白色盘子形成了强烈的视觉对比。光线从右上方照射下来,在苹果的左侧投射出一段清晰的长阴影,同时盘子的左边缘也有一部分没入黑暗中,营造出一种静谧、深沉的氛围。 作为一张 AI 生成的图片,画面中存在一些逻辑和透视上的瑕疵:首先,苹果投射在盘子上的阴影形状过于笔直且生硬,缺乏球体投影应有的弧度变化;其次,盘子左侧边缘的阴影切割线显得极不自然,仿佛盘子被凭空削去了一块,与右侧圆润的边缘无法衔接;此外,苹果顶部的果柄显得过于细长且质感僵硬,缺乏真实植物的自然纹理。整体构图虽然简洁,但光影逻辑的缺失使其看起来略显违和。
注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】图像整体质感不错,构图简洁,但在两个核心技术要求上存在明显失误:视角未达到严格的90度垂直俯视(苹果侧面可见),以及光源方向与提示词要求相悖(侧光而非顶光)。这两个问题直接影响了对「俯视角度处理能力」的测试效果。空间布局基本合格,但光影表现的失误尤为突出,拉低了整体评分。 【GEMINI】该模型在材质渲染和色彩对比上表现出色,但在执行「特定摄影角度」和「物理光影逻辑」方面存在明显缺陷。未能严格遵守垂直俯视的要求,且光影方向与提示词描述完全相反,将均匀顶光处理成了强烈的侧向硬光。 【KIMI】该图像在主体渲染质量上表现尚可,但在核心要求「严格俯视」和「上方均匀照射」上存在不可忽视的偏差。AI模型似乎将「俯视」理解为「接近俯视的斜上方视角」,并将「上方照射」渲染为「侧顶光」,导致阴影逻辑混乱。这种「差不多就行」的近似处理正是当前生成模型的典型缺陷——在简单几何关系上缺乏严格的物理约束意识。对于测试俯视角度的任务,此结果仅算勉强及格。
进阶难度评测结果
- 得分:71.8 分
- 通过状态:已通过
模型生成产物
该模型生成了以下图片:
图片内容描述(由 AI 生成,供你参考)
图中展示了一个从高空俯瞰的城市环岛交通路口。画面中心是一个圆形的绿化带,种满了茂密的绿色灌木和少量红色花卉。环岛四周环绕着宽阔的灰色沥青马路,多条醒目的白色斑马线呈放射状或弧形分布在路口各处。画面光影对比强烈,阳光从斜上方照射,在地面上投下了路灯杆、树木和行人的长长黑影。街道上有红色、蓝色、白色和黑色的汽车正在行驶或停靠,还有零星的行人正在穿过马路。 画面中存在明显的 AI 生成缺陷:首先,斑马线的逻辑非常混乱,部分线条在路中间凭空消失,或者以不合理的弧度弯曲,完全不符合交通规则;其次,车辆的形态存在扭曲,例如右下角的几辆车重叠挤压在一起,且部分车辆缺少轮廓细节;此外,路面上的光影逻辑不一致,有些阴影的投射方向与光源位置冲突,且部分行人的身体结构模糊,呈现出不自然的黑点状。
注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】该图像在场景元素完整性方面表现较好,六类核心元素基本齐全,但最核心的「高空垂直俯视视角」要求未能严格满足——图像实为斜俯角拍摄,导致建筑侧立面可见、道路透视收缩明显、圆形花坛变形为椭圆,这是对提示词最根本要求的偏离。几何保真度受斜角影响较大,斑马线变形和阴影方向不一致进一步拉低了技术准确性。综合来看,图像视觉效果尚可,但在严格执行「Bird's eye view」这一核心指令上存在明显失误,属于部分完成要求的水平。 【GEMINI】该图像未能完全满足「严格垂直俯视」和「标准十字路口」的核心要求。视角上的倾斜使得画面更接近高空斜拍而非平面鸟瞰。最核心的问题在于交通设施的几何逻辑(斑马线、车道线)极其混乱,且阴影的物理一致性较差,无法经受专业视觉设计的严苛推敲。 【KIMI】该图像在氛围营造上具有航拍摄影的质感,但核心缺陷在于视角未达严格垂直俯视标准,且阴影方向与提示词要求完全相反——这是不可接受的硬性错误。作为测试「俯视角度」的生成任务,模型未能准确执行「左上方光源」的方位指令,导致阴影逻辑崩溃。建议评分落在65-70区间,以体现「基本完成场景但关键指令失败」的模型表现。
困难难度评测结果
- 得分:47.4 分
- 通过状态:未通过
模型生成产物
该模型生成了以下图片:
图片内容描述(由 AI 生成,供你参考)
图中展示了一个从俯视角度拍摄的国际象棋对弈场景。画面中心是一块黑白相间的棋盘,上方摆放着密集的黑色棋子,下方则是白色棋子。棋盘两侧各有一杯黑咖啡,周围散落着记分纸、笔和电子计时器。三只手出现在画面边缘,似乎正在思考或移动棋子。整体色调偏暗,木质桌面的纹理清晰,营造出一种严肃的竞技氛围。 然而,画面中存在多处明显的 AI 生成缺陷。首先,棋盘的格数和边缘标注极其混乱,并非标准的 8x8 布局,边缘的数字和字母符号扭曲且无逻辑。其次,棋子的形状模糊且不规范,许多棋子看起来像是一团堆叠的奶油或不规则的木块。最严重的错误在于人物的手部:右上角的手指长度比例失调,指节连接处生硬;右下角的手臂与身体连接逻辑不明,且手指数量和姿态显得僵硬且不自然。此外,背景中的纸张文字均为无法辨认的乱码。
注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】这张图像在表面上看起来像一张国际象棋俯视照片,但在严格的提示词要求面前暴露出多处根本性缺陷。最核心的失败在于:视角并非严格90度垂直俯视,导致棋盘几何变形、圆形物体椭圆化;棋子位置完全无法对应提示词要求的e4王后和f6马;棋盘坐标标注出现AI典型的数字混乱错误;黑方棋子密集堆叠违反象棋规则。该图像更接近一张75-80度俯角的「接近俯视」照片,而非严格的Top-down视角。对于一个专门测试俯视角度处理能力的任务而言,这是一次不及格的表现。 【GEMINI】这是一张在视觉氛围上具有欺骗性但在专业逻辑上完全失败的作品。作为摄影师,我一眼就能看出这并非垂直俯视(Top-down),而是带有倾角的俯拍。作为设计师,棋盘格数的低级错误和坐标系的混乱使得这张图在任何专业场景下都不可用。模型完全忽略了提示词中关于棋局位置(e4, f6)的核心指令,仅完成了「俯视国际象棋」这一模糊概念。 【KIMI】该图像在核心要求上全面失败。最严重的问题是棋盘坐标系统的完全混乱——边缘标注的数字既非标准1-8,也非任何可识别的逻辑序列,出现「13」「19」「21」等荒谬数字,这直接证明AI未能理解国际象棋棋盘的基本结构。结合棋子数量超标、透视变形、几何扭曲等问题,模型在处理「严格90度俯视+精确坐标定位」这一组合要求时表现出明显的能力缺陷。尽管光影氛围尚可,但提示词的核心功能需求(测试俯视角度)未得到满足。
相关链接
您可以通过以下链接查看更多相关内容: