wan2.7-image 在「时空错位」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：wan2.7-image
用例名称：时空错位
测试类型：图像生成
评测维度：创意表达

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张图片：一个古罗马士兵站在现代地铁站台上，他穿着完整的盔甲，手持长矛和盾牌，正在看地铁线路图。旁边有几个用手机拍照的乘客，地铁站内有明亮的LED灯光和电子显示屏。

任务要求

AI 模型需要满足以下要求：

古罗马士兵须穿戴可辨认的完整古罗马式盔甲（包括头盔与胸甲），同时手持长矛（或标枪）与盾牌，武器与护具须同时出现在画面中
场景须设定在现代地铁站台，画面中需有至少一项明确的站台设施（如站台边缘/安全门、轨道、电子显示屏或LED灯光照明）
士兵须呈现出正在查看地铁线路图的姿态，线路图须在画面中可见，且士兵的视线或身体朝向指向该图示
画面中须出现至少2名身着现代服装的乘客，且其中至少1名乘客须有明显的举起手机拍照的动作
图像整体无严重生成缺陷，包括：无明显肢体畸形（如多余手指、扭曲四肢）、无大面积文字乱码、无严重人脸扭曲

评测结果

综合得分

该模型在此用例的得分为：78.0 分（满分 100 分），已通过

基础难度评测结果

得分：78.0 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这张图像在视觉质量和大部分元素还原上表现优秀，古罗马士兵与现代地铁站的时空反差构建得相当成功，光影融合自然，细节丰富。然而最致命的缺陷是完全忽略了提示词中「正在看地铁线路图」这一核心叙事动作——这不仅是关键要求第3条的明确失分项，更是整个场景幽默感和故事性的核心所在。没有这个动作，图像变成了一张普通的「古装cosplay在地铁站被拍照」的场景，而非「古罗马士兵迷路在现代地铁」的戏剧性时空错位叙事。这一缺失将语义对齐分数拉低至75分以下。【GEMINI】这张图片在创意构思上完成了基础架构，但在执行精度上表现欠佳。作为一名评审员，我无法容忍盔甲在室内环境却反射室外阳光这种低级错误。此外，手部畸形和文字乱码是典型的AI生成瑕疵，严重拉低了作品的专业水准。时空错位的魅力在于‘细节的真实’，而本图在细节处失分过多。【KIMI】整体而言，图像较好地完成了提示词要求，但在光影处理和视觉融合度方面还有提升空间。

进阶难度评测结果

得分：84.6 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】图像高度准确地还原了提示词的核心要求：飞艇具备清晰的蒸汽朋克特征（铜管、齿轮、蒸汽喷口均可见），船员穿着19世纪探险服装且比例协调，地面有三角龙在蕨类植物间，天空有翼龙盘旋，远景火山喷发浓烟和岩浆。唯一微小瑕疵是飞艇呈现「降落中」的动态感不够强烈（起落架已放下但悬停感较静态），但这不影响所有关键元素的完整呈现。【GEMINI】这是一张在宏观构图和氛围上表现出色，但在微观细节和语义还原上存在明显短板的作品。模型较好地理解了‘错位感’，但在执行复杂的机械细节（齿轮）和特定生物解剖（三角龙）时出现了退化。作为专业评审，我认为该图在满足‘硬性指标’方面仅达到了及格线水平，无法经受近距离细看。【KIMI】图像较好地完成了提示词要求，但在细节还原、比例协调和过渡自然性方面还有改进空间。

困难难度评测结果

得分：78.3 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】图像在赛博朋克环境营造和宫廷服饰还原方面表现优秀，光影与构图具备较高艺术水准。但在「时空错位场景」的核心任务上存在明显短板：科技配饰与传统服饰的融合流于表面（发光元素过弱），达芬奇机械装置完全缺失，无人机几何图案未体现文艺复兴美学。画面更像是「穿古装的赛博朋克街景」，而非两种时代风格的深度交织。整体完成度约70%，属于「部分完成要求，有多处需要改进」的水平。【GEMINI】这是一张视觉冲击力极强但经不起细节推敲的作品。它在‘赛博朋克’这一成熟风格上表现稳健，但在处理‘时空错位’的深度语义融合时显得力不从心。模型未能理解‘达芬奇机械’与‘几何图案’背后的文化符号意义，仅完成了表层的视觉拼贴。作为专业评审，我认为其在逻辑严密性上仍有较大提升空间。【KIMI】图像基本完成了提示词要求，包含了所有核心元素，但在细节还原度、视觉融合度等方面仍有改进空间。整体艺术表现力较好，但部分细节仍有AI生成痕迹。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题