qwen3.5-omni-plus 在「格式指令」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:qwen3.5-omni-plus
  • 用例名称:格式指令
  • 测试类型:文本生成
  • 评测维度:指令遵循

系统提示词(System Prompt)

这是给 AI 模型的背景设定和角色指令:

你是一名严格的格式化输出引擎,专注于按照指令精确生成结构化文本。 输出要求: 1. 严格遵循 Prompt 中指定的格式模板,不得擅自更改格式结构。 2. 除非 Prompt 明确要求,不输出任何开场白、结语或额外解释性文字。 3. 编号格式须完整、一致,符号与内容之间保持规范间距。 4. 内容须真实、准确,符合常识认知。 5. 优先保证格式正确性,其次保证内容的准确性与完整性。

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

请列出三种常见的水果,严格使用以下数字编号格式输出,不要添加任何额外的说明、开场白或结语: 1. [水果名称] 2. [水果名称] 3. [水果名称]

任务要求

AI 模型需要满足以下要求:

  1. 输出恰好包含 3 项,不多不少,每项占独立一行。
  2. 每项严格以「数字+英文句点+空格」(如「1. 」)开头,编号从 1 到 3 连续递增。
  3. 每项内容为真实存在的常见水果名称,不得填写蔬菜、坚果等非水果类食物。
  4. 输出中不包含任何开场白(如「好的,以下是……」)、结语(如「希望对你有帮助」)或额外注释。
  5. 三种水果互不重复。

评测结果

综合得分

该模型在此用例的得分为:100.0 分(满分 100 分),已通过

基础难度评测结果

  • 得分:100.0 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

1. 苹果 2. 香蕉 3. 橙子

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】候选输出与参考答案完全一致,格式严格遵循指令要求,内容准确且无冗余文字,表现完美。 【GEMINI】模型完美地完成了任务,严格遵守了格式化输出引擎的角色设定,输出精准、简洁且符合所有指令约束。 【KIMI】该输出在格式严格性和内容准确性两个维度上均表现完美,完全遵循了指令要求的数字编号格式,且所列水果均为真实常见的水果,无重复项,无任何多余文字。

进阶难度评测结果

  • 得分:85.0 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

## Python 编程语言 **发明时间**:1989 年 **创始人**:吉多·范罗苏姆(Guido van Rossum) **主要用途**: - Web 开发与后端服务构建 - 数据科学、机器学习与人工智能 - 自动化脚本编写与系统运维 **示例代码**: ```python def greet(name: str) -> None: """向指定用户发送问候""" print(f"Hello, {name}!") if __name__ == "__main__": user = "World" greet(user) ```

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】候选输出整体表现良好,格式结构完整,内容准确专业,严格遵循了模板要求且未添加额外文字。主要缺陷在于代码块中的类型注解箭头「->」被错误地转义为「->」,导致示例代码在实际环境中无法正确运行,同时也破坏了代码块的原始格式规范。这一问题同时影响了格式严格程度和内容准确性两个维度的得分。 【KIMI】该输出是一份高质量的格式遵循示例,严格按模板要求完成了Python编程语言的介绍,无冗余内容,信息准确专业,代码规范可运行。在格式严格性和内容准确性两方面均表现优秀。

困难难度评测结果

  • 得分:80.2 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

project: name: "智慧家居管家 App" version: "1.0.0" status: "规划中" created_date: "2023-10-27" description: "一款集成多品牌设备控制、场景自动化及能耗分析的一站式智能家居管理应用。" stakeholders: - role: "产品经理" name: "张伟" responsibility: "需求定义与优先级排序" - role: "首席架构师" name: "李娜" responsibility: "技术选型与系统架构设计" - role: "UI/UX设计师" name: "王强" responsibility: "交互流程设计与视觉规范制定" functional_requirements: - id: "FR-001" category: "设备连接" title: "多协议设备自动发现" description: "系统应支持Wi-Fi、Zigbee及Bluetooth Mesh协议的自动扫描与配对,用户无需手动输入IP即可添加设备。 acceptance_criteria: - "能在30秒内识别局域网内至少5种不同品牌的智能设备。" - "配对成功率需达到98%以上。" - id: "FR-002" category: "场景自动化" title: "自定义情景模式" description: "允许用户基于时间、传感器数据或地理位置触发复杂的联动规则,如“回家模式”自动开灯并调节空调。 acceptance_criteria: - "支持创建至少10条并行执行的自动化规则。" - "指令执行延迟不超过200毫秒。" - id: "FR-003" category: "数据统计" title: "家庭能耗可视化" description: "实时采集并展示各设备的用电量数据,生成日、周、月度报表并提供节能建议。 acceptance_criteria: - "数据刷新频率不低于每分钟一次。" - "报表导出格式需支持PDF和Excel。" non_functional_requirements: - type: "性能" detail: "在弱网环境下(信号强度低于-75dBm),核心控制指令响应时间不得超过1.5秒。" - type: "安全" detail: "所有用户数据及通信链路必须采用AES-256标准加密,并强制实施双因素认证机制。" - type: "兼容性" detail: "应用需兼容iOS 15.0及以上版本,Android 10.0及以上版本的主流机型。" user_stories: - id: "US-001" persona: "忙碌的上班族" narrative: "作为用户,我希望在下班路上远程开启空调,以便到家时室内温度适宜。" priority: "高" - id: "US-002" persona: "老年用户" narrative: "作为用户,我希望通过语音指令控制灯光开关,避免繁琐的手机操作。" priority: "中" - id: "US-003" persona: "环保主义者" narrative: "作为用户,我希望查看每月的电费预估,以便调整高耗能设备的使用习惯。" priority: "低" risks: - id: "RISK-001" description: "第三方设备API接口频繁变更导致连接不稳定。" mitigation: "建立适配器层隔离外部依赖,并预留每周一次的接口健康检查窗口。" - id: "RISK-002" description: "用户隐私数据泄露引发合规风险。" mitigation: "引入第三方安全审计团队进行季度渗透测试,并严格遵循GDPR规范。" timeline: phase_1: name: "原型设计与验证" start_date: "2023-11-01" end_date: "2023-11-15" phase_2: name: "核心功能开发" start_date: "2023-11-16" end_date: "2024-01-20" phase_3: name: "测试与发布" start_date: "2024-01-21" end_date: "2024-02-10"

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该输出在内容质量和语言表达方面表现优秀,虚构项目内容专业、合理、自洽,覆盖了软件需求文档的主要组成部分。然而,最关键的问题在于YAML格式存在根本性错误:functional_requirements中所有三个条目的description字段均未正确闭合引号,导致acceptance_criteria被错误地嵌入description字符串中,整个文档无法被标准YAML解析器正确解析。这直接违反了系统提示中最核心的格式要求,严重影响了格式合规性得分。若修复此YAML语法错误,整体质量将显著提升。 【GEMINI】该生成结果在内容质量和专业度上表现极其出色,完全符合软件需求文档的业务逻辑。但在作为‘格式化引擎’的核心职责上出现了关键失误:YAML 语法中字符串引号未闭合,导致输出文档在机器读取层面是不合格的。若修正语法错误,将是一份高质量的输出。 【KIMI】该输出在内容完整性和语言表达方面表现优秀,但格式合规性存在致命缺陷——多处 YAML 引号不匹配和缩进错误导致文档无法被标准解析器解析,严重违反题目「可被标准 YAML 解析器解析」的强制要求。建议在严格约束下重新生成,确保引号闭合与缩进准确。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...