glm-5-turbo 在「说明书理解」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:glm-5-turbo
- 用例名称:说明书理解
- 测试类型:文本生成
- 评测维度:阅读理解
系统提示词(System Prompt)
这是给 AI 模型的背景设定和角色指令:
你是一名专业的说明书解析助手,擅长从产品说明、使用指南等文本中准确提取关键信息。 回答要求: 1. 仔细阅读说明文本,精准定位与问题相关的数值或描述。 2. 回答简洁明确,直接给出答案,无需过度展开。 3. 答案须完全基于说明文本内容,不得凭空推测或添加文本中未提及的信息。 4. 若涉及数量计算,需展示简要的推导过程,确保结论可追溯。
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
请仔细阅读以下服药说明,并回答问题。 【服药说明】 每日三次,每次一片,饭后服用。 【问题】 根据上述说明,患者一天总共需要服用几片药?请简要说明你的计算依据。
任务要求
AI 模型需要满足以下要求:
- 正确识别「每日三次」对应的服药频率(3次/天)。
- 正确识别「每次一片」对应的单次服药量(1片/次)。
- 通过「次数 × 每次用量」得出正确结论:一天共服用 3 片。
- 回答中需体现计算依据(如「3次 × 1片/次 = 3片」),不得仅给出数字结论。
- 答案严格基于说明文本,不引入文本之外的信息(如疗程、禁忌等)。
评测结果
综合得分
该模型在此用例的得分为:98.2 分(满分 100 分),已通过
基础难度评测结果
- 得分:98.2 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
患者一天总共需要服用3片药。 计算依据:每日服用3次 × 每次1片 = 3片。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】候选输出整体表现优秀,准确提取了关键信息,逻辑推导完整,格式简洁,完全满足题目的核心要求。与参考答案相比,仅缺少对「饭后服用」不影响总用量的补充说明,属于锦上添花的细节,不影响答案的正确性与完整性。 【GEMINI】模型表现优秀,完全符合任务要求。准确提取了说明书中的关键数据,计算逻辑清晰,且严格遵守了简洁回答和基于事实的约束条件。 【KIMI】模型表现优秀,准确提取关键信息并完成正确计算,回答简洁明了。主要改进空间在于计算过程的表述完整性和对题目隐含要求的全面回应。
进阶难度评测结果
- 得分:93.2 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
问题一: 1. 关闭电源 2. 取出旧滤芯 问题二: 判断依据为:确保卡扣锁紧。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】候选输出整体表现良好,准确提取了关键信息,逻辑结构清晰,两个子问题均独立作答且格式规范。主要不足在于逻辑推理的深度略显不足,未对前置步骤的必要性和顺序约束进行进一步说明,也未指出卡扣锁紧是唯一判断标准。但在核心信息提取和指令遵循方面表现优秀,整体质量较高。 【GEMINI】模型表现优秀,完全符合说明书解析助手的要求。不仅准确提取了关键信息,且逻辑严密,格式规范,无任何冗余或错误表述。 【KIMI】该候选输出整体质量优秀,核心信息提取准确,逻辑关系正确,能够严格依据说明书原文作答,未添加任何未提及的内容。主要改进空间在于:回答可以更加完整详细,明确阐述各步骤之间的逻辑关系,并采用更规范的格式(如使用子问题标题)以提升可读性。
困难难度评测结果
- 得分:88.7 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
**问题一:如果用户家中路由器仅支持 5GHz 频段,设备能否正常联网?应如何解决?** **结论:** 设备不能正常联网。 **根本矛盾识别:** 存在硬件层面的绝对不兼容。说明书明确规定“本设备仅支持 2.4GHz 频段的 WiFi 网络,不支持 5GHz 频段”,而用户路由器仅能提供 5GHz 频段信号,设备硬件无法识别并连接该频段。 **替代建议:** 由于设备无其他联网方式说明,为满足说明书中“2.4GHz频段”的硬性要求,可行的替代方案为:更换一台支持 2.4GHz 频段的路由器;或者在现有 5GHz 路由器下级联增加一个支持 2.4GHz 频段的无线中继器/子路由,为设备提供合规的网络环境。 --- **问题二:按照说明书,搜索不到设备时的完整排查步骤是什么?每一步的目的是什么?** 按照说明书原有逻辑顺序,完整排查步骤及目的如下: * **步骤 a:确认手机与设备处于同一 WiFi 网络下** * *目的:* 满足App局域网设备发现机制的隐含前置条件,确保手机与设备在同一个局域网广播域内。 * **步骤 b:关闭手机上的 VPN 或代理工具** * *目的:* 排除 VPN 或代理工具劫持或改变手机局域网流量路由,导致 App 无法扫描到同网络下设备的干扰。 * **步骤 c:重启设备后重新搜索** * *目的:* 通过物理重启重置设备的网络服务状态,排除设备端因临时性卡顿或网络模块异常导致的无法被发现的问题。 --- **问题三:用户完成上述排查步骤后,如何通过指示灯判断设备是否已成功联网?若指示灯仍显示红色,说明什么问题?** **判断标准:** 观察设备指示灯,若指示灯呈现**“常亮蓝色”**状态,即可明确判断设备已成功联网。 **红色指示灯说明的问题:** 若指示灯显示红色(根据说明书具体状态为**“闪烁红色”**),说明设备处于**“网络连接失败”**的负向场景。这直接指向设备端的网络配置存在问题(例如输入了错误的WiFi密码,或者依然处于不符合要求的5GHz网络环境下等),需按说明书提示进一步检查网络配置。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】候选输出整体质量较高,准确识别了核心硬件不兼容问题,排查步骤完整有序,指示灯状态判断准确。主要不足在于:问题一未提供「开启路由器2.4GHz双频」这一最直接的解决方案;问题三对排查失败后的负向场景分析深度不够,未能系统性地推断多种可能原因。总体而言,回答符合技术支持工程师的专业水准,基本满足评测要求。 【GEMINI】该模型表现出色,完全符合资深技术支持工程师的角色设定。在处理硬件不兼容问题时,不仅指出了根本矛盾,还给出了切实可行的替代方案。排查步骤的逻辑解析深入浅出,对负向场景的判断也非常专业,完全满足各项评分标准。 【KIMI】该候选输出整体质量良好,能够准确理解说明书核心要求并按规范格式作答。主要优势在于结构清晰、逻辑顺序严谨、三个问题独立处理得当。主要不足在于:对指示灯状态的细节描述不够精确(遗漏「闪烁」特征),对负向场景(排查后仍失败)的推理深度有限,以及替代解决方案的完整性有待提升(缺少手机热点等更灵活的临时方案)。总体而言,该回答达到了技术支持场景下的可用标准,但在专业严谨性和推理深度上距离优秀水平仍有差距。
相关链接
您可以通过以下链接查看更多相关内容: