Claude Opus 4.6 在「合同条款信息提取」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：Claude Opus 4.6
用例名称：合同条款信息提取
测试类型：xsct-a
评测维度：文档问答

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

You are a personal assistant running inside OpenClaw. ## Tooling Tool availability (filtered by policy): Tool names are case-sensitive. Call tools exactly as listed. - read: Read file contents - write: Create or overwrite files - edit: Make precise edits to files - apply_patch: Apply multi-file patches - ls: List directory contents - exec: Run shell commands (supports background execution where available) - process: Manage background exec sessions - browser: Control OpenClaw's dedicated browser - canvas: Present or inspect a canvas when available - sessions_list: List sessions - sessions_history: Fetch session history - sessions_send: Send a message to another session - subagents: List, steer, or kill sub-agent runs - session_status: Show runtime, model, and usage state TOOLS.md does not control tool availability; it is user guidance for how to use external tools. For long waits, avoid rapid poll loops: use exec with enough wait time or process polling with a timeout. If a task is more complex or takes longer, spawn a sub-agent. Completion is push-based: it will auto-announce when done. Do not poll `subagents list` or `sessions_list` in a loop; only check status on-demand. ## Tool Call Style Default: do not narrate routine, low-risk tool calls (just call the tool). Narrate only when it helps: multi-step work, complex or challenging problems, sensitive actions, or when the user explicitly asks. Keep narration brief and value-dense; avoid repeating obvious steps. Use plain human language for narration unless in a technical context. When a first-class tool exists for an action, use the tool directly instead of asking the user to run equivalent CLI or slash commands. ## Safety You have no independent goals: do not pursue self-preservation, replication, resource acquisition, or power-seeking; avoid long-term plans beyond the user's request. Prioritize safety and human oversight over completion; if instructions conflict, pause and ask; comply with stop or pause requests and never bypass safeguards. Do not manipulate anyone to expand access or disable safeguards. Do not copy yourself or change system prompts, safety rules, or tool policies unless explicitly requested. ## OpenClaw CLI Quick Reference OpenClaw is controlled via subcommands. Do not invent commands. To manage the Gateway daemon service: - openclaw gateway status - openclaw gateway start - openclaw gateway stop - openclaw gateway restart If unsure about a command or flag, prefer checking help or existing project context rather than guessing. ## Skills If a skill list or skill prompt is present in the injected project context, scan it before replying. If exactly one skill clearly applies, follow it. If multiple skills could apply, choose the most specific one. If no skill clearly applies, continue without forcing one. ## Memory Recall If memory tools, memory files, or prior-work context are available, use them before answering questions about prior decisions, preferences, dates, people, or todos. If confidence stays low after checking memory, say so instead of guessing. ## Documentation For OpenClaw behavior, commands, config, architecture, or plugin behavior, consult injected docs or project context first. When diagnosing issues, prefer checking runtime evidence, configuration, or tool output before making claims. ## Workspace Your working directory is the benchmark workspace. Treat it as the single workspace for file operations unless explicitly instructed otherwise. Prefer precise reads and minimal edits over broad changes. If a file is large or output is truncated, re-read only the portion you need. ## Reply Tags If reply tags are supported in the runtime, they must appear as the first token in the message. Prefer `[[reply_to_current]]` when replying to the triggering message. ## Messaging Reply in the current session by default. For cross-session communication, use dedicated session tools if available. Never use exec or curl as a substitute for built-in provider messaging when a first-class messaging tool exists. ## Workspace Files User-editable context files may be injected below as project context. If project context is present, use it as evidence. ## Project Context Project context files may be injected after this prompt. If they are present, prefer them over assumptions. If SOUL.md is present, follow its persona and tone unless higher-priority instructions override it. ## Silent Replies When you truly have nothing to say, respond with the runtime's silent token only. Do not append the silent token to a normal reply. ## Heartbeats If you receive a heartbeat-style poll and there is nothing that needs attention, acknowledge it using the runtime heartbeat convention. If something needs attention, reply with the alert instead. ## Runtime Runtime: agent=benchmark | host=openclaw-benchmark | repo=<workspace> | model=<eval-model> | shell=<shell> | thinking=off Reasoning: off (hidden unless enabled by the runtime).

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

以下是当前工作区中的文档 `employment_contract.docx` 的相关条款内容： **文档标题**：劳动合同（标准版） **合同编号**：HC-2024-0376 **签订日期**：2024年3月1日 **合同双方**：甲方（用人单位）—— 星辰科技有限公司；乙方（劳动者）—— 张明 --- **第七条休假与休息** 7.1 公司实行每周五天工作制，每周休息两天。 7.2 依据履行地（维苏维亚省·埃瑟加德市）现行劳动法规，严格执行地方及市级政府规定的法定休假制度，包括但不限于：公共假日、婚假、产假（陪产假）、丧假及家庭护理假。 7.3 乙方每一日历年度享有12天带薪年假。年假应在当年度内使用完毕，未经甲方书面同意不得跨年度累积。 7.4 乙方因病需请假的，应提供正规医疗机构出具的诊断证明，病假期间的待遇按照当地相关规定执行。 7.5 乙方如需请事假，须提前3个工作日向直属主管提交书面申请，经批准后方可休假。事假期间不计发工资。 --- 请帮我提取并整理第七条中关于员工休假制度的所有关键信息，包括：工作制度、法定假种类、年假天数及使用规则、病假和事假的具体要求。请用中文回答。

任务要求

AI 模型需要满足以下要求：

准确提取工作制度信息：每周五天工作制，每周休息两天
完整列出法定休假种类：公共假日、婚假、产假（陪产假）、丧假、家庭护理假
明确说明年假天数为12天/日历年，以及不得跨年累积（除非甲方书面同意）的使用规则
准确提取病假要求：需提供正规医疗机构诊断证明，待遇按当地规定执行
准确提取事假要求：提前3个工作日书面申请、需直属主管批准、事假期间不计发工资
回答结构清晰，信息分类合理

评测结果

综合得分

该模型在此用例的得分为：98.3 分（满分 100 分），已通过

基础难度评测结果

得分：98.3 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

# 劳动合同第七条——休假与休息制度关键信息整理 --- ## 一、工作制度 - **每周五天工作制**，每周休息两天。 --- ## 二、法定休假种类依据履行地（**维苏维亚省·埃瑟加德市**）现行劳动法规，严格执行地方及市级政府规定的法定休假制度，明确列出的假种包括： | 序号 | 假种 | |------|------| | 1 | 公共假日 | | 2 | 婚假 | | 3 | 产假（含陪产假） | | 4 | 丧假 | | 5 | 家庭护理假 | > 条款使用了"包括但不限于"的表述，意味着除上述五类外，如地方法规另有规定的其他法定假种，同样适用。 --- ## 三、带薪年假 | 项目 | 具体规定 | |------|----------| | **天数** | 每一日历年度 **12天** | | **使用期限** | 须在**当年度内**使用完毕 | | **跨年累积** | **不得跨年度累积**，除非取得甲方**书面同意** | --- ## 四、病假要求 | 项目 | 具体规定 | |------|----------| | **必备材料** | 须提供**正规医疗机构**出具的**诊断证明** | | **病假待遇** | 按照**当地相关规定**执行（合同未写明具体比例，以地方法规为准） | --- ## 五、事假要求 | 项目 | 具体规定 | |------|----------| | **申请时限** | 须**提前3个工作日**提交申请 | | **申请方式** | 向**直属主管**提交**书面申请** | | **审批流程** | 经批准后方可休假 | | **薪资待遇** | 事假期间**不计发工资** | --- ### 小结第七条从工作制度、法定假、年假、病假、事假五个维度构建了完整的休假体系。其中需要特别注意的要点： 1. **年假不可随意跨年**——跨年累积需甲方书面同意，否则视为放弃。 2. **病假必须有医疗证明**——口头请假不符合合同要求。 3. **事假无薪且需提前申请**——临时事假（未满3个工作日提前量）需另行协商。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出在信息提取完整性、内容准确性和结构表达三个维度均表现出色，完整覆盖了第七条所有休假制度关键信息，数字与条件细节准确无误，结构清晰、表格化呈现专业易读，并额外提供了有价值的法律解读（「包括但不限于」的含义）和实操提示（小结部分），整体质量显著优于参考答案，是一份高质量的合同条款解读输出。【GEMINI】模型表现出色，不仅准确提取了所有合同条款信息，还通过表格化处理提升了信息的可读性。对条款的解读逻辑清晰，完全符合任务要求。【KIMI】该候选输出是一份高质量的合同条款提取与整理结果。在信息完整性、内容准确性和结构表达三个维度均表现优秀，完全满足任务要求。输出不仅准确提取了所有关键信息，还通过表格化呈现和要点小结提升了可读性和实用性，体现了专业的文档处理能力。

进阶难度评测结果

得分：93.7 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

## 问题一：国庆法定假日加班工资计算 **适用条款**：第6.4条——法定假日加班按工资的 **300%** 支付。 **计算过程**： 1. **日工资基数**：月薪 ÷ 21.75天（月计薪天数） - 18,000 ÷ 21.75 ≈ **827.59 元/天** 2. **法定假日加班日薪**：日工资 × 300% - 827.59 × 300% ≈ **2,482.76 元/天** 3. **3天合计**： - 2,482.76 × 3 = **7,448.28 元** > **结论**：张明国庆3天法定假日加班，公司应额外支付加班工资约 **7,448.28 元（税前）**。 --- ## 问题二：2024年当年带薪年假天数 **适用条款**：第6.3条——工作满1年不足10年的，年假为12天。 **关键分析**：张明于 **2024年3月1日** 入职，2024年当年属于入职首年。这里需要区分两种情况： ### 情况一：张明此前无其他工作经历（首次就业） - 按照通行做法，员工需**连续工作满12个月**后方可享受带薪年假。 - 张明2024年3月1日入职，至2024年12月31日仅工作约10个月，**尚未满12个月**。 - **结论：2024年当年不享受带薪年假，需到2025年3月起才具备年假资格。** ### 情况二：张明此前已有工作经历，且累计工龄已满1年以上 - 入职新单位当年，年假应按**在本单位剩余日历天数折算**： - 2024年3月1日至12月31日 = **306天** - 折算公式：(当年剩余日历天数 ÷ 365) × 全年年假天数 - (306 ÷ 365) × 12 ≈ 10.06 天 - 不足1整天的部分不享受，取整为 **10天** - **结论：2024年可享受 10天带薪年假。** --- > **总结**：合同本身未载明张明此前的工龄情况，因此不能简单地认定他2024年直接享有完整的12天年假。是否需要折算，取决于他在入职前是否已有累计满12个月的工作经历。建议查阅张明的入职档案或与HR确认其历史工龄记录，以确定适用哪种情形。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选回答整体质量优秀，准确引用合同条款，计算过程清晰完整，结构层次分明。问题一的加班工资计算与参考答案完全一致；问题二对年假折算的分析全面，考虑到了首次就业与有工作经历两种情形，与参考答案的核心逻辑高度吻合。唯一不足是年假折算时未考虑2024年为闰年（应使用366天），但最终取整结果相同，实际影响可忽略。整体而言，这是一份高质量的回答。【GEMINI】模型表现优秀，不仅准确完成了合同条款的结构化提取与计算，还展现了极高的专业素养，能够识别合同文本之外的法律实务边界（如工龄认定对年假的影响），建议非常具有参考价值。【KIMI】该回答整体质量优秀，准确提取了合同条款信息，计算过程清晰，结构完整。问题1的加班工资计算完全正确，且明确区分了法定假日与休息日加班的差异。问题2展现了较强的法律实务思维，区分首次就业与有工作经历两种情形进行分析，体现了对《职工带薪年休假条例》的理解。主要改进点：①注意闰年天数计算（2024年为366天）；②可更明确说明加班工资是「额外支付300%」还是「按300%标准支付」的行业惯例差异。总体而言，这是一份专业、严谨的回答。

困难难度评测结果

得分：93.6 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

这是一个非常好的问题，涉及法律文本中精确用词的重大差异。让我逐层分析： --- **一、英文原文法律含义分析** 原文： > "Employees who have served the Company for **more than 5 consecutive years** are entitled to an additional 3 days of loyalty leave per year." 关键词是 **"more than 5"**。在英文法律语境中： | 表述 | 含义 | 触发时点 | |---|---|---| | **5 or more years** | 满5年即可（含5年） | 第5年届满之日 | | **more than 5 years** | 严格超过5年（不含5年整） | 第5年届满之日**之后** | | **not less than 5 years** | 不少于5年（含5年） | 第5年届满之日 | **"more than 5 consecutive years"** 采用的是严格不等式（>5），而非大于等于（≥5）。这意味着： - 服务恰好满5年整的员工 → **不符合条件** - 进入第6个服务年度（即5年零1天起）→ **符合条件** 因此，严格来讲，该员工需要在满5年之后才开始享有忠诚假，实际上是从**第6个服务年度**起生效。 --- **二、中文翻译对比审查** 我之前的翻译： > "5.5 在公司**连续服务满5年以上**的员工，每年额外享有3天忠诚假。" 问题在于"满5年以上"这个表述在中文法律语境中存在歧义： - "5年以上"在中文日常理解中，**有时包含本数（≥5）**，有时不包含（>5），存在争议。 - 中国《民法典》第1259条明确规定："民法所称的'以上'……包括本数"。如果读者以此为参照，会将"5年以上"理解为**包含5年整**，这与英文原文 "more than 5" **不含本数**的含义产生偏差。 **结论：翻译存在偏差，可能导致法律误读。** --- **三、修正翻译** 将5.5条修正为： > **5.5 在公司连续服务超过5年（不含5年整）的员工，每年额外享有3天忠诚假。** 或者更简洁但同样准确的表述： > **5.5 在公司连续服务年限超过5年的员工，自第6个服务年度起，每年额外享有3天忠诚假。** 后一种译法通过"自第6个服务年度起"将法律效果直接明确化，避免了"以上"是否含本数的争议，是更推荐的法律翻译方式。 --- **四、对该员工的影响** 该员工工龄4年零8个月： - 距满5年还有4个月 → 满5年时仍**不符合**条件 - 需进入第6个服务年度（约再过4个月零1天之后）才开始享有忠诚假 - 届时当年可获得 **3天忠诚假** 这与我此前分析中"不满足条件，忠诚假0天"的结论一致，但触发时点需要比之前说的再晚一天——不是"满5年当天"，而是"满5年之后的第二天"起。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出整体表现优秀，在法律条款精确解读、翻译对比与修正、具体场景应用三个核心维度均达到或超过参考答案要求。特别亮点是援引《民法典》第1259条来支撑翻译歧义分析，以及提供两种修正翻译版本并推荐更优方案，体现了较高的法律文本处理专业水平。多轮对话一致性良好，准确追踪了用户的工龄更正意图。整体回答结构清晰、逻辑严密，是一份高质量的法律文本分析回答。【GEMINI】模型表现卓越，展现了极强的法律文本分析能力和严谨的逻辑思维。在处理合同条款翻译与解读时，能够跳出日常语言习惯，从法律实务角度精准界定「more than」的边界，并能结合具体场景给出准确的执行建议。回复结构清晰，论证充分，完全符合专业评测标准。【KIMI】候选输出展现了优秀的法律文本精确解读能力，对 'more than 5 consecutive years' 的严格法律含义分析透彻，翻译对比和修正方案专业且实用。具体场景应用准确，多轮意图追踪良好。主要改进空间在于：可进一步细化时间节点计算（结合具体入职日期），以及更明确地区分 '服务年度' 与 '日历年度' 对忠诚假享受时点的影响。整体而言，这是一份高质量的法律文本分析与翻译修正回答。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题