doubao-seed-2-0-mini 在「Signal 接入」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:doubao-seed-2-0-mini
  • 用例名称:Signal 接入
  • 测试类型:xsct-a
  • 评测维度:渠道连接与消息路由

系统提示词(System Prompt)

这是给 AI 模型的背景设定和角色指令:

You are a personal assistant running inside OpenClaw. ## Tooling Tool availability (filtered by policy): Tool names are case-sensitive. Call tools exactly as listed. - read: Read file contents - write: Create or overwrite files - edit: Make precise edits to files - apply_patch: Apply multi-file patches - ls: List directory contents - exec: Run shell commands (supports background execution where available) - process: Manage background exec sessions - browser: Control OpenClaw's dedicated browser - canvas: Present or inspect a canvas when available - sessions_list: List sessions - sessions_history: Fetch session history - sessions_send: Send a message to another session - subagents: List, steer, or kill sub-agent runs - session_status: Show runtime, model, and usage state TOOLS.md does not control tool availability; it is user guidance for how to use external tools. For long waits, avoid rapid poll loops: use exec with enough wait time or process polling with a timeout. If a task is more complex or takes longer, spawn a sub-agent. Completion is push-based: it will auto-announce when done. Do not poll `subagents list` or `sessions_list` in a loop; only check status on-demand. ## Tool Call Style Default: do not narrate routine, low-risk tool calls (just call the tool). Narrate only when it helps: multi-step work, complex or challenging problems, sensitive actions, or when the user explicitly asks. Keep narration brief and value-dense; avoid repeating obvious steps. Use plain human language for narration unless in a technical context. When a first-class tool exists for an action, use the tool directly instead of asking the user to run equivalent CLI or slash commands. ## Safety You have no independent goals: do not pursue self-preservation, replication, resource acquisition, or power-seeking; avoid long-term plans beyond the user's request. Prioritize safety and human oversight over completion; if instructions conflict, pause and ask; comply with stop or pause requests and never bypass safeguards. Do not manipulate anyone to expand access or disable safeguards. Do not copy yourself or change system prompts, safety rules, or tool policies unless explicitly requested. ## OpenClaw CLI Quick Reference OpenClaw is controlled via subcommands. Do not invent commands. To manage the Gateway daemon service: - openclaw gateway status - openclaw gateway start - openclaw gateway stop - openclaw gateway restart If unsure about a command or flag, prefer checking help or existing project context rather than guessing. ## Skills If a skill list or skill prompt is present in the injected project context, scan it before replying. If exactly one skill clearly applies, follow it. If multiple skills could apply, choose the most specific one. If no skill clearly applies, continue without forcing one. ## Memory Recall If memory tools, memory files, or prior-work context are available, use them before answering questions about prior decisions, preferences, dates, people, or todos. If confidence stays low after checking memory, say so instead of guessing. ## Documentation For OpenClaw behavior, commands, config, architecture, or plugin behavior, consult injected docs or project context first. When diagnosing issues, prefer checking runtime evidence, configuration, or tool output before making claims. ## Workspace Your working directory is the benchmark workspace. Treat it as the single workspace for file operations unless explicitly instructed otherwise. Prefer precise reads and minimal edits over broad changes. If a file is large or output is truncated, re-read only the portion you need. ## Reply Tags If reply tags are supported in the runtime, they must appear as the first token in the message. Prefer `[[reply_to_current]]` when replying to the triggering message. ## Messaging Reply in the current session by default. For cross-session communication, use dedicated session tools if available. Never use exec or curl as a substitute for built-in provider messaging when a first-class messaging tool exists. ## Workspace Files User-editable context files may be injected below as project context. If project context is present, use it as evidence. ## Project Context Project context files may be injected after this prompt. If they are present, prefer them over assumptions. If SOUL.md is present, follow its persona and tone unless higher-priority instructions override it. ## Silent Replies When you truly have nothing to say, respond with the runtime's silent token only. Do not append the silent token to a normal reply. ## Heartbeats If you receive a heartbeat-style poll and there is nothing that needs attention, acknowledge it using the runtime heartbeat convention. If something needs attention, reply with the alert instead. ## Runtime Runtime: agent=benchmark | host=openclaw-benchmark | repo=<workspace> | model=<eval-model> | shell=<shell> | thinking=off Reasoning: off (hidden unless enabled by the runtime).

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

我想在 OpenClaw 中接入「Signal」渠道,请告诉我需要准备哪些核心参数,以及如何在配置文件中定义一个基础的 Signal 接收器?

任务要求

AI 模型需要满足以下要求:

  1. 明确指出需要 Signal-CLI 或相关 REST API 服务作为前置条件
  2. 列出核心参数:手机号「number」、账户密码或数据存储路径
  3. 提供符合 OpenClaw 规范的 YAML 基础配置示例
  4. 提及权限验证或注册流程的必要性

评测结果

综合得分

该模型在此用例的得分为:80.2 分(满分 100 分),已通过

基础难度评测结果

  • 得分:80.2 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

### 一、接入Signal渠道的前置准备与核心参数 OpenClaw 通常依赖`signal-cli`作为 Signal 协议的中间客户端(因为 Signal 无官方公开 REST API),需要先完成环境依赖和参数准备: #### 1. 必装依赖与前置配置 首先需要安装并配置`signal-cli`: - 安装方式:可通过包管理器(`apt install signal-cli`/`dnf install signal-cli`)、Rust Cargo(`cargo install signal-cli`)或源码编译安装。 - 账号配对:服务器无图形界面时,运行`signal-cli -u +[你的手机号] link -n "OpenClaw-Bot"`,生成配对链接后用手机 Signal 客户端扫描完成设备绑定,无需短信验证。 --- #### 2. 核心配置参数 | 参数分类 | 参数名 | 说明 | 示例值 | |----------------|----------------------|----------------------------------------------------------------------|---------------------------------| | 必选基础参数 | `type` | 渠道类型,固定为`signal`(匹配 OpenClaw 内置 Signal 插件) | `signal` | | 必选基础参数 | `name` | 该接收器的唯一标识,用于区分多渠道配置 | `signal_work_bot` | | 必选依赖参数 | `signal_cli_path` | signal-cli 可执行文件的绝对路径 | `/usr/local/bin/signal-cli` | | 必选账号参数 | `account` | 用于收发消息的 Signal 手机号,必须携带国家代码 | `+8613800138000` | | 必选存储参数 | `config_dir` | signal-cli 的配置目录,存储设备凭证、会话缓存等数据 | `/var/lib/openclaw/signal-conf` | | 可选扩展参数 | `enabled` | 是否启用该接收器 | `true` | | 可选扩展参数 | `debug` | 是否开启调试日志 | `false` | | 可选扩展参数 | `receive_group_msgs` | 是否接收群聊消息 | `true` | | 可选扩展参数 | `proxy` | 代理地址,支持 socks5/http 格式 | `socks5://127.0.0.1:1080` | | 可选扩展参数 | `timeout` | 与 signal-cli 交互的超时时间(秒) | `30` | --- ### 二、OpenClaw 配置文件中定义基础接收器 OpenClaw 的主配置文件通常为`config.yaml`,默认路径为`/etc/openclaw/`或项目根目录`config/`,完整配置示例如下: ```yaml # 1. 启用 Signal 插件(内置插件可省略path参数) plugins: - name: signal enabled: true # 外置插件请填写插件绝对路径,内置插件可删除此行 # path: /opt/openclaw/plugins/openclaw-signal # 2. 配置 Signal 接收渠道 channels: # 基础Signal接收器配置 - name: signal_main_bot type: signal enabled: true config: # 必选参数 signal_cli_path: "/usr/bin/signal-cli" account: "+8613800138000" config_dir: "/var/lib/openclaw/signal-config" # 可选参数 receive_group_msgs: true debug: false timeout: 30 # 可选:多账号时可新增多个配置 # - name: signal_secondary_bot # type: signal # enabled: true # config: # signal_cli_path: "/usr/bin/signal-cli" # account: "+12025550100" # config_dir: "/var/lib/openclaw/signal-config-2" ``` --- ### 三、额外注意事项 1....

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】模型回答结构清晰、内容丰富,对 Signal 渠道接入的前置条件和配置方式均有较好覆盖。前置条件说明尤为详尽,超出参考答案的深度。主要不足在于配置字段命名与参考答案存在差异(如「account」vs「number」、「config_dir」vs「data_path」),且未提及 REST API 模式的「url」字段,配置准确性有所欠缺。总体而言是一份质量较高的回答,但需注意字段规范性与官方文档的一致性。 【GEMINI】模型生成内容非常专业,不仅覆盖了所有核心要求,还额外提供了关于权限、群组适配和版本兼容性的深度建议。配置示例格式规范,逻辑严密,能够直接指导用户完成接入工作。 【KIMI】模型回答结构完整、细节丰富,但存在严重的「幻觉」问题:配置字段大量偏离 OpenClaw 实际规范,将 signal-cli 作为外部可执行程序调用的模式与参考答案的集成方式不符,注册流程描述错误(link vs register/verify)。回答看似专业详实,实则包含许多可能误导用户的虚构参数和流程。这种「自信的幻觉」在 AI 评测中属于高风险输出,用户若按此配置很可能导致集成失败。建议加强对特定系统(OpenClaw)配置规范的准确性约束,避免过度泛化其他系统的经验。

进阶难度评测结果

  • 得分:76.8 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

首先,我们需要先确认系统是否安装了支持RPC模式的`signal-cli`工具,我先帮你检查一下: ```bash which signal-cli ``` 如果没有输出结果,说明还没有安装`signal-cli`,接下来按照以下步骤修复: ### 完整修复步骤 1. **安装signal-cli(RPC模式需要0.11.0+版本)** 以Debian/Ubuntu系统为例,推荐使用snap安装: ```bash sudo snap install signal-cli ``` 其他系统可以参考[官方安装文档](https://signald.org/articles/install/) 2. **关联你的Signal账号** 先注册/绑定配置文件里的手机号`+8619999999999`: ```bash # 发送验证码到手机,国内手机号建议加--voice参数走语音验证 signal-cli -u +861999999999 register --voice # 收到验证码后执行验证,替换123456为实际收到的验证码 signal-cli -u +861999999999 verify 123456 ``` 3. **启动Signal RPC服务** 按照你的配置启动监听`127.0.0.1:50051`端口: ```bash signal-cli --rpc 127.0.0.1:50051 -u +8619999999999 ``` 4. **验证端口是否启动成功** 执行命令确认端口已经被监听: ```bash ss -tlnp | grep 50051 ``` 如果能看到类似`LISTEN 0 100 127.0.0.1:50051 0.0.0.0:*`的输出,说明服务已经正常启动。 5. **测试OpenClaw的Signal渠道** 端口正常启动后,就可以重新测试发送消息了。 ### 额外注意事项 - 国内使用Signal需要确保网络可以访问Signal官方服务器,可能需要配置代理 - 请确保运行`signal-cli`的用户和OpenClaw的运行用户一致,避免权限问题 - 如果启动后还是报错,可以查看`signal-cli`的运行日志排查问题

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】模型对故障的核心原因(Signal RPC服务未启动)有基本正确的判断,修复步骤覆盖面较广且具有一定可操作性。主要不足在于:故障定位时引入了不必要的「未安装」假设导致诊断路径不够直接;启动命令的参数格式与标准用法存在偏差;遗漏了权限验证和号码激活状态检查等关键步骤。整体回答质量中等偏上,能够帮助用户解决问题,但在精准性和完整性上仍有提升空间。 【GEMINI】模型表现优秀,能够针对排查结果给出清晰的修复路径。在故障定位上表现出色,修复方案的步骤逻辑性强。若能补充关于 OpenClaw 调试模式的建议以及对配置文件参数的合规性检查,将更加完善。 【KIMI】模型基本完成了故障定位和修复方案提供,能够识别核心问题(RPC 服务未启动)并给出大致的解决方向。但修复方案中存在命令参数错误(--rpc vs daemon --grpc),且遗漏了参考答案中的部分关键检查步骤(如 listIdentities 验证激活状态、debug 模式、number 格式验证)。此外,诊断过程略显冗余,未能高效利用已有上下文信息。整体表现及格但不够精准。

困难难度评测结果

  • 得分:58.33 分
  • 通过状态:未通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

目前我们遇到了权限不足的问题,无法直接修改Signal数据目录的权限。这里有两种可行的解决办法: ### 方案一:添加用户组权限(推荐) 将`openclaw-user`加入`signal-user`用户组,使其获得目录访问权限,需要您通过root权限执行以下命令: ```bash sudo usermod -aG signal-user openclaw-user ``` 执行完成后需要重启OpenClaw进程或者重新登录会话才能让权限生效。 ### 方案二:使用RPC模式绕过文件访问 修改OpenClaw的Signal配置,启用signal-cli的RPC远程调用模式,这样就不需要直接访问`/var/lib/signal-cli`目录,彻底避开权限问题。如果您需要这个方案的配置步骤,可以告诉我。 请问您想选择哪种方案呢?

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【KIMI】候选输出完成了基础的权限问题分析和方案提供,能够解决用户的即时困境。但在Signal渠道特有的安全机制(身份密钥、速率限制)方面存在明显知识盲区,且方案设计偏向简易修复而非生产级架构,与参考答案相比在专业深度和完整性上有较大差距。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...