doubao-seed-2-0-mini 在「条件显示表单」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：doubao-seed-2-0-mini
用例名称：条件显示表单
测试类型：网页生成
评测维度：表单设计

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名资深前端开发工程师，擅长使用原生 HTML、CSS 和 JavaScript 构建交互式表单页面。回答要求： 1. 所有代码必须整合在单个 HTML 文件中，可在浏览器中直接运行，无需任何外部依赖。 2. 代码结构清晰，HTML 语义化，CSS 与 JS 分别置于 <style> 和 <script> 标签内。 3. 条件显示逻辑必须准确：隐藏的字段在视觉上不可见，且不参与表单验证；只验证当前可见字段。 4. 表单验证仅需覆盖必填项检查，错误提示信息应清晰、具体，紧邻对应字段显示。 5. 保费计算逻辑可使用固定的模拟数值，重点在于根据保险类型和支付方式正确切换显示价格。 6. 优先保证功能正确性与代码可读性，不追求复杂动画或高级架构。

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

# 保险申请表 —— 条件显示表单（基础版）请生成一个保险申请表页面，所有代码（HTML、CSS、JavaScript）写在同一个 HTML 文件中，可直接在浏览器打开运行。 ## 页面布局要求 - 页面居中显示，最大宽度 600px，有基础样式（背景色、卡片阴影、内边距） - 表单分区清晰，每个条件区块有明显的视觉分隔 ## 条件显示逻辑（核心功能） ### 1. 保险类型选择（下拉菜单，必填）选项：请选择 / 车险 / 健康险 / 旅行险 - 选择【车险】：显示「车辆信息」区块，包含： - 车牌号（文本输入，必填） - 车辆品牌（文本输入，必填） - 车辆型号（文本输入，必填） - 购买年份（数字输入，必填） - 选择【健康险】：显示「健康信息」区块，包含： - 年龄（数字输入，必填） - 身高 cm（数字输入，必填） - 体重 kg（数字输入，必填） - 既往病史（文本域，选填） - 选择【旅行险】：显示「旅行信息」区块，包含： - 目的地（文本输入，必填） - 出发日期（日期选择，必填） - 返回日期（日期选择，必填） - 出行人数（数字输入，必填，最小值 1） - 切换保险类型时，隐藏其他区块，且隐藏区块的字段不参与验证 ### 2. 是否有附加险需求（单选按钮：是 / 否，默认否） - 选择【是】：显示附加险选项区块（多选框），包含： - □ 意外伤害险 - □ 财产损失险 - □ 第三方责任险 - 选择【否】：隐藏附加险区块 ### 3. 支付方式（单选按钮：月付 / 年付，默认月付） - 在页面上显示「预估保费」区域，根据保险类型 + 支付方式展示模拟价格： - 车险月付：¥500/月；车险年付：¥5,500/年（节省500元） - 健康险月付：¥300/月；健康险年付：¥3,200/年（节省400元） - 旅行险月付：¥150/月；旅行险年付：¥1,600/年（节省200元） - 未选择保险类型时：显示「请先选择保险类型」 ### 4. 是否需要发票（单选按钮：是 / 否，默认否） - 选择【是】：显示发票信息区块，包含： - 公司名称（文本输入，必填） - 税号（文本输入，必填） - 选择【否】：隐藏发票信息区块 ## 表单验证要求 - 点击「提交申请」按钮时触发验证 - 只验证当前可见字段中标注为「必填」的字段 - 验证规则：必填字段不能为空 - 错误提示：在对应字段下方显示红色错误文字，输入框边框变红 - 验证通过后：显示一个成功提示（alert 或页面内提示均可），内容为「申请提交成功！」 - 重新输入时，对应字段的错误状态应清除 ## 字段显示/隐藏 - 使用 display: none / display: block 控制区块的显示与隐藏 - 可添加简单的 CSS transition 使切换更平滑（可选，不强制）请直接输出完整的 HTML 代码。

任务要求

AI 模型需要满足以下要求：

条件显示逻辑正确：三种保险类型对应的信息区块能准确切换显示，切换时隐藏其他区块，附加险和发票区块也能根据单选按钮正确显示/隐藏
验证范围动态绑定：表单提交验证时，只对当前可见的必填字段进行非空校验，隐藏字段不触发验证错误
错误提示清晰可见：验证失败时，错误信息紧邻对应字段显示，输入框有明显的错误状态样式（如红色边框），且错误提示在用户修正后能正确清除
保费展示随条件更新：预估保费区域能根据保险类型和支付方式的组合，实时显示正确的模拟价格文案
代码结构清晰：HTML 结构语义化，JavaScript 逻辑可读，条件判断与 DOM 操作职责分明，无明显冗余代码

评测结果

综合得分

该模型在此用例的得分为：2.0 分（满分 100 分），未通过

基础难度评测结果

得分：2.0 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=volcengine; model=doubao-seed-2-0-mini-260215）：[app.services.inference.call_text_model][provider=volcengine][model=doubao-seed-2-0-mini-260215] 流式调用超时: 超过 120.0s 没有收到新数据

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本次评测中，模型因流式调用超时（超过120秒未收到新数据）未能生成任何有效输出，候选结果为系统报错信息而非功能性代码。所有评分维度均为0分，任务完全未完成。建议排查模型服务稳定性或优化生成策略以避免超时问题。【GEMINI】由于模型在生成过程中发生流式调用超时，未能输出任何符合要求的 HTML 代码。本次任务未完成，无法进行有效的功能评估。【KIMI】本次评测中，模型（doubao-seed-2-0-mini-260215）在生成过程中发生流式调用超时，超过120秒未返回有效数据，最终输出仅为系统错误信息而非任何可运行的HTML代码。因此，任务要求的保险申请表页面完全未生成，所有评分维度均无法达标。这是一个典型的服务可用性问题，而非代码质量问题。建议检查模型服务稳定性或调整超时配置后重新尝试。

进阶难度评测结果

得分：65.2 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

```html 保险申请表 - 进阶版 * { margin: 0; padding: 0; box-sizing: border-box; font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, sans-serif; } body { background-color: #f8f9fa; padding: 20px; line-height: 1.6; } .container { max-width: 1200px; margin: 0 auto; display: flex; gap: 30px; flex-wrap: wrap; } .form-section { flex: 1 1 600px; min-width: 300px; background: #fff; padding: 25px; border-radius: 8px; box-shadow: 0 2px 8px rgba(0,0,0,0.1); } .premium-sidebar { flex: 0 0 300px; min-width: 300px; background: #fff; padding: 25px; border-radius: 8px; box-shadow: 0 2px 8px rgba(0,0,0,0.1); position: sticky; top: 20px; height: fit-content; } h1, h2, h3 { color: #333; margin-bottom: 20px; border-bottom: 1px solid #eee; padding-bottom: 10px; } .form-group { margin-bottom: 18px; } label { display: block; margin-bottom: 6px; font-weight: 500; color: #495057; } input[type="text"], input[type="number"], input[type="date"], select, textarea { width: 100%; padding: 10px; border: 1px solid #ced4da; border-radius: 4px; font-size: 1rem; transition: border-color 0.2s ease; } input[type="text"]:focus, input[type="number"]:focus, input[type="date"]:focus, select:focus, textarea:focus { outline: none; border-color: #80bdff; box-shadow: 0 0 0 0.2rem rgba(0,123,255,0.25); } textarea { resize: vertical; min-height: 80px; } .radio-group, .checkbox-group { display: flex; gap: 20px; flex-wrap: wrap; margin-top: 8px; } .radio-option, .checkbox-option { display: flex; align-items: center; gap: 6px; cursor: pointer; } .error-message { color: #dc3545; font-size: 0.875rem; margin-top: 4px; min-height: 1.2rem; } /* 条件显示动画 */ .conditional-section { max-height: 0; opacity: 0; overflow: hidden; transition: all 0.35s ease; padding: 0 10px; } .conditional-section.active { max-height: 600px; opacity: 1; padding: 15px 10px 0; border-top: 1px solid #eee; margin-top: 15px; } .premium-display { margin: 20px 0; padding: 15px; background-color: #e9f7fe; border-radius: 6px; } .premium-item {...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出为严重截断的不完整代码，仅包含 HTML 结构、CSS 样式以及 JS 文件开头的常量定义，核心 JavaScript 逻辑（条件显示切换、实时验证、保费计算、草稿保存、表单提交）全部缺失，无法作为可运行的完整应用进行评估。HTML 结构设计合理，CSS 动画方案（max-height + opacity transition）选择正确，CONFIG 配置对象体现了良好的设计意识，但这些仅是骨架，不具备实际功能价值。若代码完整，基于已有结构判断整体方案是可行的，但当前状态下无法满足任何功能性要求。【GEMINI】模型在前端页面构建、CSS 布局及交互设计方面表现出色，能够很好地理解复杂表单的业务需求。遗憾的是，输出的 HTML 代码在 JavaScript 部分发生了截断，导致核心的逻辑实现（验证、提交、草稿存储）未能完整呈现。建议在生成长代码时注意 Token 限制，确保代码的完整性。【KIMI】条件显示逻辑整体实现良好，三种保险类型切换、附加险区块、发票区块均能正确显隐。使用 CSS max-height + opacity 实现过渡动画，符合要求。验证规则方面，车牌号正则表达式较为完善（支持新能源车牌），税号验证有 15-20 位数字字母限制，日期逻辑和数值范围校验基本到位。但存在两处不足：一是购买年份的 max 值硬编码为 2024，未动态获取当前年份；二是隐藏字段的验证「解绑」主要通过条件判断跳过，而非真正从 DOM 或事件层面移除，虽功能上可行但不够彻底。保费计算逻辑正确，基础保费 + 附加险（每项 200）+ 支付方式折扣的公式准确。

困难难度评测结果

得分：1.3 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=volcengine; model=doubao-seed-2-0-mini-260215）：[app.services.inference.call_text_model][provider=volcengine][model=doubao-seed-2-0-mini-260215] 流式调用超时: 超过 120.0s 没有收到新数据

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】本次评测的候选输出为模型推理超时导致的系统报错（volcengine/doubao-seed-2-0-mini-260215 流式调用超过120秒未收到新数据），并非有效的代码生成结果。三个评分维度均得0分。该任务要求实现一个高复杂度的多步骤保险申请表单，包含条件显示逻辑、异步验证、Web Audio API音效、实时保费计算、localStorage持久化及无障碍支持等大量功能，生成内容体量极大，推测模型因输出token量过大而触发超时限制。建议针对此类超长代码生成任务调整超时阈值或采用分段生成策略。【GEMINI】模型在生成过程中发生流式调用超时错误，未输出任何符合要求的代码内容。根据评测标准，所有维度均无法实现，故均评为 0 分。【KIMI】本次评测中，模型（doubao-seed-2-0-mini-260215）在生成复杂保险申请表单时遭遇流式调用超时（120秒），未能输出任何有效代码内容。这是一个典型的生成失败案例，而非质量不佳的代码输出。所有评分维度均得 0 分，因为没有任何可评估的交付物。建议检查模型对长上下文复杂代码生成任务的稳定性，或考虑分阶段生成策略以降低单次调用复杂度。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题