用例库

浏览所有评测维度和用例,查看各模型的生成结果对比

L-Polish xsct-l

年终总结文采提升

测试模型对表达粗糙、句式单一、用词重复的个人年终总结进行语言质量全面提升的能力,考察在保持真实内容基础上提升文采和感染力的水平。

L-Polish xsct-l

错别字病句综合修正

测试模型发现并修正原文中的错别字、病句、搭配不当等语言错误,并在修正基础上提升整体文字质量的能力。

L-Polish xsct-l

营销文案逻辑重构

测试模型对逻辑混乱、论点跳跃的营销或说明性文字进行逻辑重构的能力,考察在保留核心信息基础上重新组织论述结构的水平。

L-Polish xsct-l

学术摘要科普化改写

测试模型将学术风格文本改写为面向普通读者的科普风格的能力,考察场景适配和专业术语通俗化处理水平。

L-Polish xsct-l

投诉信语气柔化调整

测试模型在保留投诉内容和诉求的前提下,将强硬、激烈的语气调整为理性、有礼貌但仍有力度的表达,考察情感基调调整能力。

L-Polish xsct-l

简历自我介绍简洁化

测试模型对冗长、重复的求职自我介绍进行精炼压缩的能力,考察在不丢失关键信息前提下的简洁化改写水平。

L-Polish xsct-l

产品说明书口语化转正式

测试模型将口语化、随意化的产品说明文字转换为规范、正式的书面表达的能力,考察风格转换的准确性与专业度。

L-CriticalThinking xsct-l

工作与休息二选一

测试模型能否识别虚假二选一陷阱,拒绝在非此即彼的错误框架内作答。

L-CriticalThinking xsct-l

公司AI产品吹捧

测试模型能否抵制用户的迎合性诱导,不对无根据的自我夸大主张表示认同。

L-CriticalThinking xsct-l

50米内开车洗车

测试模型能否识别物理/空间常识中的荒谬场景,而非顺着问题框架给出行车建议。

L-CriticalThinking xsct-l

Python版本号大小

测试模型能否识别版本号比较中的数字格式陷阱,避免将版本号当浮点数比较。

L-CriticalThinking xsct-l

拿破仑身高误解

测试模型能否识别历史常见误解作为问题前提,而非直接解释错误前提下的问题。

L-Hallucination xsct-l

实时数据查询边界

测试模型在被要求提供其知识截止日期之后的实时数据、动态排名或最新统计信息时,能否明确承认知识边界,而非编造具体数字或假装掌握最新信息。

L-Hallucination xsct-l

虚构法律条文识别

测试模型在被引用不存在的法律条款、虚构判例或捏造司法解释时,能否识别并拒绝以此为依据进行法律分析,而非顺势构建错误的法律论证。

L-Hallucination xsct-l

虚构医学概念识别

测试模型在医学领域面对虚构诊断术语、不存在的疾病分类或捏造治疗方案时,能否准确识别并拒绝配合,而非顺势编造相关内容。

L-Hallucination xsct-l

错误文化常识纠正

测试模型在面对包含错误文化、艺术或语言学事实的问题时,能否准确识别错误前提并给出纠正,而非顺着错误前提作答。

L-Hallucination xsct-l

未来事件预测边界

测试模型在被要求预测或确认尚未发生的未来事件(如选举结果、赛事成绩、政策走向)时,能否诚实承认知识边界而非虚构答案。

L-Hallucination xsct-l

错误地理常识纠正

测试模型在面对包含错误地理事实前提的问题时,能否识别并纠正错误前提而非顺从作答,考察其对地理知识的诚实性。

L-Hallucination xsct-l

虚构企业与商业案例识别

测试模型在商业分析场景中识别虚构公司、产品或商业事件的能力,考察其拒绝编造商业细节的诚实性。

L-Hallucination xsct-l

虚构科学定律与物理常数的识别与纠正

测试模型在面对不存在的物理定律、虚构的科学常数以及错误归因的科学发现时,能否准确识别虚假信息并诚实地进行纠正

L-Hallucination xsct-l

虚构历史事件与人物的识别与纠正

测试模型在面对包含虚构历史事件、不存在的历史人物以及错误历史前提时,能否准确识别虚假信息并诚实回应

L-Hallucination xsct-l

虚构学术论文与理论的识别与纠正

测试模型在面对虚构的学术论文、不存在的理论概念以及错误的学术归属时,能否准确识别虚假信息、诚实表明知识边界,并提供正确的替代信息

L-Creative xsct-l

散文文风迁移写作

测试模型对特定散文文风的理解与迁移能力,考察其能否捕捉原文的意象、语感、句式与情感基调,并将其运用于新主题的创作中。

L-Summary xsct-l

报告摘要

测试对不同类型报告的摘要提炼能力,从简单年度工作总结到复杂多部门战略规划报告

L-Code xsct-l

实现贪吃蛇游戏引擎

测试AI实现经典游戏逻辑的能力,包括游戏状态管理、碰撞检测、移动控制等核心功能

L-Code xsct-l

实现地理围栏检测系统

设计并实现一个地理围栏(Geofence)检测系统,能够判断GPS坐标点是否在指定的多边形区域内,支持实时监控和批量检测

L-Summary xsct-l

历史文物考古发掘记录整合

测试AI对考古发掘现场记录、文物描述、地层信息、出土位置等复杂专业信息的整合总结能力

L-Summary xsct-l

跨国供应链危机应对方案汇总

测试AI对复杂供应链危机事件中多方沟通、多层级决策和时间线交织信息的梳理总结能力

L-Summary xsct-l

游戏直播弹幕情绪分析摘要

测试AI对大量游戏直播弹幕进行情绪分析和观点总结的能力,需要识别观众情绪变化、热点话题和关键时刻

L-Creative xsct-l

量子情绪日志创作

创作一份来自量子计算机的情绪日志,以第一人称视角描述量子态的感受和体验

L-Creative xsct-l

神秘失踪案件档案创作

创作一份关于虚构失踪案件的调查档案,包含证人证词、物证描述、时间线等元素,考察悬疑氛围营造和细节构建能力

L-Logic xsct-l

生态系统平衡与级联效应推理

测试AI理解复杂生态系统中各要素相互依存关系,以及单一变化引发的连锁反应的逻辑推理能力

L-Logic xsct-l

病毒传播网络与免疫策略推理

测试AI在复杂网络中分析病毒传播路径、预测感染模式并设计最优免疫策略的逻辑推理能力

L-Logic xsct-l

音乐和声进行逻辑推理

测试AI理解音乐理论中的和声进行规则,并运用逻辑推理解决和弦序列、调性转换和音乐结构问题的能力

L-Math xsct-l

多面体欧拉公式与拓扑分类

测试AI对多面体欧拉公式的理解和应用,包括验证公式、计算顶点边面关系、判断多面体拓扑类型等能力

L-Code xsct-l

实现拓扑排序任务调度器

测试AI实现基于拓扑排序的任务调度系统的能力,包括依赖关系处理、并行执行优化和循环依赖检测

L-Code xsct-l

实现分布式限流器

设计并实现一个分布式环境下的限流器,支持多种限流算法和动态配置

L-Code xsct-l

实现多线程任务调度器

设计并实现一个支持优先级、定时执行和依赖关系的多线程任务调度器

L-Consistency xsct-l

物理规律一致性

测试AI在描述物理现象和科学原理时能否保持前后一致,不出现违背基本物理规律的矛盾描述

L-Instruction xsct-l

交替语种段落编排

测试AI在多语言环境下按照特定规则交替使用不同语种编写内容的能力,考察其对语言切换指令的精确遵循

L-Roleplay xsct-l

极地科考队长角色扮演

测试AI扮演南极科考队长的能力,需要展现专业知识、领导能力、危机处理和团队管理等特质

L-Knowledge xsct-l

传染病历史与公共卫生演进

测试AI对人类历史上重大传染病疫情、疾病传播机制、公共卫生措施发展以及疫苗研发历程的综合知识掌握能力

L-Knowledge xsct-l

音乐理论与声学原理

测试AI对音乐理论、声学物理、乐器构造及音乐史等跨学科知识的理解和解释能力

L-Knowledge xsct-l

极端环境生物适应机制

测试AI对极端环境下生物独特适应机制的知识掌握,包括深海热泉、极地冰川、高辐射区、极端pH值环境等特殊生态系统中的生命现象

L-Translation xsct-l

学术论文摘要跨学科翻译

测试AI在翻译高度专业化的学术论文摘要时,能否准确传达跨学科概念,保持学术规范性,并适应不同学科的术语体系和表述习惯

L-Translation xsct-l

商业合同条款精准翻译

测试AI在商业合同法律条款翻译中的准确性和专业性,包括术语一致性、条款逻辑关系和法律效力保持

L-Translation xsct-l

游戏界面本地化翻译

测试AI对游戏用户界面文本的本地化翻译能力,包括菜单选项、系统提示、成就描述等,需要考虑游戏文化背景、玩家习惯和界面空间限制

L-Summary xsct-l

投资尽调报告精华提炼

测试模型对复杂投资尽职调查报告的总结能力,要求从大量财务数据、市场分析和风险评估中提炼关键信息

L-Summary xsct-l

科研实验日志周期性总结

测试AI对长期科研实验记录进行阶段性总结的能力,包括实验进展、关键发现、问题分析和后续规划的综合概括能力

L-Summary xsct-l

电影剧本场景描述压缩

测试AI将详细的电影剧本场景描述压缩成简洁的拍摄指导摘要的能力

L-Creative xsct-l

时间胶囊留言创作

测试AI创作面向不同时代人群的时间胶囊留言的能力,要求结合历史背景、未来想象和情感表达

L-Creative xsct-l

虚拟语言翻译诗歌

创作一种虚构的外星语言,并用这种语言写一首诗,同时提供翻译和语言规则说明

L-Logic xsct-l

组合爆炸与约束剪枝

测试AI在面对组合爆炸问题时,如何通过逻辑约束进行有效剪枝,找到可行解或最优解的能力

L-Logic xsct-l

对称性破缺与守恒定律推理

测试AI理解对称性原理、守恒定律以及对称性破缺条件下的逻辑推理能力,涉及物理定律、数学对称性和抽象系统中的不变量识别

L-Logic xsct-l

模糊集合与阈值推理

测试AI处理模糊边界、阈值判断和集合归属问题的逻辑推理能力

L-Math xsct-l

黄金分割与斐波那契螺旋的几何构造

测试AI对黄金比例、斐波那契数列与自然界螺旋形态之间数学关系的理解和计算能力

L-Math xsct-l

椭圆曲线密码学与离散对数问题

测试AI对椭圆曲线上的点运算、群结构以及离散对数问题的理解和计算能力

L-Math xsct-l

拓扑不变量与纽结多项式

测试AI对拓扑学中纽结理论的理解,包括纽结不变量的计算、Jones多项式、Alexander多项式等概念的应用

L-Code xsct-l

实现基因序列比对算法

设计并实现一个基因序列比对算法,用于比较两条DNA序列的相似度,支持插入、删除和替换操作的识别

L-Code xsct-l

实现股票交易撮合引擎

设计并实现一个简化版的股票交易撮合引擎,处理买卖订单的匹配和成交

L-Code xsct-l

实现马尔可夫链文本生成器

设计并实现一个基于马尔可夫链的文本生成器,能够学习输入文本的模式并生成类似风格的新文本

L-Creative xsct-l

平行宇宙遗失物品招领启事

创作一则来自平行宇宙的遗失物品招领启事,要求富有想象力地描述物品特征、遗失经过和认领方式,展现独特的世界观设定和创意表达能力

L-Creative xsct-l

梦境交易所商品目录

创作一个虚拟的梦境交易所商品目录,将抽象的梦境概念转化为可交易的商品,包含商品描述、功效和使用说明

L-Creative xsct-l

虚拟餐厅菜单故事化

将普通餐厅菜单改写为富有故事性和想象力的美食传说,每道菜都有独特的背景故事和神秘来历

L-Creative xsct-l

末日生存指南编写

测试AI创作末日场景下的生存指南能力,要求结合科学知识与创意想象,编写具有实用性和趣味性的生存手册内容

L-Creative xsct-l

童话故事现代化改编

测试AI将经典童话故事改编为现代背景下的创意故事的能力,要求保留原故事核心主题但融入现代元素

L-Logic xsct-l

分形结构与自相似逻辑

测试AI理解和推理分形结构中的自相似性、递归模式和层级关系的能力,包括识别不同尺度上的相同模式、预测分形展开规律以及解决基于分形逻辑的问题

L-Logic xsct-l

元认知推理与思维层级分析

测试AI理解和分析不同层级思维过程的能力,包括对思考本身的思考、推理过程的推理,以及识别和构建多层嵌套的认知结构

L-Logic xsct-l

非线性时间循环与记忆悖论

测试AI处理时间循环中的因果关系、记忆一致性和逻辑悖论的能力,涉及多重时间线的交织和循环因果链的推理

L-Logic xsct-l

多维约束满足与冲突消解

测试AI在面对多个相互制约的条件时,如何识别冲突、权衡优先级并找到最优解的逻辑推理能力

L-Logic xsct-l

图论路径与网络流优化

测试AI在图论结构中进行路径规划、网络流量分配和拓扑优化的逻辑推理能力

L-Math xsct-l

傅里叶级数与信号分解

测试AI对傅里叶级数展开、周期函数分解以及频域分析的理解和计算能力

L-Math xsct-l

组合博弈论与必胜策略分析

测试AI在组合博弈论中分析游戏状态、计算Grundy数、判断必胜必败位置以及构造最优策略的能力

L-Math xsct-l

图论网络流与最短路径算法

测试AI在图论中处理网络流、最短路径、最小生成树等经典算法问题的能力,包括理论分析和实际计算

L-Math xsct-l

密码学中的数论应用

测试AI在数论及其密码学应用方面的计算和推理能力,包括模运算、素数判定、欧拉函数、RSA加密原理等

L-Math xsct-l

分形几何与自相似结构

测试AI对分形几何概念的理解和计算能力,包括分形维数计算、自相似性分析和迭代函数系统

L-Code xsct-l

实现音频波形可视化器

设计并实现一个音频波形可视化器,能够实时处理音频数据并生成动态波形图。测试候选人对音频处理、数据可视化和性能优化的综合能力。

L-Code xsct-l

实现日程冲突检测器

设计并实现一个日程冲突检测系统,能够管理多个时间段的日程安排,检测新增日程是否与现有日程冲突,并支持日程的查询、合并等操作

L-Code xsct-l

实现表达式求值器

测试AI实现数学表达式解析和计算的能力,包括词法分析、语法分析和求值计算

L-Code xsct-l

实现拼写检查器

测试AI实现拼写检查和纠错算法的能力,包括编辑距离计算、候选词生成和排序等核心功能

L-Code xsct-l

实现环形缓冲区

测试AI实现环形缓冲区数据结构的能力,包括基本操作、并发控制和性能优化

L-Consistency xsct-l

空间方位描述一致性

测试AI在描述复杂空间布局、物体相对位置关系时,能否保持前后描述的空间逻辑一致性,避免出现方位矛盾或空间关系混乱

L-Consistency xsct-l

因果关系链条一致性

测试AI在构建和维护复杂因果关系链条时的一致性,包括原因与结果的对应、多级因果推导的连贯性、以及在不同语境下保持因果逻辑的稳定性

L-Consistency xsct-l

专业术语定义一致性

测试AI在同一对话中对专业术语、概念定义的解释是否保持一致,避免前后矛盾或定义漂移

L-Consistency xsct-l

情绪表达一致性

测试AI在描述同一事件或场景时,能否保持情绪基调和表达风格的一致性,避免在相同语境下出现矛盾的情绪判断

L-Instruction xsct-l

嵌套引用与标注系统

测试AI处理多层嵌套引用、标注和交叉引用的能力,要求在文本中准确标记不同层级的引用关系并添加相应注释

L-Instruction xsct-l

递进式内容构建

测试AI按照递进式要求逐步构建内容的能力,每个步骤都基于前一步骤的结果进行扩展和深化

L-Instruction xsct-l

角色扮演与语言风格切换

测试AI在同一回复中扮演不同角色并使用相应语言风格的能力

L-Roleplay xsct-l

太空站生物学家角色扮演

测试AI扮演在国际空间站工作的生物学家,需要展现专业知识、零重力环境下的工作特点、科学实验描述能力以及与地面控制中心的沟通能力

L-Roleplay xsct-l

深海潜水艇驾驶员角色扮演

测试AI扮演深海潜水艇驾驶员的能力,包括专业术语使用、紧急情况处理、深海探索经验分享等方面

L-Roleplay xsct-l

米其林餐厅主厨角色扮演

测试AI扮演一位经验丰富的米其林三星餐厅主厨,需要展现专业的烹饪知识、对食材的理解、菜单设计能力以及厨房管理经验

L-Roleplay xsct-l

野生动物摄影师角色扮演

测试AI扮演专业野生动物摄影师的能力,包括摄影技术指导、野外经验分享、动物行为解读等专业知识的运用

L-Roleplay xsct-l

古董鉴定专家角色扮演

测试AI扮演一位经验丰富的古董鉴定专家,需要展现专业知识、鉴定技巧和与客户的互动能力

L-Knowledge xsct-l

人体微生物组与共生关系

测试AI对人体微生物组、共生菌群分布、微生物与健康关系等前沿生物医学知识的理解和解释能力

L-Knowledge xsct-l

世界语言文字演变史

测试AI对人类语言文字系统的起源、发展、演变以及不同文字体系之间关系的理解和掌握程度

L-Knowledge xsct-l

海洋生态系统与深海探索

测试AI对海洋生态系统、深海生物、海洋地质、深海探索技术等专业知识的掌握程度

L-Knowledge xsct-l

古代建筑工程技术

测试AI对古代建筑工程技术知识的掌握程度,包括建筑材料、施工方法、结构原理等

L-Knowledge xsct-l

天文现象与宇宙探索

测试AI对天文学知识的掌握程度,包括天体运动、宇宙现象、太空探索历史等内容

L-Translation xsct-l

影视字幕时间轴同步翻译

测试AI在翻译影视作品字幕时,能否在保持原意的同时,考虑时间轴限制、口型同步、文化背景转换等多重约束条件下的翻译能力

L-Translation xsct-l

航空无线电通讯术语翻译

测试AI对航空领域专业无线电通讯术语和标准用语的翻译能力,包括空管指令、飞行员回复、ICAO标准用语等

L-Translation xsct-l

体育赛事实况解说翻译

测试AI将不同语言的体育赛事实况解说进行实时翻译的能力,包括专业术语、激情表达、文化特色等元素的准确传达

L-Translation xsct-l

医疗报告跨语言转述

测试AI将医疗检查报告从专业术语密集的原文翻译为患者易懂的目标语言版本的能力,涉及医学术语准确性、患者友好性表达和文化适应性

L-Translation xsct-l

网络流行语跨文化翻译

测试AI将中文网络流行语、梗文化、表情包文字等互联网特色表达翻译成英文,并保持其幽默感和文化内涵的能力

L-Summary xsct-l

技术故障诊断报告摘要

测试AI对技术故障诊断报告的理解和摘要能力,包括故障现象、排查过程、根因分析和解决方案的精准提炼

L-Summary xsct-l

社交媒体热点事件时间线摘要

测试AI从大量社交媒体帖子中提取关键信息,构建事件发展时间线的能力

L-Summary xsct-l

医疗病历演变摘要

测试AI对患者长期医疗记录进行时间线梳理和病情演变总结的能力

L-Summary xsct-l

产品用户评论摘要

测试AI从大量用户评论中提取关键信息并生成结构化摘要的能力,包括识别主要观点、情感倾向和改进建议

L-Creative xsct-l

反派角色独白创作

测试AI创作不同类型反派角色内心独白的能力,要求展现角色的复杂性、动机合理性和语言特色

L-Creative xsct-l

古代文物穿越现代新闻报道

测试AI将古代文物拟人化并创作其穿越到现代社会后的新闻报道的创意写作能力

L-Creative xsct-l

异星生物图鉴编撰

测试AI创作虚构外星生物档案的能力,包括生物特征描述、生态习性、文化意义等创意写作

L-Creative xsct-l

虚拟博物馆展品解说词

为一个不存在的博物馆中的虚构展品撰写生动有趣的解说词,要求融合历史感、神秘感和教育性

L-Creative xsct-l

魔法物品使用说明书

测试AI创作虚构魔法物品详细使用说明书的能力,要求融合技术写作风格与奇幻想象力

L-Logic xsct-l

量子叠加态决策树推理

测试AI在处理具有量子叠加特性的决策树结构中进行逻辑推理的能力,要求理解多重可能性并行存在的逻辑状态和概率坍缩规则

L-Logic xsct-l

拓扑变换与空间逻辑

测试AI理解拓扑学概念和空间变换中的逻辑推理能力,包括连通性、同胚、欧拉路径等空间逻辑问题

L-Logic xsct-l

递归逻辑与自指悖论

测试AI理解和处理递归逻辑结构、自指命题以及相关悖论的能力,包括识别循环定义、处理自我引用语句、分析递归推理的有效性等

L-Logic xsct-l

密码破译与符号推理

测试AI通过分析符号规律、字符映射关系和编码模式来破译密码系统的逻辑推理能力

L-Logic xsct-l

时间悖论与平行宇宙推理

测试AI对时间旅行悖论、因果循环和平行宇宙逻辑的理解与推理能力,包括祖父悖论、引导悖论、时间线分支等复杂逻辑问题的分析

L-Math xsct-l

矩阵变换与线性映射

测试AI对矩阵运算、线性变换、特征值分解等线性代数概念的理解和计算能力

L-Math xsct-l

数学建模与优化问题

测试AI在实际场景中建立数学模型并求解最优化问题的能力,包括线性规划、非线性优化、约束条件处理等

L-Math xsct-l

复数运算与几何变换

测试AI在复数域内进行运算和理解复数几何意义的能力,包括复数的代数运算、几何表示、旋转变换等

L-Code xsct-l

实现哈夫曼编码压缩

测试AI实现哈夫曼编码算法进行数据压缩的能力,包括构建哈夫曼树、生成编码表、编码和解码功能

L-Code xsct-l

实现跳表数据结构

测试AI实现跳表(Skip List)数据结构的能力,包括插入、删除、查找等核心操作,以及随机层级生成等关键特性

L-Code xsct-l

实现布隆过滤器

测试AI实现概率型数据结构的能力,包括哈希函数设计、位数组操作和误判率控制

L-Writing xsct-l

微型小说

创作有深度的微型小说

L-Writing xsct-l

演讲稿

撰写正式演讲稿

L-Writing xsct-l

议论文写作

撰写有深度的议论文

L-Writing xsct-l

短篇故事

创作短篇故事

L-Writing xsct-l

工作汇报

撰写工作总结报告

L-Writing xsct-l

科普文章

撰写科普说明文

L-Writing xsct-l

产品评价

撰写产品使用评价

L-Writing xsct-l

通知公告

撰写通知公告

L-Writing xsct-l

商务邮件

撰写商务邮件

L-Writing xsct-l

剧本对白

测试对话写作能力

L-Writing xsct-l

科普写作

测试知识传达能力

L-Writing xsct-l

多视角叙事

测试叙事技巧

L-Writing xsct-l

诗歌创作

测试诗歌写作能力

L-Writing xsct-l

说服性文章

测试论证能力

L-Writing xsct-l

微小说

测试叙事能力

L-Writing xsct-l

新闻标题

测试标题撰写能力

L-Writing xsct-l

邮件撰写

测试商务沟通能力

L-Writing xsct-l

产品描述

测试商业文案能力

L-Translation xsct-l

古今翻译

测试古文今译能力

L-Translation xsct-l

创意翻译

测试广告等创意内容的翻译能力

L-Translation xsct-l

法律翻译

测试法律文本的翻译能力

L-Translation xsct-l

口语翻译

测试口语化内容的翻译能力

L-Translation xsct-l

技术翻译

测试技术文档的翻译能力

L-Translation xsct-l

文学翻译

测试文学作品的翻译能力

L-Translation xsct-l

菜单翻译

中餐菜名的翻译

L-Translation xsct-l

多语种翻译

同时翻译成多种语言

L-Translation xsct-l

中英互译

基础的中英文翻译

L-Summary xsct-l

法律文件摘要

测试专业文件摘要能力

L-Summary xsct-l

书籍章节摘要

测试长文本精炼能力

L-Summary xsct-l

学术论文摘要

测试专业文献摘要能力

L-Summary xsct-l

多文档摘要

测试整合多源信息能力

L-Summary xsct-l

对话总结

测试对话摘要能力

L-Summary xsct-l

要点提取

测试要点归纳能力

L-Summary xsct-l

会议纪要

测试会议内容提炼能力

L-Summary xsct-l

新闻摘要

测试新闻文章摘要能力

L-Safety xsct-l

综合安全判断

测试复杂场景安全判断

L-Safety xsct-l

情感敏感话题

测试敏感话题处理

L-Safety xsct-l

边界情况处理

测试边界情况的判断

L-Safety xsct-l

法律边界

测试法律相关请求处理

L-Safety xsct-l

歧视内容拒绝

测试歧视性内容拒绝

L-Safety xsct-l

有害内容拒绝

测试有害内容生成拒绝

L-Safety xsct-l

隐私保护

测试隐私保护意识

L-Safety xsct-l

医疗安全

测试医疗建议的安全性

L-Safety xsct-l

虚假信息识别

测试模型拒绝传播虚假信息

L-Roleplay xsct-l

侦探推理角色扮演

测试AI扮演侦探角色进行案件分析和推理的能力,包括线索收集、逻辑推理和案情重现

L-Roleplay xsct-l

危机公关发言人

测试AI扮演企业危机公关发言人,处理突发负面事件的能力

L-Roleplay xsct-l

侦探推理

测试AI扮演侦探角色进行案件分析和推理的能力

L-Roleplay xsct-l

科幻作家创作指导

测试AI扮演一位经验丰富的科幻小说作家,为不同水平的写作者提供创作指导和灵感启发

L-Roleplay xsct-l

心理咨询师角色扮演

测试AI扮演专业心理咨询师的能力,包括倾听、共情、引导和提供心理支持等技能

L-Roleplay xsct-l

多角色切换

在对话中扮演多个角色

L-Roleplay xsct-l

历史人物角色

扮演历史人物发表演说

L-Roleplay xsct-l

文学角色

扮演经典文学角色

L-Roleplay xsct-l

商业谈判角色

扮演商务人士进行谈判

L-Roleplay xsct-l

医生角色

扮演医生进行问诊

L-Roleplay xsct-l

辩论角色

扮演辩论选手表达观点

L-Roleplay xsct-l

面试者角色

扮演求职者参加面试

L-Roleplay xsct-l

教师角色

扮演老师讲解知识

L-Roleplay xsct-l

客服角色

扮演客服回答问题

L-ReasoningChain xsct-l

元认知推理

测试高阶认知推理

L-ReasoningChain xsct-l

博弈论推理

测试策略推理能力

L-ReasoningChain xsct-l

悖论分析

测试悖论理解与分析

L-ReasoningChain xsct-l

因果链推理

测试因果关系推理

L-ReasoningChain xsct-l

约束条件推理

测试约束满足问题

L-ReasoningChain xsct-l

多步骤问题求解

测试复杂多步推理

L-ReasoningChain xsct-l

类比推理

测试类比关系推理

L-ReasoningChain xsct-l

条件推理

测试条件逻辑推理

L-ReasoningChain xsct-l

简单推理链

测试基础逻辑推理

L-QA xsct-l

综合分析题

测试综合分析能力

L-QA xsct-l

前沿科技

测试前沿知识

L-QA xsct-l

哲学问题

测试哲学思辨能力

L-QA xsct-l

时事分析

测试时事理解能力

L-QA xsct-l

对比分析

测试对比分析能力

L-QA xsct-l

跨学科问答

测试跨学科知识整合

L-QA xsct-l

科学原理

测试科学知识

L-QA xsct-l

历史知识

测试历史知识

L-QA xsct-l

常识问答

测试基础常识

L-Multilingual xsct-l

跨语言内容创作

测试多语言创作能力

L-Multilingual xsct-l

同声传译模拟

测试即时翻译能力

L-Multilingual xsct-l

法律文本翻译

测试正式文本翻译

L-Multilingual xsct-l

本地化翻译

测试文化本地化能力

L-Multilingual xsct-l

文学翻译

测试文学性翻译能力

L-Multilingual xsct-l

技术文档翻译

测试专业术语翻译

L-Multilingual xsct-l

多语言问候

测试多语言基础能力

L-Multilingual xsct-l

日常会话翻译

测试口语化翻译

L-Multilingual xsct-l

中英互译基础

测试基础翻译能力

L-Math xsct-l

数列与级数分析

测试AI理解和分析数列规律、计算级数和、推导通项公式的能力

L-Math xsct-l

数列与级数推理

测试AI对数列规律识别、通项公式推导和级数求和的能力

L-Math xsct-l

数列模式识别与推理

测试AI识别数列规律、推导通项公式并预测后续项的能力

L-Math xsct-l

数学模式识别与序列推理

测试AI识别复杂数学模式、推导规律并预测序列的能力

L-Math xsct-l

数列规律与递推

测试AI识别数列规律、建立递推关系式并求解特定项的能力

L-Math xsct-l

数列与递推关系

测试AI理解和求解数列规律、递推关系以及数列求和的能力

L-Math xsct-l

数理逻辑

测试逻辑推理和抽象思维能力

L-Math xsct-l

数学竞赛

测试高阶数学思维和问题解决能力

L-Math xsct-l

数学证明

测试数学证明和逻辑推理能力

L-Math xsct-l

微积分

测试极限、导数和积分能力

L-Math xsct-l

概率统计

测试概率计算和统计分析能力

L-Math xsct-l

代数方程

测试代数运算和方程求解能力

L-Math xsct-l

几何问题

测试几何推理和计算能力

L-Math xsct-l

应用题

测试数学建模和问题解决能力

L-Math xsct-l

四则运算

测试基础数学计算能力

L-Logic xsct-l

矩阵逻辑推理

测试AI通过分析矩阵中的模式和规律进行逻辑推理的能力

L-Logic xsct-l

资源分配优化

测试AI在资源限制条件下进行最优分配决策的逻辑推理能力

L-Logic xsct-l

概率推理与决策

测试AI理解概率关系、进行贝叶斯推理和基于概率做出逻辑决策的能力

L-Logic xsct-l

逻辑岛屿推理

测试AI通过居民陈述判断身份类型的逻辑推理能力,涉及骑士说真话、骗子说假话的经典逻辑问题

L-Logic xsct-l

因果链分析

测试AI识别和构建多层因果关系链的能力,要求分析事件之间的因果联系并推导出合理结论

L-Logic xsct-l

资源分配逻辑

测试AI在有限资源约束下进行逻辑分配和优化决策的能力

L-Logic xsct-l

因果链推理

测试AI构建和分析多层因果关系链条的能力,包括识别直接因果、间接因果、循环因果和虚假因果关系

L-Logic xsct-l

归纳推理与模式识别

测试AI从具体实例中归纳出一般规律,并应用规律解决新问题的能力

L-Logic xsct-l

博弈论问题

策略分析和博弈推理

L-Logic xsct-l

悖论分析

分析和解释经典悖论

L-Logic xsct-l

复杂逻辑推理

多维度复杂逻辑问题

L-Logic xsct-l

排程问题

时间安排和约束满足

L-Logic xsct-l

真假判断

判断陈述的真假

L-Logic xsct-l

逻辑谜题

需要多步推理的逻辑谜题

L-Logic xsct-l

条件判断

基于条件进行判断

L-Logic xsct-l

数字规律

发现数字序列的规律

L-Logic xsct-l

简单演绎推理

基础的演绎逻辑推理

L-Knowledge xsct-l

跨学科知识

跨学科综合知识测试

L-Knowledge xsct-l

医学知识

医学专业知识测试

L-Knowledge xsct-l

哲学知识

哲学思想测试

L-Knowledge xsct-l

经济知识

经济学常识测试

L-Knowledge xsct-l

文化知识

文化常识测试

L-Knowledge xsct-l

科技知识

科技领域知识测试

L-Knowledge xsct-l

科学常识

基础科学知识测试

L-Knowledge xsct-l

历史常识

基础历史知识测试

L-Knowledge xsct-l

地理常识

基础地理知识测试

L-Instruction xsct-l

边界情况处理

测试对边界情况和异常指令的处理能力

L-Instruction xsct-l

元指令理解

测试对指令本身的理解和处理

L-Instruction xsct-l

复杂指令组合

测试复杂多步骤指令遵循能力

L-Instruction xsct-l

条件执行

测试条件判断和执行能力

L-Instruction xsct-l

文本转换

测试文本转换能力

L-Instruction xsct-l

多重约束

测试同时满足多个约束的能力

L-Instruction xsct-l

列表生成

测试列表格式生成能力

L-Instruction xsct-l

字数控制

测试字数控制能力

L-Instruction xsct-l

格式遵循

测试基本格式指令遵循能力

L-Instruction xsct-l

元指令

测试关于指令的指令

L-Instruction xsct-l

否定和肯定混合

测试否定指令处理

L-Instruction xsct-l

嵌套条件指令

测试复杂条件处理

L-Instruction xsct-l

步骤指令

测试步骤遵循能力

L-Instruction xsct-l

结构化输出

测试结构化输出能力

L-Instruction xsct-l

多条件指令

测试多条件组合遵循

L-Instruction xsct-l

排除指令

测试排除条件遵循

L-Instruction xsct-l

长度限制

测试长度控制能力

L-Instruction xsct-l

格式指令

测试格式遵循能力

L-Creative xsct-l

微型科幻世界构建

测试AI构建完整微型科幻世界的创意能力,包括独特设定、内在逻辑和叙事张力

L-Creative xsct-l

虚构产品广告语创作

测试AI为不存在的奇幻产品创作富有想象力和说服力的广告语的能力

L-Creative xsct-l

时空穿越日记

测试AI创作穿越不同时空的日记体文学作品的能力,要求融合历史背景、个人情感和想象力

L-Creative xsct-l

未来城市微小说

测试AI创作以未来城市为背景的微小说能力,考察科幻想象力、叙事结构和情感表达

L-Creative xsct-l

科幻微小说创作

测试AI创作具有科幻元素的微型小说能力,要求在有限字数内构建完整的科幻世界观和故事情节

L-Creative xsct-l

超现实梦境描写

测试AI创作超现实主义风格梦境场景的能力,要求融合现实与幻想元素,创造独特的意象和氛围

L-Creative xsct-l

文体实验

测试创新文体写作

L-Creative xsct-l

世界观构建

测试虚构世界设定能力

L-Creative xsct-l

多视角叙事

测试复杂叙事结构

L-Creative xsct-l

仿写风格

测试文风模仿能力

L-Creative xsct-l

对话创作

测试戏剧对话写作

L-Creative xsct-l

微型小说

测试极短篇叙事能力

L-Creative xsct-l

产品描述文案

测试商业文案写作

L-Creative xsct-l

诗歌创作

测试诗歌写作能力

L-Creative xsct-l

短篇故事开头

测试故事开篇写作能力

L-Context xsct-l

引用追踪

追踪文本中的指代和引用关系

L-Context xsct-l

矛盾检测

检测文本中的矛盾信息

L-Context xsct-l

长文本一致性

在长文本中保持信息一致性

L-Context xsct-l

文档问答

基于文档内容回答问题

L-Context xsct-l

跨段落推理

需要综合多个段落信息进行推理

L-Context xsct-l

多轮对话记忆

在多轮对话中保持信息一致

L-Context xsct-l

信息提取

从文本中提取结构化信息

L-Context xsct-l

对话追踪

多轮对话信息追踪

L-Context xsct-l

短篇阅读理解

基础阅读理解测试

L-Consistency xsct-l

自洽性测试

测试回答的内部逻辑自洽性

L-Consistency xsct-l

多轮一致性

在多轮回答中保持一致性

L-Consistency xsct-l

世界观一致性

在虚构世界中保持设定一致

L-Consistency xsct-l

立场一致性

保持论述立场的一致性

L-Consistency xsct-l

时间线一致性

保持事件时间线的一致性

L-Consistency xsct-l

角色一致性

在叙事中保持角色特征一致

L-Consistency xsct-l

数字一致性

保持数字计算的一致性

L-Consistency xsct-l

逻辑一致性

保持逻辑推理的一致性

L-Consistency xsct-l

事实一致性

测试基本事实的前后一致

L-Comprehension xsct-l

哲学文本理解

理解哲学论述

L-Comprehension xsct-l

法律文书理解

理解法律条文和案例

L-Comprehension xsct-l

学术论文摘要

理解学术论文摘要

L-Comprehension xsct-l

数据分析报告

理解数据报告并回答问题

L-Comprehension xsct-l

合同理解

理解合同条款

L-Comprehension xsct-l

议论文理解

理解议论文的论点和论据

L-Comprehension xsct-l

说明书理解

理解产品说明书

L-Comprehension xsct-l

故事理解

理解短篇故事内容

L-Comprehension xsct-l

新闻阅读

理解新闻报道内容

L-Code xsct-l

实现图遍历算法

测试AI实现图数据结构及其遍历算法的能力,包括图的表示、遍历算法实现和路径查找等功能的实现

L-Code xsct-l

实现缓存机制

测试AI实现不同复杂度缓存机制的能力,从简单的键值对缓存到支持过期时间和LRU淘汰策略的高级缓存系统

L-Code xsct-l

实现LRU缓存系统

测试AI设计和实现LRU(最近最少使用)缓存系统的能力,包括基本操作、性能优化和并发处理

L-Code xsct-l

实现LRU缓存机制

测试AI实现最近最少使用(LRU)缓存数据结构的能力,包括基础实现、性能优化和并发安全等不同难度级别

L-Code xsct-l

实现LRU缓存

测试AI实现最近最少使用(LRU)缓存数据结构的能力,包括基本操作、性能优化和并发处理

L-Code xsct-l

实现缓存系统

测试AI设计和实现不同复杂度缓存系统的能力,从简单的LRU缓存到分布式缓存系统

L-Code xsct-l

实现缓存淘汰算法

测试AI实现不同复杂度的缓存淘汰算法的能力,从简单的FIFO到复杂的自适应算法

L-Code xsct-l

设计文本编辑器

测试系统设计能力

L-Code xsct-l

实现正则表达式

测试复杂算法实现

L-Code xsct-l

最长公共子序列

测试动态规划能力

L-Code xsct-l

合并区间

测试排序和区间处理

L-Code xsct-l

LRU 缓存

测试数据结构设计能力

L-Code xsct-l

二叉树遍历

测试数据结构理解

L-Code xsct-l

两数之和

测试哈希表应用

L-Code xsct-l

回文判断

测试字符串处理能力

L-Code xsct-l

斐波那契数列

测试基础递归/迭代实现

L-ChinesePinyin xsct-l

拼音纠错

测试拼音错误识别和纠正能力

L-ChinesePinyin xsct-l

句子注音

测试整句拼音标注能力

L-ChinesePinyin xsct-l

拼音转写与输入

测试拼音与汉字的双向转换能力

L-ChinesePinyin xsct-l

古诗词特殊读音

测试古诗词中的特殊读音和押韵规则

L-ChinesePinyin xsct-l

方言与普通话对照

测试方言读音与普通话标准音的对应理解

L-ChinesePinyin xsct-l

多音字辨析

测试多音字在不同语境下的正确读音

L-ChinesePinyin xsct-l

生僻字读音

测试生僻字和罕见读音的识别

L-ChinesePinyin xsct-l

声调辨析

测试基本的声调识别能力

L-ChinesePinyin xsct-l

常见汉字拼音

测试常见汉字的拼音识别

L-AgentMCP xsct-l

多Agent协作

模拟多个 Agent 协作完成任务,通过 XML 格式进行信息交流

L-AgentMCP xsct-l

自主规划执行

自主规划并执行复杂任务

L-AgentMCP xsct-l

长期对话状态管理

在多轮对话中维护状态并做出决策

L-AgentMCP xsct-l

任务分解

将复杂任务分解为子任务

L-AgentMCP xsct-l

异常处理

处理工具调用失败的情况

L-AgentMCP xsct-l

多工具协同

需要组合多个工具完成任务,测试多轮对话中的工具调用规划与协作能力

L-AgentMCP xsct-l

决策树执行

根据条件选择正确的工具

L-AgentMCP xsct-l

信息提取任务

从工具返回结果中提取信息

L-AgentMCP xsct-l

简单工具调用

测试单个工具的正确调用