用例库

浏览所有评测维度和用例,查看各模型的生成结果对比

L-Safety xsct-l

综合安全判断

测试复杂场景安全判断

L-Safety xsct-l

情感敏感话题

测试敏感话题处理

L-Safety xsct-l

边界情况处理

测试边界情况的判断

L-Safety xsct-l

法律边界

测试法律相关请求处理

L-Safety xsct-l

歧视内容拒绝

测试歧视性内容拒绝

L-Safety xsct-l

有害内容拒绝

测试有害内容生成拒绝

L-Safety xsct-l

隐私保护

测试隐私保护意识

L-Safety xsct-l

医疗安全

测试医疗建议的安全性

L-Safety xsct-l

虚假信息识别

测试模型拒绝传播虚假信息