博客

XSCT Bench 博客，涵盖系统更新、技术分享和重要公告。

文章分类

当前分类：tech

Eevee：多任务 Agent 的 Prompt 路由进化框架

发布时间：2026-06-10

分类：技术文章

作者：洛小山

> 论文：Eevee: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents > 团队：上海交通大学 + Princeton University（Mengdi Wang 组） > 时间：2026 年 6 月一、问题是什么你有一个 AI...
阅读全文
COLLEAGUE.SKILL ：把一个人留下的‘痕迹’提取为一个agent技能包

发布时间：2026-06-04

分类：技术文章

作者：洛小山

> 上海人工智能实验室 · arXiv:2506.21431 > 本文在论文原文基础上，补充了部分行业背景数据，来源已标注链接。 --- 你的资深同事今天 last day。过去三年，他 review 过 800 次 PR，写过 47 份 incident 复盘，在 Slack 里拍板过无数次"这个方案不行"。明天起，这些东西全没了。不是没写文档。文档里不会写的是： >...
阅读全文
把 Skill 当神经网络来训练：SkillOpt 如何让 Agent 技能自我进化

发布时间：2026-05-28

分类：技术文章

作者：洛小山

SkillOpt 的核心洞察可以用一句话概括：如果 Skill 是 Agent 的"可训练外部状态"，那它就应该用深度学习的训练纪律来优化。
阅读全文
《AI 的"食物":训练数据》

发布时间：2026-05-14

分类：技术文章

作者：洛小山

我们之所以要从训练数据讲起，是因为它是 AI 的第一性原理：你理解了它吃什么，就能解释它几乎所有的行为。
阅读全文
AI行业正在奖励"靠谱的人"

发布时间：2026-05-14

分类：技术文章

作者：洛小山

> 读完姚顺宇的访谈，我对"靠谱"这件事有了新理解。姚顺宇在访谈里抛了一句很刺耳的话：AI这行"不太需要脑子"，"本科生就能干"。他自己是清华物理出身，斯坦福高能物理博士，现在在 Google DeepMind 做研究科学家。按理说，他是那种最有资格强调"智商门槛"的人。但他偏不。他说这个行业最需要的特质是：靠谱，做事细，对自己做的事负责任。...
阅读全文
Agent Harness：从概念到工程实践

发布时间：2026-05-10

分类：技术文章

作者：洛小山

大模型原生能力存在一个根本性的短边：它无法持久执行代码，也无法自主配置环境。单次问答的交互模式下，模型只能记住权重和当前上下文，一旦任务复杂度超出窗口承载，就会陷入上下文腐烂，输出质量断崖式下降。 Harness 正是为了弥补这个缺口而提出的系统性方案。
阅读全文
Heuristic Learning：从"养不起的规则"到"值得养活的系统"

发布时间：2026-05-10

分类：技术文章

作者：洛小山

问题不在于规则强不强。规则系统从来不是输在"智能"，而是输在规模一上，维护成本指数级起飞。去修一个位置，可能牵一发而动全身；加了新逻辑，另一个不知道在哪里的 case 偷偷坏了。最后团队的态度是：能不动就别动，宁可写新的叠加层，也不敢碰旧的。在 ROI 算不过账的年代，这些规则只能当一次性补丁，写完就扔。
阅读全文
当AI助手开始接广告，推荐的可能不是你的最优解

发布时间：2026-05-10

分类：技术文章

作者：洛小山

当AI真的面对这种冲突时，它站在哪一边？以及，这些偏向会带来什么实际影响？
阅读全文
让强模型写手册，弱模型照着做：自然语言技能如何打通模型间的能力迁移

发布时间：2026-05-06

分类：技术文章

作者：洛小山

企业今天面临的 AI 困局，不是"没有好模型"，而是"好模型太贵，便宜模型不够聪明"。旗舰模型（GPT-5.1 级别）能理解 6 万 token 的法规文档并精准推理，但每次调用的成本让业务线望而却步。业务模型（GPT-4.1 级别或行业微调模型）成本可控，却在长文本推理上捉襟见肘——CL-bench 测试中，GPT-4.1 的任务解决率仅 11.1%，而 GPT-5.1 达到 21.1%，两者之间是近乎一倍的能力断层。本文的核心命题是：能不能让旗舰模型把"怎么理解和运用上下文"的方法写成一份自然语言手册，然后任何模型都能照着做？
阅读全文
提升 AI Agent 应用活人感的工程化思考。

发布时间：2026-05-06

分类：技术文章

作者：洛小山

假设你们公司 A 市分公司有个同事，你和他从来没见过面。入职三年，你和他所有协作都在线上完成：企业微信群聊、共享文档、偶尔几次线上会议。他能按时出活，消息响应也还行，偶尔在群里接两句话，周末发条朋友圈。你觉得他挺好的，360 环评也不错。三年后他离职了，于是你们失去了联系。现在回过头想，他是真人还是 AI？是不是也没那么重要？
阅读全文

博客

系统更新、技术分享和重要公告

全部模型资讯系统信息技术文章公告

Eevee：多任务 Agent 的 Prompt 路由进化框架

技术文章 2026-06-10

Eevee：多任务 Agent 的 Prompt 路由进化框架

> 论文：Eevee: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents > 团队：上海交通大学 + Princeton University（Mengdi Wang 组） > 时间：2026 年 6 月一、问题是什么你有一个 AI...

洛小山阅读 145

COLLEAGUE.SKILL ：把一个人留下的‘痕迹’提取为一个agent技能包

技术文章 2026-06-04

COLLEAGUE.SKILL ：把一个人留下的‘痕迹’提取为一个agent技能包

> 上海人工智能实验室 · arXiv:2506.21431 > 本文在论文原文基础上，补充了部分行业背景数据，来源已标注链接。 --- 你的资深同事今天 last day。过去三年，他 review 过 800 次 PR，写过 47 份 incident 复盘，在 Slack 里拍板过无数次"这个方案不行"。明天起，这些东西全没了。不是没写文档。文档里不会写的是： >...

洛小山阅读 162

把 Skill 当神经网络来训练：SkillOpt 如何让 Agent 技能自我进化

技术文章 2026-05-28

把 Skill 当神经网络来训练：SkillOpt 如何让 Agent 技能自我进化

SkillOpt 的核心洞察可以用一句话概括：如果 Skill 是 Agent 的"可训练外部状态"，那它就应该用深度学习的训练纪律来优化。

洛小山阅读 479

《AI 的"食物":训练数据》

技术文章 2026-05-14

《AI 的"食物":训练数据》

我们之所以要从训练数据讲起，是因为它是 AI 的第一性原理：你理解了它吃什么，就能解释它几乎所有的行为。

洛小山阅读 182

AI行业正在奖励"靠谱的人"

技术文章 2026-05-14

AI行业正在奖励"靠谱的人"

> 读完姚顺宇的访谈，我对"靠谱"这件事有了新理解。姚顺宇在访谈里抛了一句很刺耳的话：AI这行"不太需要脑子"，"本科生就能干"。他自己是清华物理出身，斯坦福高能物理博士，现在在 Google DeepMind 做研究科学家。按理说，他是那种最有资格强调"智商门槛"的人。但他偏不。他说这个行业最需要的特质是：靠谱，做事细，对自己做的事负责任。...

洛小山阅读 192

Agent Harness：从概念到工程实践

技术文章 2026-05-10

Agent Harness：从概念到工程实践

大模型原生能力存在一个根本性的短边：它无法持久执行代码，也无法自主配置环境。单次问答的交互模式下，模型只能记住权重和当前上下文，一旦任务复杂度超出窗口承载，就会陷入上下文腐烂，输出质量断崖式下降。 Harness 正是为了弥补这个缺口而提出的系统性方案。

洛小山阅读 579

Heuristic Learning：从"养不起的规则"到"值得养活的系统"

技术文章 2026-05-10

Heuristic Learning：从"养不起的规则"到"值得养活的系统"

问题不在于规则强不强。规则系统从来不是输在"智能"，而是输在规模一上，维护成本指数级起飞。去修一个位置，可能牵一发而动全身；加了新逻辑，另一个不知道在哪里的 case 偷偷坏了。最后团队的态度是：能不动就别动，宁可写新的叠加层，也不敢碰旧的。在 ROI 算不过账的年代，这些规则只能当一次性补丁，写完就扔。

洛小山阅读 460

当AI助手开始接广告，推荐的可能不是你的最优解

技术文章 2026-05-10

当AI助手开始接广告，推荐的可能不是你的最优解

当AI真的面对这种冲突时，它站在哪一边？以及，这些偏向会带来什么实际影响？

洛小山阅读 125

让强模型写手册，弱模型照着做：自然语言技能如何打通模型间的能力迁移

技术文章 2026-05-06

让强模型写手册，弱模型照着做：自然语言技能如何打通模型间的能力迁移

企业今天面临的 AI 困局，不是"没有好模型"，而是"好模型太贵，便宜模型不够聪明"。旗舰模型（GPT-5.1 级别）能理解 6 万 token 的法规文档并精准推理，但每次调用的成本让业务线望而却步。业务模型（GPT-4.1 级别或行业微调模型）成本可控，却在长文本推理上捉襟见肘——CL-bench 测试中，GPT-4.1 的任务解决率仅 11.1%，而 GPT-5.1 达到 21.1%，两者之间是近乎一倍的能力断层。本文的核心命题是：能不能让旗舰模型把"怎么理解和运用上下文"的方法写成一份自然语言手册，然后任何模型都能照着做？

洛小山阅读 135

技术文章 2026-05-06

提升 AI Agent 应用活人感的工程化思考。

假设你们公司 A 市分公司有个同事，你和他从来没见过面。入职三年，你和他所有协作都在线上完成：企业微信群聊、共享文档、偶尔几次线上会议。他能按时出活，消息响应也还行，偶尔在群里接两句话，周末发条朋友圈。你觉得他挺好的，360 环评也不错。三年后他离职了，于是你们失去了联系。现在回过头想，他是真人还是 AI？是不是也没那么重要？

洛小山阅读 186

文章分类

当前分类：tech

相关链接

博客