博客
XSCT Bench 博客,涵盖系统更新、技术分享和重要公告。
文章分类
当前分类:tech
-
《AI 的"食物":训练数据》
发布时间:2026-05-14
分类:技术文章
作者:洛小山
我们之所以要从训练数据讲起,是因为它是 AI 的第一性原理:你理解了它吃什么,就能解释它几乎所有的行为。
阅读全文 -
AI行业正在奖励"靠谱的人"
发布时间:2026-05-14
分类:技术文章
作者:洛小山
> 读完姚顺宇的访谈,我对"靠谱"这件事有了新理解。 姚顺宇在访谈里抛了一句很刺耳的话:AI这行"不太需要脑子","本科生就能干"。 他自己是清华物理出身,斯坦福高能物理博士,现在在 Google DeepMind 做研究科学家。按理说,他是那种最有资格强调"智商门槛"的人。但他偏不。他说这个行业最需要的特质是:靠谱,做事细,对自己做的事负责任。...
阅读全文 -
Agent Harness:从概念到工程实践
发布时间:2026-05-10
分类:技术文章
作者:洛小山
大模型原生能力存在一个根本性的短边:它无法持久执行代码,也无法自主配置环境。单次问答的交互模式下,模型只能记住权重和当前上下文,一旦任务复杂度超出窗口承载,就会陷入上下文腐烂,输出质量断崖式下降。 Harness 正是为了弥补这个缺口而提出的系统性方案。
阅读全文 -
Heuristic Learning:从"养不起的规则"到"值得养活的系统"
发布时间:2026-05-10
分类:技术文章
作者:洛小山
问题不在于规则强不强。规则系统从来不是输在"智能",而是输在规模一上,维护成本指数级起飞。去修一个位置,可能牵一发而动全身;加了新逻辑,另一个不知道在哪里的 case 偷偷坏了。 最后团队的态度是:能不动就别动,宁可写新的叠加层,也不敢碰旧的。在 ROI 算不过账的年代,这些规则只能当一次性补丁,写完就扔。
阅读全文 -
当AI助手开始接广告,推荐的可能不是你的最优解
发布时间:2026-05-10
分类:技术文章
作者:洛小山
当AI真的面对这种冲突时,它站在哪一边?以及,这些偏向会带来什么实际影响?
阅读全文 -
让强模型写手册,弱模型照着做:自然语言技能如何打通模型间的能力迁移
发布时间:2026-05-06
分类:技术文章
作者:洛小山
企业今天面临的 AI 困局,不是"没有好模型",而是"好模型太贵,便宜模型不够聪明"。 旗舰模型(GPT-5.1 级别)能理解 6 万 token 的法规文档并精准推理,但每次调用的成本让业务线望而却步。业务模型(GPT-4.1 级别或行业微调模型)成本可控,却在长文本推理上捉襟见肘——CL-bench 测试中,GPT-4.1 的任务解决率仅 11.1%,而 GPT-5.1 达到 21.1%,两者之间是近乎一倍的能力断层。 本文的核心命题是:能不能让旗舰模型把"怎么理解和运用上下文"的方法写成一份自然语言手册,然后任何模型都能照着做?
阅读全文 -
提升 AI Agent 应用活人感的工程化思考。
发布时间:2026-05-06
分类:技术文章
作者:洛小山
假设你们公司 A 市分公司有个同事,你和他从来没见过面。 入职三年,你和他所有协作都在线上完成:企业微信群聊、共享文档、偶尔几次线上会议。 他能按时出活,消息响应也还行,偶尔在群里接两句话,周末发条朋友圈。 你觉得他挺好的,360 环评也不错。 三年后他离职了,于是你们失去了联系。 现在回过头想,他是真人还是 AI? 是不是也没那么重要?
阅读全文 -
我测了 ColaOS,又翻了几十条用户评价,聊聊有灵魂的 AI Agent
发布时间:2026-05-06
分类:技术文章
作者:洛小山
我觉得 ColaOS 选了一条很不同而且很机智的路,拼情商。 核心逻辑概括为两个关键词:无感理解和主动牵挂。 无感理解,是指它会读取你的本地文件、浏览器历史、笔记内容。 你不需要下指令,不需要整理问题,它自己消化你散落在电脑里的信息。 你甚至不用管会话。 我之前给橘子当面吐槽过这个设计,然后他很认真地回复我:用户为什么要关心会话。 确实,用户不关心会话,是最符合直觉的,因为你和朋友的微信本来也没有单开会话的说法。 主动牵挂,是指它记住了你随口说的话,在合适的时机主动提起。 比如你三天前随口提过喜欢 IU,今天它主动推了 IU 新的资讯。 过去的 AI 工具,逻辑是你问,它答。 ColaOS 的逻辑是,它在旁边看着,然后在你可能需要的时候 Call Back。
阅读全文 -
RecursiveMAS:多智能体系统的"光纤革命"
发布时间:2026-05-05
分类:技术文章
作者:洛小山
在一个标准的循环网络中,每一层的隐状态(hidden state)会直接传递给下一层,不需要先解码成人类可读的文本。那么关键问题变成:不同 Agent 之间,怎么传递连续的"脑电波"(hidden states)?
阅读全文 -
Qwen3.5-Omni 技术解读:从级联拼接到原生全模态智能体
发布时间:2026-04-30
分类:技术文章
作者:洛小山
## 为什么全模态必须是原生的 很多人把「全模态」简单理解成支持的模态种类更多。这是个误区。当前主流的多模态方案本质上是一条级联管线:ASR 把语音转文字,视觉编码器把图像转特征,LLM 在文本空间推理,TTS 再把文字念出来。每个环节各自为政,带来三个结构性问题: **信息逐层折损。** ASR 只输出文字,说话人的情绪、语气、停顿、背景环境音全部丢弃。模型的推理质量受限于最窄的信息管道。 **延迟不可压缩地累加。** 端到端延迟 = ASR 延迟 + 推理延迟 + TTS 延迟,三段串行。瓶颈在架构,不在算力。 **跨模态涌现无法生长。** 独立模块之间没有共享梯度和统一表征,「画面里的按钮布局」与「代码逻辑」之间的直接映射,在拼接式架构中学不到。
阅读全文