主动式 Agent 的五种打法 — 产品调研总览

§ 01

摘要

这五个产品形态各异——操作系统、悬浮窗、后台助手、卡片流、AI 员工—— 但它们在回答同一个问题。

那个问题是：Agent 如何低成本地、持续地获得「关于你」的上下文，并把它转化为恰当的主动行为。不再等待指令，而是先理解、再行动——这就是「主动式 Agent」（Proactive Agent）这一品类的共同信念。

这个品类的轮廓在 2025–2026 年才真正清晰。Agent 的叙事从 AutoGPT 到 Autopilot，再到今天的 Proactive Agent；2026 年 1 月，LangChain 正式以「Ambient Agents」为它命名——在后台持续运行、监听事件、在恰当时机被触发的 AI。叙事更新得很快，技术能否跟上，正是本报告关心的。

分歧不在「要不要主动」，而集中在三件事上：上下文从哪里来、什么时候触发、主动的边界在哪。其中上下文获取是整条链路的成本与质量瓶颈，五家给出了五种截然不同的答案——这也是本报告标题的由来。

它们共享一个更大的野心：不只是「帮你干活的工具」，而是试图与你建立一种持续的理解关系。这种野心同时带来了这一品类最尖锐的风险：干扰性、隐私信任、持续获取上下文的成本，以及自动化之后的质量稳定性。

§ 02 — 田野索引

五个产品速览

五个产品，五种打法。点击任意一行进入完整档案。

01 ColaOS 情感优先

首个「Soul-First」AI 操作系统，用无感画像与人格化交互建立持续理解关系。

阶段 2026·04 内测 团队 ListenHub / MarsWave 融资 母公司 200 万美元天使+轮 阅读档案 →

02 AirJelly 屏幕即上下文

桌面悬浮的小水母，用「Enter 键意图捕获」把屏幕上下文事件化。

阶段 2026·04 上线 团队 柏特（前字节 MineContext） 融资 五源资本（未披露） 阅读档案 →

03 Paperboy 本地意图识别

安静的 macOS 后台助手，端侧推理在 200 毫秒内推断你「为什么」这样做。

阶段 Private Beta 团队 John Yang（Million 联创） 融资 种子轮 500 万美元 阅读档案 →

04 Boxy 交互创新

面向海外，在虚拟机内合规采集社交全量数据，蒸馏成可左右划动的卡片。

阶段 海外市场 团队 John（MiniMax 8 号员工） 融资 红杉中国种子基金 阅读档案 →

05 Creao 对话即自动化

「7×24 AI 员工」，把跑通一次的对话任务固化成可复用的自动化 Agent。

阶段 2026·03 新版 团队 Kai Cheng / Peter Pang 融资 累计约 $25–30M 阅读档案 →

§ 03 — 横向拆解

对比分析

四个维度上的取舍，决定了一个主动式 Agent 究竟是「贴身管家」还是「全栈接管」。

产品	上下文获取	触发机制	交互形态	主动性边界
ColaOS	离线分析数字痕迹 —— 扫描文件、浏览记录自动建画像，无感但偏静态	One Prompt 深度拆解；自动关联用户关注的事件	完整 AI 操作系统，语音入口为主	高 —— 以「灵魂系统」维系长期关系
AirJelly	关键操作事件捕获 —— 按下 Enter 瞬间截屏，数据干净、成本低	Event → Task → Next Step 推理链	桌面悬浮窗（小水母）	中 —— 悬浮「窥屏」的干扰边界待解
Paperboy	端侧持续观察 —— 上下文全留本地，隐私优先	端侧模型 200ms 内推断「为何而做」	macOS 后台 ambient 助手	低 —— 安静、可解释、细粒度授权
Boxy	虚拟机内合规采集 —— 拿到社交平台全量历史，最深也最重	信息流蒸馏为单张卡片	卡片流，右划执行 / 左划拒绝	中 —— 划动即 RLHF，反馈无感
Creao	对话显式描述 —— 由用户口述任务，最可控但谈不上无感	识别重复工作，建议固化为定时 Agent	对话 + 独立沙盒执行	中高 —— 「先手动、后自动」的 AI 员工

定位图 —— 横轴：上下文来自用户的显式输入，还是 Agent 的隐式观察；纵轴：产品野心是做单点助手，还是全栈接管（成为操作系统或 AI 员工）。

§ 04 — 提炼

共识与分歧

五个团队不约而同相信的三件事，以及他们真正分道扬镳的地方。

三条共识：主动性不是凭空而来——它建立在持续的上下文之上，需要可度量，并指向一种新的人机关系。

共识 01

上下文是前提

五家都先解决「持续获取关于你的上下文」，再谈主动。没有上下文的主动只是骚扰；有了上下文，「在你开口之前」才成立。

共识 02

主动必须可度量

AirJelly 用「Token 消耗量」证明 Agent 真在干活，用「Proactive 接收率」检验推送是否被接受——这套双指标是值得整个品类借鉴的范式。

共识 03

从工具到关系

它们都想从「帮你干活的工具」升级为「持续理解你的对象」。ColaOS 的「心迹」、 Paperboy 对「送报少年」的类比，都是这种关系叙事。

分歧 — 上下文从哪里来

真正的分水岭是上下文获取，五种打法落在同一条光谱上。一端是 Creao 的显式描述——由用户口述任务，最可控，但谈不上「无感」。另一端是 Boxy 与 ColaOS 的全域采集——无感、深入，却也把隐私风险与平台封禁风险一起买了下来。

中间是两种「巧劲」：AirJelly 的 Enter 键事件捕获，用一个显式动作换来一份干净的上下文切片，避开了不间断录屏的成本与噪音；Paperboy 的端侧持续观察，把观察留在本地、用算力换信任。谁能在「数据深度」与「采集成本 / 信任成本」之间找到更优的点，谁就握住了这一品类的关键变量。

报告判断

上下文获取方式本身，可能既是护城河，也是负债。数据越深，越难被复制，但也越接近平台封禁与用户信任的红线——这条线会反复定义谁能活下来。

§ 05 — 风险

风险与开放问题

这一品类的野心越大，下面五个问题就越尖锐。它们目前都没有标准答案。

01

干扰性

主动推送与「打扰」之间没有清晰的线。悬浮窗的「窥屏」存在感、推送的频率与时机，都是体验雷区。把控干扰性，是悬浮形态产品的边界问题。

02

隐私与信任

同意一次授权，不等于持续信任。数字痕迹、社交全量历史、屏幕内容——上下文越深，越需要可解释的边界。2025 年底 Limitless（原 Rewind）被 Meta 收购、「数据留在本地」的承诺随之松动，是这条边界最现实的前车之鉴；Paperboy 的场景隔离与细粒度授权，则是一种正面回应。

03

成本

持续获取上下文与推理的 Token / 算力账单真实存在。AirJelly 把 Token 消耗当正向指标，但从用户视角，它始终是一笔需要被价值覆盖的成本。

04

质量稳定性

当一次性的对话被固化成长期运行的自动化 Agent，质量能否持续稳定？这是 Creao 的核心问号，也是所有「对话转工作流」产品的共同挑战。

05

护城河

上下文采集方式本身能否构成壁垒？Boxy 的虚拟机路径绕开了 API 封锁、拿到更深的数据，但数据深度既是优势，也可能是平台反制下的负债。

主动式 Agent：上下文的五种打法

摘要

五个产品速览

对比分析

共识与分歧

上下文是前提

主动必须可度量

从工具到关系

风险与开放问题

干扰性

隐私与信任

成本

质量稳定性

护城河

主动式 Agent：
上下文的五种打法