主动式 Agent 调研/ 总览
Agent Team Thinking 产品调研 / Field Report No. 02 — 2026

主动式 Agent:
上下文的五种打法

ColaOS、AirJelly、Paperboy、Boxy、Creao —— 五个产品在 2025–2026 年几乎同时 押注同一个判断:当 Agent 能持续获取「关于你」的上下文,它就能在你开口之前 完成工作。本报告拆解它们各自的上下文来源、触发机制,以及主动性的边界在哪里。

调研对象 5 个产品 报告日期 2026-05-21 编制 Agent Team Thinking 工坊
§ 01

摘要

这五个产品形态各异——操作系统、悬浮窗、后台助手、卡片流、AI 员工—— 但它们在回答同一个问题

那个问题是:Agent 如何低成本地、持续地获得「关于你」的上下文,并把它 转化为恰当的主动行为。不再等待指令,而是先理解、再行动——这就是 「主动式 Agent」(Proactive Agent)这一品类的共同信念。

这个品类的轮廓在 2025–2026 年才真正清晰。Agent 的叙事从 AutoGPT 到 Autopilot, 再到今天的 Proactive Agent;2026 年 1 月,LangChain 正式以「Ambient Agents」 为它命名——在后台持续运行、监听事件、在恰当时机被触发的 AI。叙事更新得很快, 技术能否跟上,正是本报告关心的。

分歧不在「要不要主动」,而集中在三件事上:上下文从哪里来、 什么时候触发、主动的边界在哪。其中上下文获取是整条链路的成本与 质量瓶颈,五家给出了五种截然不同的答案——这也是本报告标题的由来。

它们共享一个更大的野心:不只是「帮你干活的工具」,而是试图与你建立一种 持续的理解关系。这种野心同时带来了这一品类最尖锐的风险:干扰性、隐私信任、 持续获取上下文的成本,以及自动化之后的质量稳定性。

§ 02 — 田野索引

五个产品速览

五个产品,五种打法。点击任意一行进入完整档案。

§ 03 — 横向拆解

对比分析

四个维度上的取舍,决定了一个主动式 Agent 究竟是「贴身管家」还是「全栈接管」。

产品 上下文获取 触发机制 交互形态 主动性边界
ColaOS 离线分析数字痕迹 —— 扫描文件、浏览记录自动建画像,无感但偏静态 One Prompt 深度拆解;自动关联用户关注的事件 完整 AI 操作系统,语音入口为主 —— 以「灵魂系统」维系长期关系
AirJelly 关键操作事件捕获 —— 按下 Enter 瞬间截屏,数据干净、成本低 Event → Task → Next Step 推理链 桌面悬浮窗(小水母) —— 悬浮「窥屏」的干扰边界待解
Paperboy 端侧持续观察 —— 上下文全留本地,隐私优先 端侧模型 200ms 内推断「为何而做」 macOS 后台 ambient 助手 —— 安静、可解释、细粒度授权
Boxy 虚拟机内合规采集 —— 拿到社交平台全量历史,最深也最重 信息流蒸馏为单张卡片 卡片流,右划执行 / 左划拒绝 —— 划动即 RLHF,反馈无感
Creao 对话显式描述 —— 由用户口述任务,最可控但谈不上无感 识别重复工作,建议固化为定时 Agent 对话 + 独立沙盒执行 中高 —— 「先手动、后自动」的 AI 员工
上下文来源 显式输入 · · 隐式观察 产品野心 全栈 单点 ColaOS 情感优先 · OS Creao 对话即自动化 AirJelly 屏幕即上下文 Boxy 交互创新 Paperboy 本地意图识别
定位图 —— 横轴:上下文来自用户的显式输入,还是 Agent 的隐式观察; 纵轴:产品野心是做单点助手,还是全栈接管(成为操作系统或 AI 员工)。
§ 04 — 提炼

共识与分歧

五个团队不约而同相信的三件事,以及他们真正分道扬镳的地方。

三条共识:主动性不是凭空而来——它建立在持续的上下文之上,需要可度量,并指向一种新的人机关系。

共识 01

上下文是前提

五家都先解决「持续获取关于你的上下文」,再谈主动。没有上下文的主动只是骚扰; 有了上下文,「在你开口之前」才成立。

共识 02

主动必须可度量

AirJelly 用「Token 消耗量」证明 Agent 真在干活,用「Proactive 接收率」检验 推送是否被接受——这套双指标是值得整个品类借鉴的范式。

共识 03

从工具到关系

它们都想从「帮你干活的工具」升级为「持续理解你的对象」。ColaOS 的「心迹」、 Paperboy 对「送报少年」的类比,都是这种关系叙事。

分歧 — 上下文从哪里来

真正的分水岭是上下文获取,五种打法落在同一条光谱上。一端是 Creao 的显式 描述——由用户口述任务,最可控,但谈不上「无感」。另一端是 Boxy 与 ColaOS 的全域采集——无感、深入,却也把隐私风险与平台 封禁风险一起买了下来。

中间是两种「巧劲」:AirJelly 的 Enter 键事件捕获,用一个显式动作 换来一份干净的上下文切片,避开了不间断录屏的成本与噪音;Paperboy 的 端侧持续观察,把观察留在本地、用算力换信任。谁能在「数据深度」与 「采集成本 / 信任成本」之间找到更优的点,谁就握住了这一品类的关键变量。

报告判断

上下文获取方式本身,可能既是护城河,也是负债。数据越深,越难被复制, 但也越接近平台封禁与用户信任的红线——这条线会反复定义谁能活下来。

§ 05 — 风险

风险与开放问题

这一品类的野心越大,下面五个问题就越尖锐。它们目前都没有标准答案。

01

干扰性

主动推送与「打扰」之间没有清晰的线。悬浮窗的「窥屏」存在感、推送的频率与 时机,都是体验雷区。把控干扰性,是悬浮形态产品的边界问题。

02

隐私与信任

同意一次授权,不等于持续信任。数字痕迹、社交全量历史、屏幕内容——上下文 越深,越需要可解释的边界。2025 年底 Limitless(原 Rewind)被 Meta 收购、 「数据留在本地」的承诺随之松动,是这条边界最现实的前车之鉴;Paperboy 的 场景隔离与细粒度授权,则是一种正面回应。

03

成本

持续获取上下文与推理的 Token / 算力账单真实存在。AirJelly 把 Token 消耗当 正向指标,但从用户视角,它始终是一笔需要被价值覆盖的成本。

04

质量稳定性

当一次性的对话被固化成长期运行的自动化 Agent,质量能否持续稳定?这是 Creao 的核心问号,也是所有「对话转工作流」产品的共同挑战。

05

护城河

上下文采集方式本身能否构成壁垒?Boxy 的虚拟机路径绕开了 API 封锁、拿到更深 的数据,但数据深度既是优势,也可能是平台反制下的负债。