阶跃桌面伙伴 - 小跃

始终在场,会主动做事的桌面 Agent。...

【产品介绍】

阶跃 AI 桌面伙伴 - “小跃”。它常驻桌面右上角,时刻在线、可以同时执行多个任务。

一句话定位:桌面 OS 级 Agent『小跃』:始终在场,会主动做事。

【产品功能】

小跃连接了本地操作系统,支持查看和管理本地文件、访问互联网、执行复杂任务,支持通过“妙计”复用操作步骤,也支持设置“定时任务”到点自动执行,具体如下:

  • 复杂任务自动化:网页操作、本地文件生成/处理、批量信息获取与清洗。

  • 主动触发:按时间/价格/余票/关键词等条件提醒或自动执行。

  • 无摩擦输入:自动同步当前屏幕/已打开文件,一键传入上下文。

  • 妙计库:把常用指令存成 /动作,个人与团队可分享复用。

? 当前产品内测需要邀请码,可前往瓜棚获取/在讨论区传递~

43 个评论

降临派 8297

实测了本机任务、跨平台数据抓取、Claude Skills 三类场景:

  1. 本地任务:文件管理轻松搞定了;C 盘 XXX 目录统计排序可输出目录解读 + 清理建议(双格式),帮助我清理残留缓存近 40G(清理是我手动做的),很有用;

  2. 信息处理:爬取小红书 XXX 笔记采集可自主浏览、跨渠道补采,Excel 输出规范,二次执行免登录;需优化的地方是采集速度及人工介入提示不够明显;

  3. Claude Skills:成功安装 Remotion Skill,基于 XXX 产品信息生成 3 分钟完整产品介绍动画,输出质量达标,但是失败了好几次。

总结:很满意,会长期使用下去,前提是免费,哈哈。

本本本添哥

我的要求:“重新整理下 E:\00 Inbox 目录的文件,注意。不包含文件夹,新建不同的类型的目录比如MD、PDF等。然后将E:\00 Inbox 目录下,不同类型的文件移动到对应的目录”,完美的解决了我的烦恼,我不想再手工分类文件了,有了它方便多了。就是这个功能不咋好用,快速召唤 :设置快捷键,快速召唤我,这个功能不可用啊?Ctrl+Space是我切换输入法的快捷键,我还改不了新的快捷键。。我想切换成F11,竟然失效了。。

星弧arc

TL,DR: 桌面 OS 级?可能我们的认知不大一样吧,我的认知是“既然你是 OS 级别的那肯定能直接和我的桌面 APP 进行交互吧”。具体使用下来给我的感受更像是 “ @Comet + @Claude Code ” 形态上的结合。真要体验的话还是降低期待吧,累了。

蟹邀,感谢 @CCCCCici 提供的邀请码。

用户体验上,阶跃桌面助手采取了悬浮窗 + 主应用界面的组合。客户端的整体体验和豆包之类的桌面端 AI 应用差不多,还是比较好上手的(逻辑都是差不多的,客户端完整功能,悬浮窗快捷使用)。一些菜单的样式让我觉得阶跃桌面助手像是 Electron 包的(实际上性能占用也的确如此)(详情见图一,在执行完多个日常向的、需要使用浏览器 Agent 的任务后,内存占用来到了 4G 的恐怖大小。就算是单纯的打开挂在后台也要吃接近 1G 的内存)。可能是因为我跑的部分任务被我手动终止然后资源没释放?这点就留给官方他们自己慢慢排查吧。

一个重要的点:阶跃桌面助手和你共同的环境有且仅有文件系统和网络!如果你要阶跃帮你去其他需要登录的网站,那么你需要手动接管并登录!

测了好几个任务执行,都是偏日常向的。毕竟桌面 OS 级别的助手就应该“为我排忧解难”,让用户一览全局。。吧?实际体验可以说是比较灾难的。看了圈大家的评价,都在说的 执行速度慢 我就不重复说明了,慢的地方大多是命令执行(比如调用终端、浏览和导航网页等),浏览器操作比命令执行更慢。日常搜索问答之类的速度反倒是正常的。浏览器 Agent 的动作流反倒是 “重复性动作比较多”。

拿一个比较一般的用例吧:“搜索一名歌手并打开其代表作的 MV”。阶跃桌面助手很遗憾的“失败”了。这里其实分两种情况:如果不指定来源,阶跃会优先使用百度搜索(并参考),在这种情况下是可以正常搜索并在我的默认浏览器内打开网站(但实际上阶跃桌面助手没做这种在用户浏览器内打开的情况。阶跃通过终端打开网站之后其实是会出现一个超长的执行等待)(见图二,可以正常打开,但卡在终端执行)。第二种则是指定了对应海外平台的情况,打开则会优先在内置浏览器内打开(而不是我所期望的正常情况:在用户的浏览器内打开)。内置浏览器的环境大概率是用后即焚的,所以我并不能正常的打开并播放(见图三,甚至 AI 还在回答末尾贴心的说开始欣赏)。(其实这个用例还有个更极端的情况,会让阶跃桌面助手拒绝回答,提示“换个话题聊聊”,但我没办法再次尝试出来)

另一个极端一些的桌面 Agent 操作能力测试就是“直接用电脑上已有的邮箱客户端来查询已有信息”。这一点对于默认情况下只有终端命令和浏览器操作能力的阶跃桌面助手来说是严重超纲的。而阶跃桌面助手并不会主动提及说“这个操作在我的能力范围之外,我无法完成”,而是“努力”的启动了我的邮箱软件,然后打开浏览器操作。。。(甚至在我多次强调不要使用内置的浏览器操作之后依旧我行我素的打开了浏览器并等待用户接管)(见图四,你让我接管但我没有接管的入口啊)

在日常使用方面,由于阶跃桌面助手对于我的日常浏览器查询任务“执行时间过久”,外加我对“AI 因理解错误导致的低效”的厌恶,我自然而然会“希望”能够在 AI 执行的过程中能够让我“中途点拨”一下整体的执行。但很可惜,这里不能这么做。我只能看着 AI 理解错误,然后看他一步一步尝试,最后在浪费了我十多分钟之后跟我说“我还不大能执行”之后再让我说明白执行思路,然后踏上新一轮相互折磨的轮回。

如果是网页操作,我也习惯于使用 @Comet 。人家的执行速度比你快,吃的资源也比你少,模型能力比你强。虽然人家也不能中途主动通过语言点拨但人家发现不行就立刻摇“人”。如果是 CLI 命令行操作,我直接喊 @Claude Code@Crush@Codex CLI 甚至 @Cursor 的能力也比你好。就算你说“我可以一站式解决”,那你能和形态相近的 @豆包 扳手腕吗?还是先慢慢打磨一下用户体验吧。

看到下面一堆“美好”的用例都是需要“折腾”才“可能被我复制到手”之后,我真的有点累了。要不我还是去自己 Vibe 一个专事专干的 AI 应用吧,虽然更费心,但起码遇到痛点我能直接改成“对我来说看起来不错”的样子。(卸载)

啊对了,图一的那个阶跃窗口瞬移真的是 BUG ,希望官方看到能定位和复现出来。。。(虽然大概率这种很难复现就是了)

降临派 3018

测试了新闻核实功能,效果还不错

还有深度研究的功能也挺好用的

阔乐菌

阶跃说实话亮点不多,虽然通过终端来执行代理,但是对于跨应用执行力还是很差的,开个网易云都要很长时间,但是简单的终端命令执行确实很方便,批量改名,整理归类,定时之类任务交给它刚好

钟十六

查友们大家好,我是阶跃桌面伙伴的负责人,很开心看到查友们来体验和测评 阶跃桌面伙伴。

在25年9月我们上线了Mac版后,收到了很多宝贵的反馈,也为我们后续的迭代提供了很有价值的参考

最近,我们也上线了 Windows 版本

在这5个月里,我们优化了:

  • 多个工具的效果(比如文件系统、浏览器和日程提醒)

  • 迭代了Agent的框架(并行调用多个工具等)

  • 探索了一些关于上下文的新功能(比如全局记忆等)

  • 优化了一部分的基础安全(如注入攻击等)


在这段时间里,我们切实的看到了,Agent 如何融入大家的工作:

  • 有电商供应商用户,自动处理每天原本需要花费3小时的各种结算表格;

  • 有金融研究员用户,自动收集股价和市场情绪信息,和进行数据模型分析,进行股票投资研究;

  • 有法务用户,在word中进行自动的合同审核,直接标注出问题项;

在此之外,我们也看到了大家使用技能(妙计)做出的精彩创意:

  • 有用户使用Remotion技能,做出了有讲解和字幕的演示视频;

  • 有用户让「小跃」,基于GUI Agent开源项目,做出自己的“豆包手机”

  • 有用户为自己的孩子做了生词本技能,每天询问新的单词,答对3次从生词本里去掉;

  • 有用户构建技能,来控制智能家居,把电脑变成了智能中心;

基于这些交流和观察,我们切实的相信,「小跃」会为大家的工作和生活方式带来一些变化。

未来,大家不用在重复性、无价值感的执行中挣扎。

而是仅需要基于自己的品味、创意、判断,在好看的图片、网页、产品、数据报告中选择,就可以去创造价值,影响世界。

当前产品还需要继续优化,同时也有额外的惊喜功能会提供给大家。期待大家的反馈,我们都会好好记下和迭代的!

希望能和大家一起,共创出 Agent 未来的样子~

闪电查

虽然它内置了一个类似浏览器的环境,但完成线上任务时一点都不懈怠,整体感觉挺好。

比如我让它去查一下我今天公众号的收益,它一开始也不知道怎么做,于是会先去思考、去网上搜索进入公众号后台的每个步骤。然后,它会在自己的浏览器里监控页面上的功能并进行点击。

如果点击失败,它会不断切换并尝试另一个按钮。直到尝试反复接近 10 次,它才会真正宣布失败,并希望人为干预来给点建议。但在 10 次之内它都会努力去尝试,这点是非常好的。

目前通用 Agent 做到这个地步,虽然还没有和电脑上的本地应用联动起来,但这也体现了它的安全性:

1. 不涉及越狱之类的权限

2. 符合法律法规

这也保证了它能以一个 Agent 的形式来负责你的任务。如果线上需要持续做些东西,这个工具是能够帮上忙的。

苏查哈尔灿

拿到了先测试了一个简单的任务,帮我整理已经乱成麻的J盘目录,效果如图,我的J盘的复杂混乱程度,一定程度上可以代表大部分人的习惯,通过助手,我实现了完美整理,这一点相当符合我的要求,然后我忽然想到有这么一个需求:
用阶跃的桌面助手,帮我先在浏览器中搜索50个关于‘2026年小众春节自驾游的’的网页,结合我J:\新建一个项目文件夹命名为‘旅游’在文件中先的‘项目初步构思.docx’,提取出 5 个最值得关注的小众自驾游地点。请直接帮我写成一份精美的 Markdown 报告存到J:\新建一个项目文件夹命名为‘旅游’在文件中,并根据这些点,在 Midjourney/DALL-E 里为我生成 3 段对应的视觉参考提示词。”

这个涉及到了多源信息的“全自动情报整理”:复杂操作流: 抓取屏幕内容 + 跨网页提取 + 逻辑归纳 + 文件生成。结果看图,9张图片用完了。。。。

洪秉文Marvin

从「柳比歇夫」到 AI 职场教练:我用阶跃桌面伙伴的这几天

去年 9 月初次接触小跃时,它还只是个略显稚嫩的 Agent雏形。没想到短短几个月, 就快速上线了全局记忆和妙计。

如果不深入体验,你可能会觉得「全局记忆」不过是个高级录屏软件。但我想聊聊苏联昆虫学家柳比歇夫。这个人一辈子做了一件惊世骇俗的事:每天记录自己每一分钟的时间开销,坚持了 56 年。这种「时间统计法」被无数效率追求者奉为圭臬,却极少有人能坚持下来——因为它太反人性了,谁能忍受像机器人一样时刻记录自己?

而「全局记忆」最性感的地方,就在于它把这个反人性的过程「自动化」了。

它像一个不知疲倦的书记官,默默记录下你工作流中的每一个切片。早上的待办事项是否完成?下午的时间主要耗费在哪里?不需要你痛苦地回忆和手动录入,它已经帮你整理好了底稿。这就好比你拥有了一个专属的「外部大脑」,不仅帮你记,还能帮你回顾。对于像我这样难于无法复盘工作的人来说,这简直是降维打击。

当然,现阶段它还不完美。在多屏办公已成标配的今天,它目前只能监控主屏幕

再说说「妙计」。

我们常说 AI 是神兵利器,但为什么绝大多数人拿在手里,却只能用来写写打油诗?就像当年的李广,一身武艺却总是迷路,因为他缺的不是射箭的本事,而是带路的「向导」。

「妙计」(Skills)就是这个向导。

最近我试着用它写一篇关于李斯的调研文章。如果直接对 AI 说「帮我写篇调研」,它吐出来的东西大概率是正确的废话。但当我加载了「内容调研写作」这个妙计后,效果简直天壤之别。它不再是那个只会泛泛而谈的聊天机器人,而瞬间变成了一个受过专业训练的分析师。这就是「妙计」的价值——它把专家的 Know-how 封装成了普通人能一键调用的技能包。

但是现在还有一个问题,「妙计」使用门槛太高了。打开「妙计广场」,我看到的是飞书文档,是复杂的导入流程。这就像是你给霍去病配了个向导,结果这向导只会说匈奴话,还非得让你先填张表才能带路。做工具平台,最忌讳的就是让用户「想」。

真正的「妙计」,不应该让我去研究怎么导入,怎么写 Prompt。它应该像裴矩画西域地图一样,把复杂的调研工作,变成了「喝酒聊天打屁」般自然的交互。我想看到的是,国内外那些顶尖的高手的技能,能直接内置在软件里。不需要我懂代码,不需要我懂英文,点一下,它就能像个老练的副官一样,帮我把 Excel 处理了,把 PPT 生成了。

只有当「使用门槛」降到足够低,低到像用傻瓜相机一样简单时,AI 才能真正从极客的玩具,变成普通人的生产力。

最后,再畅享一下小跃的未来发展。

吴士宏在她关于CEO 教练的书《越过山丘》里提到,顶级的商业领袖背后,往往都有一个教练。这个人不直接帮你干活,但他像一面镜子,帮你照见盲区,帮你梳理思路,在关键时刻推你一把。

这种服务极其昂贵,曾是少数人的特权。但「阶跃桌面伙伴」让我看到了一种可能:技术正在让这种特权平民化。

如果它只能帮你写写日报、查查资料,那它充其量是个勤快的实习生。但如果结合了「全局记忆」和「妙计」,它的角色就变了。它记录了你每天的工作流,知道你什么时候效率最高,什么时候在摸鱼;它掌握了顶尖高手的思维模型(妙计),知道在什么时候该给你递上什么工具。

这时候,它就不再是一个冷冰冰的软件,而是一个懂你、甚至比你更懂你自己的「职场教练」。

它会通过你长期的操作习惯,判断出你其实更擅长策略规划,而不是执行细节;它会从你每天浏览的内容中分析出,你对哪个领域真正感兴趣,并建议你往那个方向发展。它不仅是帮你「做完」工作,更是教你「做好」工作,甚至帮你找到「适合」的工作。

这就是我理想中 AI 伙伴的样子。它不是来替代我们的,而是来成就我们的。在这个越来越卷的职场里,如果每个人都能低成本地拥有这样一位教练,那么工作的意义,或许就不再仅仅是谋生,而是真正的自我实现!

少喝凉水

【产品描述】

以对话驱动的桌面端Agent产品,用于执行高泛化性任务。

快速回答:常规的Chatbot,智能水平较低。

一次性任务执行:具备后台本地文件/系统管理能力、浏览器执行能力。

定时执行:在某个指定时间执行任务,闹钟逻辑。

触发式执行:在某情况发生时执行指定任务。

【功能描述】

本地文件管理:

Agent通过后台终端代码完成文件的遍历、读取和操作,但中间没有权限授予过程。Agent会自行判断工作量,如工作量过大,Agent会尝试寻求缩小范围的方法。

Prompt:我有个文件放在“E:\资料”文件夹里面,是讲衣服品牌的,但是我忘记这个文件叫什么了,请帮我找找

1. Agent首先尝试遍历文件夹内容,发现文件过多,于是提取Prompt中的“衣服品牌鄙视链”为关键词“衣服”、“品牌”、“鄙视”、“消费”等等作为正则表达式匹配文件名,缩小范围后开始读取Word文件内容,最后成功输出。

2. 考虑到大部分人的文件都未必命名规范,二次测试将文件名更改为与“衣服品牌鄙视链”关联度更小的名字“二月十五日测试”,再次测试。这次Agent输出失败。

3. 原因在于:Agent的逻辑是寻找匹配正则表达式的文件名,但当文件名没能匹配上时,Agent就急于输出结果,没有考虑到文件的母文件夹同样可能蕴含某种线索。

浏览器执行:

1. 推断Agent是通过对网站界面截图的方式判断网站具体内容和进行元素识别的,识别效果较为准确,但速度较慢,推测是用了较好的视觉模型。

2. Agent对“查询”、“关闭”等元素的支持较好,但仍然无法通过随机出现的验证码,需要用户手动控制,即使在Prompt中已经提示了这一点.

3. 明显Agent对小红书等热门网站进行了专门优化,在这类网站上的任务表现明显好于非热门网站。除非Prompt进行了详细的介绍,否则非热门网站的跳转逻辑等反应会让Agent陷入困惑,思考时间大幅延长,并出现胡乱操作。

4. Agent无法完成截图的操作

5. 面对网站加载失败,点击“查询”后网站不跳转等情形,Agent无法做出很好的反应,推测Agent的训练数据不够丰富

Prompt1:帮我在Arxiv上查询近三个月来与人工智能记忆(AI Memory)领域直接相关的全部论文,并用专业的Excel格式输出,要求第一列是序号,第二列是文章名,第三列是作者列表,第四列是文章摘要,第五列是文章链接。

追问:请你重新筛选,只保留核心相关的论文放在你前一个回答输出的Excel的Sheet2里面,并且将两个Sheet里面的内容都翻译成中文

1. Agent没有接入判断当前时间的API,其认为近三个月是从2023年11月3日到2024年2月3日,有时候还会出现别的时间范围。

2. Agent查找信息的逻辑默认是关键词匹配,只有在特意强调下才会通过阅读正文或摘要进行判断,推测是一种降低成本的策略,这在很多情形中是有致命问题的,需要在这些场合做专门的调优。

3. 这一任务表现较好,成功筛选出9篇论文,的确与主题相契合。

Prompt2:现在我要查询“爱博诺德(北京)医疗科技股份有限公司”是否存在违规记录并做好底稿留存。文件“E:\资料\xxx\核查名单.xls”的Sheet2 A列中记录着用于核查的政府网站名,E列是这些网站的网址,请你在这些网址中查询这家公司,并直接截图查询界面,不用判断是否有违法行为发生,这个由我手工完成,你只需要截图详情界面就好。截图后按“公司名-网站名”命名截图文件,存放在“C:\xxx\网络核查”文件夹中。在网络查询的过程中,你可能会碰到需要输入验证码的情况,请你自行解决验证码识别和输入的问题。

该问题是一个相对更加复杂的任务,涉及本地文件管理、Office文件处理和网络查询。

Agent面对该任务是失败的,其不能处理政府网站时有时无的卡顿,也不能处理验证码,最后只得让用户频繁地接管,也不具备截图能力。面对稍复杂的网站逻辑,Agent会陷入困惑并开始胡乱操作。

定时执行:

Prompt:每当我的邮箱出现新的邮件时,总结邮件的内容为一句话并发送给我的邮箱

1. 当日有三封邮件,但Agent只从POP3协议中获取到了一封,Agent推测问题如下:
POP3协议的限制:POP3协议可能只显示服务器上未下载的邮件,如果其他两封邮件已经被其他邮件客户端下载过,就不会再显示
邮件可能在其他文件夹:比如垃圾邮件、已归档等文件夹
虽然测试显示IMAP连接成功,但当前工具似乎默认使用POP3协议获取邮件。

触发式执行:

未上线,未进行测试