首先感谢群友赠送的一天体验卡(图1)。
让我有机会来评估一下产品而不只是模型了。
我开了6次k2.5集群,初步探索出了基础的使用方式。
这是一个很好的agent调度,但还不是一个好的产品,有太多方法论尚未内化,太多边界还不清晰。
可以从我6次k2.5的使用中分享一些感受和经验,但毋庸置疑的是,k2.5的确是一个不错的模型,k2.5集群也是一个不错的功能。
整体感受是,这个集群功能一个月200块能用13次,还是蛮值得的(虽然我还是用gpt5.1 pro和cc/codex以及unifuns)。
优点很简单:按次计费而非按量,却允许你自定义prompt,为此你可以设计非常完整和复杂的工作流让它来持续工作。
目前执行到最复杂的工作流(图2),创建了8次agent集群,总共16个agent,执行了200+次独立搜索,创建了16个研究报告,2个PPT和1个简单的网站,大概耗时2小时。 这只是1次交互,1个任务,这意味着,我已经可以把一些不那么复杂的多轮长链研究任务,交给它在后台运行了。
但是,仍然有很多糟糕的地方,这也是它作为一个beta功能,值得改进或者应该注意的。
在没有声明时间点时,默认锁定2024(图4)。
在没有显式要求多个子代理时,会低估任务复杂度,把大任务扔给一个agent去进行(图4)
在没有明确要求进行调研了解全局时,会直接基于已知信息来规划整个行动
在没有明确要求进行搜索时,会完全直接基于已有知识创建内容(图3)
在明确要求进行超级复杂的长任务时,在多轮后会快速收敛(图5图6所示,执行到第24步时马上快速收敛,导致虎头蛇尾)
代码生成没有review,效果也不稳定,做了个0.25成品(图7,图8)
我只是尝试了一下调用ppt生成和网站生成,就真用成了,实际上我也不知道我能干点啥,缺少说明书。
没有显式要求调用ppt工具时不会调用,任务需求是生成ppt,结果生成了ppt_script.md,网站也是纯html(图9)
整体来说,黑话不多,干活也猛猛干,但是思想上有偷懒倾向,推一下动一下,推多了就罢工,还是得再狠狠鞭策啊。