内心的真实感受介于6分bad和4分good之间,但是因为因为基座能力的不足和交互逻辑的生硬,权衡之下还是选择了bad:
从两个任务执行来进行评价吧:
实测环节一:复杂信息处理 (AI资讯整理)
prompt内容:整理一下今天热门的AI咨询,放在桌面的jie_yue文件夹里面,做成excel表格,对应消息来源的链接。并按照你觉得的重要性按顺序排列,加上你自己的观点。
完成效果评价:耗时四分半,时间上可以接受,但是结果有点差强人意。首先在任务执行前,其向我发出了对齐需求的提问,诸如渠道邀请,判定标准,偏好类型等等。这里出现了几个疑惑的点,对于产品主要卖点的功能,应当做的精细些。目前市面上有很多对于长任务规划执行的细分例子:例如claude code的在终端内直接选择,或市面上deepreseach功能的先给出完整详细的执行计划再请求确定,再不济模型一个个问,我一个个答,这样子也会给用户感到产品是在深度挖掘需求。但是产品选择了最原始的“抛一堆问题”方式来对齐需求。其中回答例子很多还是根本完成不了的(例如信息源选择X,重要性判定方法等)。最后我查看其信息来源,十条消息有五条来自“金十数据”,排序上我也不认同。
实测环节二:ppt生成
内容:对生成的excel里面的数据拿出来生成ppt
完成效果评价:耗时13分钟,ppt最后没有生成,报错上是说nodejs兼容的问题。但其实在网页版本的生成了,效果上看得出做了一定的工程化处理,但是从满意度上来说,还是无法比肩其他优秀大模型做的。
聊聊看法:
资源管理、桌面管家、电脑帮手”这一方向无疑是2026年的大势所趋,在中国。阶跃走在了这条路的前沿。虽然有些效果实现不佳,但是在执行删文件,改文件等这些桌面任务执行任务上,效果可以说是快准狠。其类似skill的功能附加,也让我眼前一亮。但是要想大火,最应该解决的,是如何给用户非你不可的冲动。现有问题归根结底,还是在部分工程化路径的缺失和于大模型基座的能力欠缺,阶跃自研模型在模型能力和执行稳定性上,确实还有很长一段路要走。