这个研究的真的很细,并且字数不少,有时候单次输出到最多了,他还是可以接着到下一次接着回复,基本也都是很有用的内容,笼统的东西相对少一点
基于模型推理能力自主完成多步复杂研究任务的 AI Agent。...
【核心定位】
阶跃深研是一款基于 AI 大模型推理能力的 Agent 产品,专注于自主完成多步骤复杂研究任务。该产品能够智能衔接研究目标与实际洞见,通过端到端的 Multi-Agent 架构,在几十分钟内交付具备时效性、高置信度和研究深度的专业报告。
【技术架构与能力】
产品采用先进的多智能体协作框架,具备自主规划执行、多源数据综合分析、学术文献深度评估等核心能力。在红杉中国发布的 xBench-DeepSearch 中文深度搜索基准测试中取得 70% 通过率,在 OpenAI BrowseComp 基准测试中达到 23% 通过率,展现出领先的中文语境研究能力。系统能够自动搜索、筛选数百条网页信息,执行代码进行计算分析,并以可视化方式呈现结果。
【应用场景与价值】
深研主要服务于金融、咨询、医疗、政策研究、法律咨询等领域的知识密集型工作者,帮助用户从繁琐的信息检索、提取、收集工作中解放出来。产品不仅提供高质量的研究报告,更能通过多维度的分析视角激发用户思考,补全思考盲区,实现人类思维与智能计算能力的深度协作。
同一复杂命题在4款国内DeepSearch类产品横评测试,先说结论,从满意度来说,阶跃的满意度是最高的。
1.完成度,1款失败,3款成功,其中1款中途有人工介入。
2.速度:排除失败的,阶跃与另一款不相上下。
3.内容:阶跃相较于其他三款更完善。
4.美观度:阶跃最终成品报告中包含文字、表格、图表,对于人类阅读更方便。
5.亮点:任务开始前有需求澄清,以便于更好完成任务。
综上,目前阶段,阶跃已可以满足本人DeepSearch类需求。
再说说需要优化的点:
1.对于搜索源,有部分无法查看,不确定是否为专有数据源,希望可以有说明。
2.可以增加个性化功能,譬如指定或排除信息来源,以及加入个性化知识库。
阶跃深研在几天的使用下来感觉体验还是能打的
有互动引导。在用户给出指令后,不会直接开始做,而是会提出三个针对指令的深入问题让用户回答,这使得研究的结果可以更贴近用户意图。但是目前发现,提出的这三个问题似乎有些随机,即使初始命令描述的很详细,模型还是会继续执行提出三个问题这个步骤。
有研究规划。在用户确认研究方向后,模型会制定研究规划给用户确认,并且用户可以修改规划。但这个似乎已成为目前DeepResearch产品标配。
引用源准确率高。这一点还是挺不错的,每一条引用源都可以溯源。
可以自定义引用源偏好。这个是本产品让我眼前一亮的功能。支持商业报告、学术文献等多个聚焦搜索,也可以自定义引用源。
模型低幻觉。深研使用的模型应该是经过了调参,将模型的幻觉率设置的比较低,返回的文本准确率很高,但是换来的是内容变得中规中矩。
类似于perplexity的lab模式吧,但是实际上还是线性工作流,一个总指挥创建十个左右的子任务,每个步骤一个agent去执行,没并发、纯线性,没有迭代反馈,没有假设自己知识不足,不会根据中间结果判断自己现在的信息量,子任务执行完直接总结。
限于模型能力,总结中过度依赖搜索结果,上下文污染不算小,如果搜索到一些报告直接以报告为准,不太具备自己的判断。
优点是:
1. 快
2. 免费
3. 可以当基础的实习生用,做一些简单任务
4. 在同一个会话中可以持续询问,介于chat和research中间
5. 国产LLM+国产agent 不用担心网络问题和降智问题
我用阶跃做了两篇关于AI应用领域的投资分析报告,总体来说我觉得阶跃在深度研究上比起元宝,deekseek和豆包等通用型模型助手,非常有研究者的思维逻辑,很懂得我的研究诉求并且帮我延展完善我的研究维度,信息源的获取也比较专业,出错率也很低。而且在分析完需求后还会进一步提炼重点,跟我确认我的研究思路是否是这样的,是否需要完善,很细致!最后不经调试出具的报告也有模有样,还会根据内容呈现必要的可视化图片,另外引用的部分也小小的标注在旁边比较美观。我觉得在信息收集的可靠性和推理呈现上是优秀的!接下来我期待我能够通过提示词的优化,看能否激发它更深程度的观点挖掘。当然也希望阶跃本身能够更好地升级深度思考功能,帮助用户在研究道路上的观点挖掘或者数据洞察上有更亮眼的表现!
经过测试,阶跃深研在中国市场来看还是能够排进第一梯队的,但是在国际市场上面对gemini,grok这类产品就不够看了。整体的流程感觉像是已经设定好的工作流,通过多个子研究体进行研究最后总结出最终结果。但是不知道是因为大模型文本长度的问题或者其他的问题,会出现这种一旦研究范围较大,最后给出的结论就会很浅显而不够深入的情况。比如我所展示的图片,可以看到这个最终结果具备了结构清晰,语言规范的优点,但同时也存在深度不足、缺乏原创性见解、语言模式化的缺点,我认为目前国产大模型大部分都会出现这种情况,就看哪家先解决这个问题了。
当然,也有一些优点值得一提,比如可以自定义应用源,这个功能我认为目前很多大厂都未必有实现,阶跃还是做得算很好了。比如这个研究的速度,真的很快,但是也有可能是因为很快所以研究深度很浅,这种可能性也是存在的。
如果在价格相差不大的情况下,我还是会选择gemini或者grok,一个有谷歌的数据源,一个有x的数据源,这两个都不是其他的互联网搜索所能够超越的,是需要长期的积累的。
简单来说,需要快速浅显完成研究任务的选阶跃深研,需要更加权威的数据源的选择gemini或者grok,就是后者可能价格较贵,当然这就各凭需求选择了。