阶跃深研

基于模型推理能力自主完成多步复杂研究任务的 AI Agent。...

【核心定位】

阶跃深研是一款基于 AI 大模型推理能力的 Agent 产品,专注于自主完成多步骤复杂研究任务。该产品能够智能衔接研究目标与实际洞见,通过端到端的 Multi-Agent 架构,在几十分钟内交付具备时效性、高置信度和研究深度的专业报告。

【技术架构与能力】

产品采用先进的多智能体协作框架,具备自主规划执行、多源数据综合分析、学术文献深度评估等核心能力。在红杉中国发布的 xBench-DeepSearch 中文深度搜索基准测试中取得 70% 通过率,在 OpenAI BrowseComp 基准测试中达到 23% 通过率,展现出领先的中文语境研究能力。系统能够自动搜索、筛选数百条网页信息,执行代码进行计算分析,并以可视化方式呈现结果。

【应用场景与价值】

深研主要服务于金融、咨询、医疗、政策研究、法律咨询等领域的知识密集型工作者,帮助用户从繁琐的信息检索、提取、收集工作中解放出来。产品不仅提供高质量的研究报告,更能通过多维度的分析视角激发用户思考,补全思考盲区,实现人类思维与智能计算能力的深度协作。

10 个评论

我嘞个查!

这个研究的真的很细,并且字数不少,有时候单次输出到最多了,他还是可以接着到下一次接着回复,基本也都是很有用的内容,笼统的东西相对少一点

OK喵了个咪

同一复杂命题在4款国内DeepSearch类产品横评测试,先说结论,从满意度来说,阶跃的满意度是最高的。
1.完成度,1款失败,3款成功,其中1款中途有人工介入。
2.速度:排除失败的,阶跃与另一款不相上下。
3.内容:阶跃相较于其他三款更完善。
4.美观度:阶跃最终成品报告中包含文字、表格、图表,对于人类阅读更方便。
5.亮点:任务开始前有需求澄清,以便于更好完成任务。
综上,目前阶段,阶跃已可以满足本人DeepSearch类需求。
再说说需要优化的点:
1.对于搜索源,有部分无法查看,不确定是否为专有数据源,希望可以有说明。
2.可以增加个性化功能,譬如指定或排除信息来源,以及加入个性化知识库。

查香四溢

优点:好处在于思维的过程和让人take over一些关键的决策点和把关点,交互做得不错,特别是在人机协同的边界的把关上。
不足:用同一个写报告的任务测试了一下gpt5的thinking模式,底层模型的差距还是太大了。人家一下子目前已经能够思考+反思+给出建议了,而且建议还是比较中肯靠谱的,我们这边还在唯唯诺诺求指点。

臻查

阶跃深研在几天的使用下来感觉体验还是能打的

有互动引导。在用户给出指令后,不会直接开始做,而是会提出三个针对指令的深入问题让用户回答,这使得研究的结果可以更贴近用户意图。但是目前发现,提出的这三个问题似乎有些随机,即使初始命令描述的很详细,模型还是会继续执行提出三个问题这个步骤。
有研究规划。在用户确认研究方向后,模型会制定研究规划给用户确认,并且用户可以修改规划。但这个似乎已成为目前DeepResearch产品标配。
引用源准确率高。这一点还是挺不错的,每一条引用源都可以溯源。

可以自定义引用源偏好。这个是本产品让我眼前一亮的功能。支持商业报告、学术文献等多个聚焦搜索,也可以自定义引用源。

模型低幻觉。深研使用的模型应该是经过了调参,将模型的幻觉率设置的比较低,返回的文本准确率很高,但是换来的是内容变得中规中矩。

localhost

类似于perplexity的lab模式吧,但是实际上还是线性工作流,一个总指挥创建十个左右的子任务,每个步骤一个agent去执行,没并发、纯线性,没有迭代反馈,没有假设自己知识不足,不会根据中间结果判断自己现在的信息量,子任务执行完直接总结。
限于模型能力,总结中过度依赖搜索结果,上下文污染不算小,如果搜索到一些报告直接以报告为准,不太具备自己的判断。

优点是:
1. 快

2. 免费

3. 可以当基础的实习生用,做一些简单任务

4. 在同一个会话中可以持续询问,介于chat和research中间
5. 国产LLM+国产agent 不用担心网络问题和降智问题

酒剑仙的酒壶

给出的结果整体完成度很不错,基本可以帮我完成专业度较高的环评报告批注工作,直出可用。小建议是每个回答是否可以编号,或直接引用?(类似微信对话的引用功能,或者给每个回答编号,需要引用时@回答1.2.3这样)这样可以更精确的完成对前述回答的记忆和联想

来跟agent交朋友

我用阶跃做了两篇关于AI应用领域的投资分析报告,总体来说我觉得阶跃在深度研究上比起元宝,deekseek和豆包等通用型模型助手,非常有研究者的思维逻辑,很懂得我的研究诉求并且帮我延展完善我的研究维度,信息源的获取也比较专业,出错率也很低。而且在分析完需求后还会进一步提炼重点,跟我确认我的研究思路是否是这样的,是否需要完善,很细致!最后不经调试出具的报告也有模有样,还会根据内容呈现必要的可视化图片,另外引用的部分也小小的标注在旁边比较美观。我觉得在信息收集的可靠性和推理呈现上是优秀的!接下来我期待我能够通过提示词的优化,看能否激发它更深程度的观点挖掘。当然也希望阶跃本身能够更好地升级深度思考功能,帮助用户在研究道路上的观点挖掘或者数据洞察上有更亮眼的表现!

降临派 炸炸

短板也是不能忽视的

?线性工作流:缺乏并发和迭代反馈,处理复杂任务时可能记忆错乱,结论宽泛没细节

?过度依赖搜索结果,和 Gemini、Grok、GPT - 5 比,差距还是很大的

皮卡

经过测试,阶跃深研在中国市场来看还是能够排进第一梯队的,但是在国际市场上面对gemini,grok这类产品就不够看了。整体的流程感觉像是已经设定好的工作流,通过多个子研究体进行研究最后总结出最终结果。但是不知道是因为大模型文本长度的问题或者其他的问题,会出现这种一旦研究范围较大,最后给出的结论就会很浅显而不够深入的情况。比如我所展示的图片,可以看到这个最终结果具备了结构清晰,语言规范的优点,但同时也存在深度不足、缺乏原创性见解、语言模式化的缺点,我认为目前国产大模型大部分都会出现这种情况,就看哪家先解决这个问题了。
当然,也有一些优点值得一提,比如可以自定义应用源,这个功能我认为目前很多大厂都未必有实现,阶跃还是做得算很好了。比如这个研究的速度,真的很快,但是也有可能是因为很快所以研究深度很浅,这种可能性也是存在的。
如果在价格相差不大的情况下,我还是会选择gemini或者grok,一个有谷歌的数据源,一个有x的数据源,这两个都不是其他的互联网搜索所能够超越的,是需要长期的积累的。
简单来说,需要快速浅显完成研究任务的选阶跃深研,需要更加权威的数据源的选择gemini或者grok,就是后者可能价格较贵,当然这就各凭需求选择了。

降临派8324

用了2天,说一些感受。深入研究和推理功能在我用过的工具(DS,通义,豆包,元宝等)里面绝对是第一梯队,搜索出来的信息多,总结的好,而且不是那些浅显的套话,强推!但是生成视频的功能就很一般了,视频精细度低,很容易穿模。总体还是很推荐