Firecrawl

为 AI 提供数据服务的爬虫。...

【产品介绍】

Firecrawl 是一个数据爬虫,它接收一个 URL,对其进行抓取,并将其转换为干净的 Markdown 格式,并提供 API 服务。

我们会抓取所有可访问的子页面,并为每个页面提供干净的 Markdown。无需提供站点地图。

【产品功能】
抓取 : 抓取一个 URL 并获取其内容,格式为 LLM 可用格式(markdown、摘要、通过 json 模式的结构化数据、截图、html)

爬取 : 抓取网页上的所有 URL 并返回 LLM 可用格式的内容

映射 : 输入一个网站并获取该网站的所有 URL - 非常快速

搜索 : 搜索网络并从结果中获取完整内容

提取 : 使用 AI 从单页、多页或整个网站中获取结构化数据。

开源地址:https://github.com/firecrawl/firecrawl

3 个评论

momo

最近更新了一个好功能,爬取 品牌信息,这个太舒服了!!!

可以爬取 LOGO OG Image 还有设计色系(可以将爬取后的结果交给 Coding Agent 在做自己网站的时候参考)

我只能说,用过的都说好

(海外产品的 OG Image 好多都很有设计感)

悟鸣

之前在 Cursor 中用过他的 MCP,感觉效果还可以。如果没有更好的选择的话,可以试试。

天眼查

我以前用了一段时间,给大家讲一下实际的体验情况是:会有很多新闻网站,爬得稀烂 ?

他们家产品气质很好,可惜技术力不够,他们希望把所有网站都转成 llm 友好读取理解的形式,但本质上却没有啥创新。

如果有爬虫和 LLM 结合需求的同学,我反而推荐一个更靠谱好用的叫 Jina AI(起码成功率会高很多)