Crawl4AI

开源且对 LLM 友好的现代网络爬虫。...

【产品介绍】

Crawl4AI 是一个功能丰富的爬虫和抓取工具,旨在:

1.  生成干净的 Markdown:非常适合 RAG 管道或直接输入 LLMs。

2.  结构化提取 : 使用 CSS、XPath 或基于 LLM 的提取来解析重复模式。

3.  高级浏览器控制 : 钩子、代理、隐身模式、会话重用—精细控制。

4.  高性能 : 并行爬取、基于块的提取、实时应用场景。

5.  开源 : 无强制 API 密钥,无付费墙—每个人都可以访问他们的数据。

【产品功能】

LLMTableExtraction:针对大型表格的革命性智能分块表格提取

增强并发性能 :批量操作中快速完成的任务实现真正的并发改进

内存管理重构 :优化内存工具并改进资源管理

浏览器管理器修复 :解决了并发页面创建中的竞态条件

跨平台浏览器分析器 :改进了键盘处理和退出机制

高级 URL 处理 :更优地处理原始 URL 和基础标签链接解析

增强代理支持 :支持 dict 和 string 格式的灵活代理配置

Docker 改进 :更好的 API 处理和原始 HTML 支持

1 个评论

Kinema

核心功能是直接html->markdown,AI输入友好,非常方便。
我没有深入使用很多功能,我认为最强大的其实就是html->md的基础功能。
优点:

1. 由于html输入要消耗非常多token,直接转换成markdown能节约非常多token
2. 使用过滤器可以过滤掉内容短的html标签
3. 自动random user agent
4. 可以过滤 image, link 等标签
缺点:

1. wiki 用起来很难受,而且内容整体来说都比较散,
2. 库中的参数配置有的甚至是dict存储的,pylance都不知道有哪些参数必须去wiki或者类点进去一个一个看