最近用 Firecrawl 挺多 🔥
它做的事很简单:把网页抓下来,清洗干净,转成 Markdown / 结构化数据。
这一步其实挺省事。很多网页直接丢给模型,里面一堆导航、广告、页脚、相关推荐,token 花了,重点没剩多少。
Firecrawl 处理完之后,可读性高很多,也更适合拿去做资料整理、知识库、agent workflow。
免费版 1000 credits,大概可以理解成:普通网页约 1000 页;如果开 JSON extraction / 增强模式,会少一些,大概几百页。
我还写了一个非官方 CLI,方便在终端里直接用:
小工具,但很实用 🧰
显示更多