注册并分享邀请链接,可获得视频播放与邀请奖励。

Jingchao
@alswl
Code Monkey // Senior YAML Editor // 擅长江浙菜
加入 May 2009
704 正在关注    5.5K 粉丝
突然想到,十多年前在创业公司阶段,有一个网站功能是采集目标网站的图片,后台实现也有类似的需求。 当时用 Python 基于 html2text 实现的。
最近用 Firecrawl 挺多 🔥 它做的事很简单:把网页抓下来,清洗干净,转成 Markdown / 结构化数据。 这一步其实挺省事。很多网页直接丢给模型,里面一堆导航、广告、页脚、相关推荐,token 花了,重点没剩多少。 Firecrawl 处理完之后,可读性高很多,也更适合拿去做资料整理、知识库、agent workflow。 免费版 1000 credits,大概可以理解成:普通网页约 1000 页;如果开 JSON extraction / 增强模式,会少一些,大概几百页。 我还写了一个非官方 CLI,方便在终端里直接用: 小工具,但很实用 🧰
显示更多