Register and share your invite link to earn from video plays and referrals.

Jingchao
@alswl
Code Monkey // Senior YAML Editor // 擅长江浙菜
Joined May 2009
704 Following    5.5K Followers
突然想到,十多年前在创业公司阶段,有一个网站功能是采集目标网站的图片,后台实现也有类似的需求。 当时用 Python 基于 html2text 实现的。
最近用 Firecrawl 挺多 🔥 它做的事很简单:把网页抓下来,清洗干净,转成 Markdown / 结构化数据。 这一步其实挺省事。很多网页直接丢给模型,里面一堆导航、广告、页脚、相关推荐,token 花了,重点没剩多少。 Firecrawl 处理完之后,可读性高很多,也更适合拿去做资料整理、知识库、agent workflow。 免费版 1000 credits,大概可以理解成:普通网页约 1000 页;如果开 JSON extraction / 增强模式,会少一些,大概几百页。 我还写了一个非官方 CLI,方便在终端里直接用: 小工具,但很实用 🧰
Show more