Jingchao(@alswl):突然想到，十多年前在创业公司阶段，有一个网站功能是采集目标网站的图片，后台实现也有类似的需求。当时用 Python 基于 html2text 实现的。

2026.06.04 23:45

突然想到，十多年前在创业公司阶段，有一个网站功能是采集目标网站的图片，后台实现也有类似的需求。当时用 Python 基于 html2text 实现的。

2026.06.04 13:12

最近用 Firecrawl 挺多 🔥 它做的事很简单：把网页抓下来，清洗干净，转成 Markdown / 结构化数据。这一步其实挺省事。很多网页直接丢给模型，里面一堆导航、广告、页脚、相关推荐，token 花了，重点没剩多少。 Firecrawl 处理完之后，可读性高很多，也更适合拿去做资料整理、知识库、agent workflow。免费版 1000 credits，大概可以理解成：普通网页约 1000 页；如果开 JSON extraction / 增强模式，会少一些，大概几百页。我还写了一个非官方 CLI，方便在终端里直接用：小工具，但很实用 🧰

显示更多