做 AI Agent 产品 文档图片预处理选哪个?
踩了一圈之后我的结论是 MinerU
三个主流方案做一下对比:
Unstructured 覆盖格式最广 PDF Word Excel 全吃 但精确度是短板 复杂版式容易丢内容 做 demo 够用 上生产慎重
markitdown 微软出品 轻量干净 问题是真的太轻了 图片直接跳过 要自己额外接 VL 模型处理 多一个节点 多一层出错概率
MinerU 精确度目前是第一梯队 版式还原、表格识别、图文关系处理都比较扎实 缺点是部署比前两个重一些
Agent 产品对解析质量敏感 不然上游垃圾进去 下游全是垃圾 ,选 MinerU 算是一步到位
好奇你们用哪个方案?
顯示更多