强烈推荐所有做 RAG 的人收着这个项目,这款 PDF 解析器比 Marker 快 116 倍,准确率更高,本地 CPU 就能跑还完全开源。
叫做OpenDataLoader PDF,
专为 RAG 管道打造的 PDF 解析器, 基准综合第一,得分 0.907,GitHub 2.4 万星🌟,
搭过 RAG 的朋友应该都懂那种绝望,
PDF 进去之后,阅读顺序乱了,表格压成一行, 公式变成一堆符号,多栏排版全错位, 大模型再强也没用,毕竟进来的就是烂的,
几个我觉得做得比较扎实的地方:
1、200 份真实文档测出来的(含多栏/学术论文/财报)
2、本地 CPU 运行,不需要 GPU,每页只要 0.46 秒 3、表格/公式/图片/图表 OCR 80 语言,扫描件直接能进
4、输出 Markdown / JSON(含坐标边界框)/ HTML,LangChain 原生集成
有个对比数据看了有点炸,
Marker 跑一页 PDF 要 53.9 秒, OpenDataLoader 跑一页 0.46 秒,
快了 116 倍,综合准确率还比它高,
常规页面本地规则高效搞定, 遇到极度复杂的特殊页面才交 AI 增强, 不是脑子一热全交大模型烧钱那种,
Apache 2.0,商用完全没顾虑,
支持知识库入库/文档问答/论文解析/合同分析, 在RAG 管道里这一环,终于有人做得比较扎实了,
LangChain 原生集成:pip install langchain-opendataloader-pdf
GitHub 🔗评论区一楼见⬇️
Claude Code、OpenClaw、Hermes、Codex,一个比一个能干, 但 2026 年了,这批最先进的 Agent 还集体卡在同一件小事上:
上不了网,查推特要付费 API,读小红书卡登录,上 Reddit 动不动被封 IP。
一个叫 Agent Reach 的开源项目,把这三堵墙一起拆了, 26.4k stars,基本零 API 费用。
它聪明在没造轮子: yt-dlp、gh CLI 这些本来就成熟的工具,它统一管起来, Claude Code / Cursor / OpenClaw 要用的时候自动调用, 本质上是给你的 Agent 装了一双能看全网的眼睛。
安装是真的只要一句话, 把 install 链接丢给你的 Agent, 它自己装依赖、自己注册 skill、自己告诉你哪些平台还差个 Cookie, 装完跑一遍 agent-reach doctor,哪通哪不通、怎么修,一目了然。
开箱即用的:YouTube、GitHub、网页、B站、V2EX,零配置。 要配 Cookie 的:Twitter、小红书、Reddit、雪球,流程统一,Agent 会带着你做。
三盆冷水也先泼了:
1️⃣Cookie 会过期,得手动重新导出,不存在装完就一劳永逸;
2️⃣拿 Cookie 抓数据有封号风险,社区共识是用小号,别赌主力号;
3️⃣ 纯聊天用户别凑热闹,它只对会让 Agent 跑命令的人有价值。
但有一点让我觉得这项目能活很久:
作者几乎每天都在更新,而且自己天天在用, 毕竟开源项目最硬的指标从来不是 star 数, 关键看作者还在不在用自己的东西。
链接放一楼了,让你的 Agent 自己装自己👇