Filter
Exclude
Time range
-
Near
做 RAG、搭知识库、跑 Agent 工作流,最烦的就是文档格式问题——PDF 表格解析散架、公式变乱码、扫描件识别不出字、多栏排版顺序全乱,数据还没进模型就先崩溃了。 最近挖到一个很好用的开源项目:opendatalab/MinerU 它专门把 PDF / DOCX / PPTX / XLSX / 图片 / 网页这些脏文档转成 Markdown / JSON,直接拿来直接喂 RAG 或 Agent 工作流。 github.com/opendatalab/Miner… 双引擎架构(VLM 精度模式 95 分、OCR 兼容模式 86 分),支持 109 种语言,公式自动转 LaTeX、表格自动转 HTML、跨页表格自动合并、页眉页脚页码自动剔除,输出顺序完全按人的阅读顺序还原。 主要功能: 1️⃣ 格式全覆盖,PDF / Office / 图片 / 扫描件 / 手写 / 多列布局原生解析,不用在格式转换上绕弯子 2️⃣ 公式 表格自动结构化,LaTeX / HTML 直接输出,进向量库前不用再手动清洗 3️⃣ 页眉页脚页码自动识别剔除,跨页表格自动拼合,输出就是干净的语义块,切片开箱即用 4️⃣ 原生接入 LangChain、LlamaIndex、RAGFlow、Dify、FastGPT,还有 MCP Server,Cursor / Claude Desktop 直接调用 5️⃣ 国产 AI 芯片全覆盖(昇腾、寒武纪等),4GB 显存起步,纯 CPU 也能跑,不锁硬件 部署也很简单,pip install mineru 装完就能 CLI 跑;不想部署的直接打开 : 在线体验。 适合正在做 RAG 知识库、Agent 数据预处理、企业文档解析的朋友收藏使用。
2
7
22
1,422
📌OpenMAIC and @OpenDataLab OpenDataLab's MinerU document parsing engine have entered an ecosystem partnership! This partnership deeply integrates MinerU’s industry-leading document parsing capabilities into the OpenMAIC workflow, jointly establishing a complete application loop from “high‑precision parsing” to “multi‑agent dynamic interaction”, thereby providing solid technical support for complex educational and research scenarios. 📄When users need to process complex documents, they can directly input a PDF document. OpenMAIC will invoke MinerU for PDF parsing, rapidly converting unstructured content into high-precision structured data in Markdown/JSON format.This eliminates layout-induced errors from formulas and tables, allows accurate citation and insertion of original images/tables into PPT slides, and thus generates richer, more precise content—significantly improving the accuracy and immersion of complex knowledge interactions. ✨This joint upgrade coincides with the simultaneous iteration of both parties’ technology stacks. Leveraging the higher‑precision document parsing capabilities of the MinerU 2.5‑Pro version, together with OpenMAIC’s newly released Deep Interactive Mode—enabling more flexible and more engaging classroom interactions—both parties deliver a more stable, efficient, and out‑of‑the‑box experience for educators and deep learners. 🔗 MinerU GitHub:github.com/opendatalab/miner… 🔗 OpenMAIC GitHub: github.com/THU-MAIC/OpenMAIC
1
2
312
Apr 20
Хариад-н opendatalab скриншотыг Даваадалай "Буруу мэдээлэл" гэв. Удалгүй "Худал мэдээлэл" болгож "залруулжээ". 😅 Хэдүүлээ үүнийг Буруу, Худал, Үнэн эсэхийг шүүх тун амархан. Ирэх Лхагва гарагт Нээлттэй мэтгэлцээн хийе. Иргэд өөрсдөө дүгнэлтээ хийг. Нямбаа даргыг урьж байна. 😉
6
168
236
4,875
Даваадалай хөрөнгөө оруулалтын мэдээлэлдээ комданиа бичээд, өнөөх нь нэрээ өөрчилсөн гэдгийг opendatalab дээрээс мөшгөөд явтал Даваадалай Метроны тендэрт ороод, Метро төслийн дарга нь төрсөн дүү нь байгаад л... Янзын гоё хулгайч байгаа юм шүү. 6600 тэрбум. #ХатанТуул
17
349
423
33,974
GitHub - opendatalab/MinerU: Transforms complex documents like PDFs into LLM-ready markdown/JSON for your Agentic workflows. buff.ly/yaJbeMM #AI #MachineLearning #DeepLearning #LLMs #DataScience
3
14
807
ChartVerse-RL-40K is a newly released dataset from OpenDataLab, now available on Hugging Face. The dataset is designed for reinforcement learning on Vision-Language Models (VLMs) focusing chart-reasoning tasks and targets reasoning patterns where state-of-the-art models still struggle. It contains 40,000 high-difficulty chart-reasoning samples. ChartVerse-RL-40K is built by taking complex charts and generating answer-first, code-verified questions, ensuring that every label is correct. Strong VLMs are evaluated on each sample, and only tasks with partial failure rates (hard but still solvable) are retained. You can start training Qwen3-VL on ChartVerse-RL-40K in just 20 lines of code using ReinforceNow.
1
1
3
164
Агентлагуудын Шилэн дансыг үзэж байна Нийгмийн даатгалын ерөнхий газар "Дэлгэрэнгүй хууль" ТББ "Өмгөөллийн ажил" гэж 100,000,000₮ шилжүүлжээ. Уг ТББ ыг Opendatalab шалгаж үзхэд УИХ-ын гишүүн асан О.Баасанхүүгийн ТББ юм байна‼️‼️‼️ @baasankhuu_o Гэрээ, Тушаал зэрэгээ оруулаагүй байна. НДЕГ-ын даргаа Гэрээ, тушаалыг нь хармаар байнаа ‼️‼️‼️
5
23
24
10,088
opendatalab/AICC: Markdown version of Common Crawl, extracted by MinerU. Very cool. It only has two shards for now but someone could scale it up to the entire Common Crawl.
3
10
49
16,502
Roughly including :) Qwen (@Alibaba_Qwen) x4 IBM Granite (@IBMResearch) x2 Zhipu (@ZhipuAI) InclusionAI (@TheInclusionAI) x3 Moondream (@moondream_ai) MistralAI (@MistralAI) Meituan (@Meituan_LongCat) x2 ServiceNow (@ServiceNowRSRCH) DeepSeek (@deepseek_ai) TrillionLabs LiquidAI (@liquidai) x3 JetAI (@JetAIinc) RadicalNumerics (@RadicalNumerics) XiaomiMiMo ByteDanceDouyinContent OpenGVLab Google (@GoogleAI) Meta (@AIatMeta) x2 Unitree (@UnitreeRobotics) Kwaipilot (@KwaiAICoder) Knowledgator NHirose ByteDance-Seed Hcompany (@hcompany_ai) Alibaba-NLP (@Alibaba_Qwen) Baidu OpenDataLab (@OpenDataLab_AI) Logics-MLLM JinaAI (@JinaAI_) ModernVBERT Nanonets Tencent (@TencentGlobal) x2 BagelDotCom OpenBMB (@OpenBMB) Chetwinlow1
1
13
5,126
16 Oct 2025
🚀 MinerU2.5 is now live on MoArk! MinerU2.5 arrives on MoArk, specifically engineered for OCR structured document parsing - transforming complex layouts into organized, actionable data. ✨ Key Features: ✅ Vision-Language Joint Modeling: Combines image and text understanding for robust document analysis. ✅ Small but Mighty: Just 1.2B parameters, optimized for real-world deployment. ✅ Layout Adaptability: Handles multi-column layouts, image interference, and low-resolution inputs. ✅ Structured Output: Restores paragraphs, tables, titles — not just raw text. 👉 Try it now: moark.ai/serverless-api #AI #MinerU #OCR #DocumentParsing #EfficiencyTools #OpenDataLab #TechInnovation #MoArk
1
2
138
👨‍🔧 Github: PDF-Extract-Kit, A Toolkit for High-Quality PDF Content Extraction. Stars ⭐️ - Integrates leading document parsing models for layout detection, formula detection, formula recognition, OCR, and table recognition. - high-quality parsing across diverse document types due to fine-tuning on varied document annotation data. - Includes pre-trained models for layout detection, formula detection, formula recognition, OCR, and table recognition. github. com/opendatalab/PDF-Extract-Kit
3
43
200
13,994
Худлаа шаахаа болиочээ Болормаа? Хандив өгчхөөд маргааш нь opendata дээр гадаадын хөрөнгө оруулагч гэж өөрчлөлт оруулсан гэжээ. Гэтэл opendatalab-руу ороод харвал аль 2019 оноос л одоог болтол гадаадын хөрөнгө оруулалттай компани байсан гэдэг нь харагдаж байна шдээ😂
1
51
76
8,320
Худлаа яриад бгам биш үү? Хандив өгчхөөд маргааш нь opendata дээр ГХО гэж өөрчлөлт оруулсан гэжээ. Гэтэл opendatalab-руу ороод харвал аль 2019 оноос л ГХОХХК байсан гэдэг нь харагдаж бна. Тэгээд ч opendata чинь нээх 1, 2 өдрийн дотор мэдээлэлд зоргоороо өөрчлөлт оруулдаг юм биш.
6 сарын 06нд хандив өгөнгүүтээ маргааш нь мэдээллээ өөрчилчихдөг, айхтар л юм. Нэлээн сайн зохион байгуулалттай хийж дээ. Нэг бол өрсөлдөгч нь, үгүй бол нам дотроос нь нэр дэвшиж чадаагүй хүн л хорлоно доо
12
84
100
15,670
PDF Extract Kit, A Comprehensive Toolkit for High Quality PDF Content Extraction. Key Features ✨ > Modular & easy to customize > Built in evaluation benchmarks > Top tier layout, formula & OCR > Accurate parsing across document types GitHub 🔗: github. com/opendatalab/PDF-Extract-Kit
2
3
139
Opendatalab zveřejňoval, a dodnes má archivovaná, ta samá data, ale detailně, rozlišené dle všech faktorů a hlavně, celistvá bez vyzobání jen toho, co se hodí.
1
2
71
Энэ бичвэрийг задлая. 1-т Германаас лизингээр авсан? 2-т Номадс Хоспиталити ХХК гэж opendatalab дээр лав алга. 3-т Херо энтертайнмент групп ХХК 2017 онд үүсгэн байгуулагдсан байна. 4-т Тэр төлсөн татварын дүнгүүдээ харуулчих. 100к төлсөн ч ийм талархал ирдэг юм.
Херо энтертайнмент групп ХХК нь 2004 оноос хойш үйл ажиллагаагаа тогтвортой явуулж, татвар, нийгмийн даатгалаа хугацаанд нь төлсөн. Манай хамт олон реклам сурталчилгаа, тайз дэлгэцийн маш олон уран бүтээл туурвиж үзэгчдийн хүртээл болгож ирсэн. Бид Гадаад дотоодын уран бүтээлчдийг тээвэрлэх, тог цахилгаангүй газар байрлаж катерингийн үйлчилгээ үзүүлэхэд зориулан 3 жилийн өмнө ХБНГУлсаас лизингээр Номадс Хоспиталити ХХК- тай хамтран захиалж авсан машинууд. Санхүүгийн тайландаа тусгаж, татвараа төлөөд компанийнхаа нэр дээр авсан нь үнэн!
14
137
242
16,789
Opendatalab -с ямар ч компанийг хайхад эхлээд компаний нэрний доор заавал эхлээд гүйцэтгэх захирлын нэр орж ирдэг. (Та нар шалгаад үзээрэй). Харин Данхын Тэмүүлэнгийн компанид л овог нэр байхгүй. Энэ бол ном журмаар бүртгэгдээгүй гэдгийг л харуулж байгаа юм даа.
5
116
190
8,054