📄 PaddleOCR:从文档到结构化数据的工业级引擎
> PaddlePaddle/PaddleOCR | Python | 84.6K ⭐ | Apache 2.0 > GitHub: https://github.com/PaddlePaddle/PaddleOCR
—
一句话定位
PaddleOCR 不是 “一个 OCR 工具”,而是文档 AI 的基础设施——把 PDF、图片、扫描件变成 LLM 能直接用的结构化数据(JSON/Markdown)。
被 Dify、RAGFlow、Cherry Studio、OmniParser 等头部项目直接集成。在 RAG 和 Agent 时代,它是图像/PDF 到文本的必经桥梁。
—
三条产品线
1. PP-OCRv6 — 场景文字识别(2026.06 发布)
– 50 语言统一模型:中文、英文、日文 + 46 种拉丁语系,无需切换模型 – 34.5M 参数(medium 版),跑在 CPU 上比主流 VLM 还快 – 5.2× CPU 加速(OpenVINO),Apple M4 上 6.1×,A100 GPU 0.13s – 三个 tier:tiny (1.5M) / small (7.7M) / medium (34.5M),覆盖边缘到服务器
一个关键数字:PP-OCRv6 的检测准确率比 PP-OCRv5 提升 4.6%,识别准确率提升 5.1%,而且超过了 Qwen3-VL-235B 和 GPT-5.5 等主流 VLM。用 34.5M 参数打赢 235B,这是架构优化的力量。
2. PaddleOCR-VL-1.6 — 文档解析 VLM(0.9B SOTA)
– OmniDocBench v1.6 准确率 96.3%,开源 + 闭源方案中的新 SOTA – 0.9B 参数,NaViT 动态分辨率视觉编码器 + ERNIE-4.5-0.3B 语言模型 – 输出 Markdown 或 JSON,支持表格、公式、印章、图表、古籍、生僻字 – 长文档自动跨页表格合并、层级标题识别
这个模型的核心设计是资源效率。0.9B 参数,但文档解析能力超过很多 10B+ 的通用 VLM。它不是”能看懂图”,而是”专门懂文档”。
3. PP-StructureV3 — 结构化提取
– 细粒度坐标信息:表格单元格坐标、文本坐标、版面分析 – 与 PaddleOCR-VL 的区别:VL 侧重大段文本理解,StructureV3 侧重精确位置+结构 – 支持 Word/Excel/PowerPoint → Markdown 转换
—
生态集成:不只是工具,是基础设施
PaddleOCR 的集成矩阵:
| 集成方向 | 项目/平台 |
|---|---|
| Agent 工作流 | Dify, RAGFlow, Cherry Studio, Pathway |
| MCP | 官方 MCP Server,Agent 直接调用 |
| LangChain | langchain-paddleocr 包 |
| 浏览器 | PaddleOCR.js SDK,PP-OCRv5 直接跑在浏览器 |
| 部署 | Docker, C++ Serving, ONNX Runtime, TensorRT, OpenVINO |
| 多语言 SDK | Go, TypeScript, Java, C++, C# |
| 移动 | Android/iOS SDK |
被 6,500+ 个项目引用。这不是 popularity contest,而是下游项目用脚投票——做 RAG 和 Agent 的,绕不开文档解析这一步。
—
为什么现在看这个项目
三个趋势交汇:
1. RAG 需要文档输入 — 企业知识库 80% 是 PDF 和扫描件,没有 OCR 就没有 RAG 2. Agent 需要结构化数据 — 视觉 Agent(如 OmniParser)需要把屏幕/文档转成可操作的结构 3. 端侧推理成为刚需 — 0.9B VLM 跑在 CPU/移动端,隐私敏感场景不能上云
PaddleOCR 3.7.0 的发布节奏(2026.06.11)恰好卡在这三个趋势的交叉点上。
—
一个细节
PaddleOCR 的 VLM 路线(PaddleOCR-VL-1.x)和传统的 pipeline 路线(PP-OCRv6 + PP-StructureV3)是并行的,不是替代。VLM 更适合”理解”(这段文字在表格的什么位置、公式和上下文的关系),pipeline 更适合”精确提取”(坐标、字体、印章位置)。两者互补,覆盖不同场景。
这其实是百度飞桨团队的一个成熟思路:不赌单一路线,而是做全栈覆盖。
—
参考
– GitHub: https://github.com/PaddlePaddle/PaddleOCR – 官网: https://www.paddleocr.com – PaddleOCR-VL-1.6 论文: arXiv:2606.03264 – PaddleOCR 3.0 技术报告: arXiv:2507.05595
#OCR #文档解析 #VLM #RAG #Agent #PaddlePaddle #开源
