📄 PaddleOCR：从文档到结构化数据的工业级引擎

> PaddlePaddle/PaddleOCR | Python | 84.6K ⭐ | Apache 2.0 > GitHub: https://github.com/PaddlePaddle/PaddleOCR

—

一句话定位

PaddleOCR 不是 “一个 OCR 工具”，而是文档 AI 的基础设施——把 PDF、图片、扫描件变成 LLM 能直接用的结构化数据（JSON/Markdown）。

被 Dify、RAGFlow、Cherry Studio、OmniParser 等头部项目直接集成。在 RAG 和 Agent 时代，它是图像/PDF 到文本的必经桥梁。

—

三条产品线

1. PP-OCRv6 — 场景文字识别（2026.06 发布）

– 50 语言统一模型：中文、英文、日文 + 46 种拉丁语系，无需切换模型 – 34.5M 参数（medium 版），跑在 CPU 上比主流 VLM 还快 – 5.2× CPU 加速（OpenVINO），Apple M4 上 6.1×，A100 GPU 0.13s – 三个 tier：tiny (1.5M) / small (7.7M) / medium (34.5M)，覆盖边缘到服务器

一个关键数字：PP-OCRv6 的检测准确率比 PP-OCRv5 提升 4.6%，识别准确率提升 5.1%，而且超过了 Qwen3-VL-235B 和 GPT-5.5 等主流 VLM。用 34.5M 参数打赢 235B，这是架构优化的力量。

2. PaddleOCR-VL-1.6 — 文档解析 VLM（0.9B SOTA）

– OmniDocBench v1.6 准确率 96.3%，开源 + 闭源方案中的新 SOTA – 0.9B 参数，NaViT 动态分辨率视觉编码器 + ERNIE-4.5-0.3B 语言模型 – 输出 Markdown 或 JSON，支持表格、公式、印章、图表、古籍、生僻字 – 长文档自动跨页表格合并、层级标题识别

这个模型的核心设计是资源效率。0.9B 参数，但文档解析能力超过很多 10B+ 的通用 VLM。它不是”能看懂图”，而是”专门懂文档”。

3. PP-StructureV3 — 结构化提取

– 细粒度坐标信息：表格单元格坐标、文本坐标、版面分析 – 与 PaddleOCR-VL 的区别：VL 侧重大段文本理解，StructureV3 侧重精确位置+结构 – 支持 Word/Excel/PowerPoint → Markdown 转换

—

生态集成：不只是工具，是基础设施

PaddleOCR 的集成矩阵：

集成方向	项目/平台
Agent 工作流	Dify, RAGFlow, Cherry Studio, Pathway
MCP	官方 MCP Server，Agent 直接调用
LangChain	langchain-paddleocr 包
浏览器	PaddleOCR.js SDK，PP-OCRv5 直接跑在浏览器
部署	Docker, C++ Serving, ONNX Runtime, TensorRT, OpenVINO
多语言 SDK	Go, TypeScript, Java, C++, C#
移动	Android/iOS SDK

被 6,500+ 个项目引用。这不是 popularity contest，而是下游项目用脚投票——做 RAG 和 Agent 的，绕不开文档解析这一步。

—

为什么现在看这个项目

三个趋势交汇：

1. RAG 需要文档输入 — 企业知识库 80% 是 PDF 和扫描件，没有 OCR 就没有 RAG 2. Agent 需要结构化数据 — 视觉 Agent（如 OmniParser）需要把屏幕/文档转成可操作的结构 3. 端侧推理成为刚需 — 0.9B VLM 跑在 CPU/移动端，隐私敏感场景不能上云

PaddleOCR 3.7.0 的发布节奏（2026.06.11）恰好卡在这三个趋势的交叉点上。

—

一个细节

PaddleOCR 的 VLM 路线（PaddleOCR-VL-1.x）和传统的 pipeline 路线（PP-OCRv6 + PP-StructureV3）是并行的，不是替代。VLM 更适合”理解”（这段文字在表格的什么位置、公式和上下文的关系），pipeline 更适合”精确提取”（坐标、字体、印章位置）。两者互补，覆盖不同场景。

这其实是百度飞桨团队的一个成熟思路：不赌单一路线，而是做全栈覆盖。

—

参考

– GitHub: https://github.com/PaddlePaddle/PaddleOCR – 官网: https://www.paddleocr.com – PaddleOCR-VL-1.6 论文: arXiv:2606.03264 – PaddleOCR 3.0 技术报告: arXiv:2507.05595

#OCR #文档解析 #VLM #RAG #Agent #PaddlePaddle #开源