📄 PaddleOCR:从文档到结构化数据的工业级引擎

# 📄 PaddleOCR:从文档到结构化数据的工业级引擎 > **PaddlePaddle/PaddleOC...

📄 PaddleOCR:从文档到结构化数据的工业级引擎

> PaddlePaddle/PaddleOCR | Python | 84.6K ⭐ | Apache 2.0 > GitHub: https://github.com/PaddlePaddle/PaddleOCR

一句话定位

PaddleOCR 不是 “一个 OCR 工具”,而是文档 AI 的基础设施——把 PDF、图片、扫描件变成 LLM 能直接用的结构化数据(JSON/Markdown)。

被 Dify、RAGFlow、Cherry Studio、OmniParser 等头部项目直接集成。在 RAG 和 Agent 时代,它是图像/PDF 到文本的必经桥梁

三条产品线

1. PP-OCRv6 — 场景文字识别(2026.06 发布)

50 语言统一模型:中文、英文、日文 + 46 种拉丁语系,无需切换模型34.5M 参数(medium 版),跑在 CPU 上比主流 VLM 还快 – 5.2× CPU 加速(OpenVINO),Apple M4 上 6.1×,A100 GPU 0.13s – 三个 tier:tiny (1.5M) / small (7.7M) / medium (34.5M),覆盖边缘到服务器

一个关键数字:PP-OCRv6 的检测准确率比 PP-OCRv5 提升 4.6%,识别准确率提升 5.1%,而且超过了 Qwen3-VL-235B 和 GPT-5.5 等主流 VLM。用 34.5M 参数打赢 235B,这是架构优化的力量。

2. PaddleOCR-VL-1.6 — 文档解析 VLM(0.9B SOTA)

OmniDocBench v1.6 准确率 96.3%,开源 + 闭源方案中的新 SOTA – 0.9B 参数,NaViT 动态分辨率视觉编码器 + ERNIE-4.5-0.3B 语言模型 – 输出 Markdown 或 JSON,支持表格、公式、印章、图表、古籍、生僻字 – 长文档自动跨页表格合并、层级标题识别

这个模型的核心设计是资源效率。0.9B 参数,但文档解析能力超过很多 10B+ 的通用 VLM。它不是”能看懂图”,而是”专门懂文档”。

3. PP-StructureV3 — 结构化提取

– 细粒度坐标信息:表格单元格坐标、文本坐标、版面分析 – 与 PaddleOCR-VL 的区别:VL 侧重大段文本理解,StructureV3 侧重精确位置+结构 – 支持 Word/Excel/PowerPoint → Markdown 转换

生态集成:不只是工具,是基础设施

PaddleOCR 的集成矩阵:

集成方向项目/平台
Agent 工作流Dify, RAGFlow, Cherry Studio, Pathway
MCP官方 MCP Server,Agent 直接调用
LangChainlangchain-paddleocr 包
浏览器PaddleOCR.js SDK,PP-OCRv5 直接跑在浏览器
部署Docker, C++ Serving, ONNX Runtime, TensorRT, OpenVINO
多语言 SDKGo, TypeScript, Java, C++, C#
移动Android/iOS SDK

被 6,500+ 个项目引用。这不是 popularity contest,而是下游项目用脚投票——做 RAG 和 Agent 的,绕不开文档解析这一步。

为什么现在看这个项目

三个趋势交汇:

1. RAG 需要文档输入 — 企业知识库 80% 是 PDF 和扫描件,没有 OCR 就没有 RAG 2. Agent 需要结构化数据 — 视觉 Agent(如 OmniParser)需要把屏幕/文档转成可操作的结构 3. 端侧推理成为刚需 — 0.9B VLM 跑在 CPU/移动端,隐私敏感场景不能上云

PaddleOCR 3.7.0 的发布节奏(2026.06.11)恰好卡在这三个趋势的交叉点上。

一个细节

PaddleOCR 的 VLM 路线(PaddleOCR-VL-1.x)和传统的 pipeline 路线(PP-OCRv6 + PP-StructureV3)是并行的,不是替代。VLM 更适合”理解”(这段文字在表格的什么位置、公式和上下文的关系),pipeline 更适合”精确提取”(坐标、字体、印章位置)。两者互补,覆盖不同场景。

这其实是百度飞桨团队的一个成熟思路:不赌单一路线,而是做全栈覆盖

参考

– GitHub: https://github.com/PaddlePaddle/PaddleOCR – 官网: https://www.paddleocr.com – PaddleOCR-VL-1.6 论文: arXiv:2606.03264 – PaddleOCR 3.0 技术报告: arXiv:2507.05595

#OCR #文档解析 #VLM #RAG #Agent #PaddlePaddle #开源

发表回复

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网 沪ICP备2024052574号-1