百度PaddleOCR-VL正式上线，全球文档解析赛道迎来“轻量级王者”-AITOP100,AI资讯

2025年10月16日，百度正式开源自研多模态文档解析模型PaddleOCR-VL，以“小体积、大能量”的姿态搅动OCR技术江湖。该模型在全球权威评测OmniBenchDoc V1.5中以92.6分登顶综合性能榜首，将文本、表格、公式及阅读顺序四大核心能力提升至行业新高度。谁能想到，一个仅0.9B参数的“轻量选手”，竟能碾压众多“大块头”模型？

参数“瘦身”却能力“超标”，109种语言通吃全球场景

传统OCR模型常因参数臃肿导致计算成本高企，而PaddleOCR-VL-0.9B通过升级至动态分辨率视觉编码器NaViT与ERNIE-4.5-0.3B语言模型，实现了“小参数、高精度”的突破。它不仅能精准识别文本、手写汉字、表格、公式及图表，更支持109种语言，覆盖中文、英语、法语、日语、俄语、阿拉伯语等主流场景。无论是政企文档管理、科研信息抽取，还是历史档案数字化，它都能像“人类阅读者”一样理解版面结构，自动恢复符合逻辑的阅读顺序。

举个例子，面对财务表格中嵌套的公式与手写批注，传统模型可能“抓瞎”，但PaddleOCR-VL能通过两阶段架构——先预测阅读顺序，再结构化输出元素——确保信息提取的准确性和逻辑性。这种设计让它在复杂文档、手写稿识别等高难度场景中稳如磐石。

推理速度狂飙，A100 GPU上每秒处理1881个Token

如果说精度是PaddleOCR-VL的“盾”，那么速度就是它的“矛”。在一张A100 GPU上，该模型每秒可处理1881个Token，较主流模型MinerU2.5快14.2%，比dots.ocr更是提升了253.01%。这意味着什么？假设你需要数字化一本100页的古籍，用PaddleOCR-VL可能只需喝杯咖啡的时间，而传统模型可能让你等到下午茶。

对比表格：PaddleOCR-VL vs 主流OCR模型

维度	PaddleOCR-VL-0.9B	MinerU2.5	dots.ocr
参数规模	0.9B	3.2B	2.5B
推理速度	1881 Token/s	1647	467
文本编辑距离	0.035	0.052	0.089
公式识别CDM	91.43	85.67	78.32

文心4.5基因加持，动态分辨率编码器成秘密武器

作为文心4.5的衍生模型，PaddleOCR-VL的核心竞争力源于其创新架构。NaViT动态分辨率视觉编码器能根据文档复杂度自动调整“观察视角”，就像人类阅读时会自动聚焦关键信息；而ERNIE-4.5-0.3B语言模型则赋予其“理解力”，让识别结果更符合语义逻辑。这种软硬结合的设计，让模型在OmniDocBench v1.5评测中交出了一份“近乎满分”的答卷：表格TEDS达93.52，阅读顺序预测误差仅0.043。

行业影响：从“工具”到“生态”，百度布局智能文档处理新赛道

PaddleOCR-VL的开源不仅是一次技术突破，更是百度构建智能文档处理生态的关键一步。目前，该模型已支持通过API快速集成至现有系统，开发者可基于其轻量特性部署至边缘设备，降低中小企业数字化门槛。据内部人士透露，百度未来计划联合政企客户打造“行业专属技能包”，进一步深耕金融、医疗、教育等垂直领域。

相关冷知识：OCR技术最早可追溯至20世纪50年代，但直到深度学习时代才实现“从识别到理解”的跨越。PaddleOCR-VL的诞生，标志着这一领域正式进入“多模态理解”阶段。

想了解 AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

aitop100官方交流30群