百度發布新一代文字識別模型PP-OCRv5　主打高效精準超越通用VLM

百度發布新一代文字識別模型PP-OCRv5　

主打高效精準超越通用VLM

15/09/2025

25135

百度近日在 Hugging Face 平台推出新一代文字識別解決方案PP-OCRv5。該模型專為克服大型視覺語言模型（VLMs）在文本定位與邊界框精度上的局限而設計，主打高效、準確與輕量化，成為專用OCR領域的新突破。

百度表示，PP-OCRv5 採用模塊化的兩階段處理流程，專注於高速與精確的文本檢測與識別，能在結構化數據提取及內容分析中提供更高的準確性。其參數量僅0.07B，極為精簡，能在CPU及邊緣設備上實現優異表現。在英特爾Xeon Gold 6271C CPU上，移動版本每秒可處理超過370個字符，展現出高效能特性。

性能方面，PP-OCRv5 在多項專用OCR基準測試中均超越通用型 VLM 模型，包括 Gemini 2.5 Pro、Qwen2.5-VL 及 GPT-4o，尤其在手寫與印刷的中英文以及拼音識別上表現突出。該模型同時支持繁簡中文、英文、日文及拼音等五種文字類型，並能涵蓋超過40種語言，進一步拓展了應用場景。

據悉，PP-OCRv5由圖像預處理、文本檢測、文本方向判斷與文字識別四大核心環節構成，確保輸入標準化並提供精準識別。百度強調，這一解決方案不僅性能優異，亦為移動與邊緣計算場景帶來更實用的輕量級選擇。（編輯部）

主打高效精準超越通用VLM