百度發布新一代文字識別模型PP-OCRv5 

主打高效精準超越通用VLM
15/09/2025
3571
收藏
分享
主打高效精準超越通用VLM

百度近日在 Hugging Face 平台推出新一代文字識別解決方案PP-OCRv5。該模型專為克服大型視覺語言模型(VLMs)在文本定位與邊界框精度上的局限而設計,主打高效、準確與輕量化,成為專用OCR領域的新突破。

百度表示,PP-OCRv5 採用模塊化的兩階段處理流程,專注於高速與精確的文本檢測與識別,能在結構化數據提取及內容分析中提供更高的準確性。其參數量僅0.07B,極為精簡,能在CPU及邊緣設備上實現優異表現。在英特爾Xeon Gold 6271C CPU上,移動版本每秒可處理超過370個字符,展現出高效能特性。

性能方面,PP-OCRv5 在多項專用OCR基準測試中均超越通用型 VLM 模型,包括 Gemini 2.5 Pro、Qwen2.5-VL 及 GPT-4o,尤其在手寫與印刷的中英文以及拼音識別上表現突出。該模型同時支持繁簡中文、英文、日文及拼音等五種文字類型,並能涵蓋超過40種語言,進一步拓展了應用場景。

據悉,PP-OCRv5由圖像預處理、文本檢測、文本方向判斷與文字識別四大核心環節構成,確保輸入標準化並提供精準識別。百度強調,這一解決方案不僅性能優異,亦為移動與邊緣計算場景帶來更實用的輕量級選擇。(編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報