Surya(OCR 工具包)簡介
Surya 是一款功能強大的文檔 OCR 工具包,適用於多種類型的文檔的 OCR 識別處理,如掃描件、圖片、PDF、Word 等。可幫助我們執行以下任務:
- 多語種 OCR: 支持 90 多種語言的光學字符識別,識別準確率與雲端服務相當。
- 行級文本檢測: 能夠檢測任何語言的文本行及其邊界框。
- 布局分析: 識別文檔中的表格、圖像、標題等布局元素。
- 閱讀順序檢測: 確定文檔中各文本區域的閱讀順序。
該工具包的主要特點包括:
- 高精度 OCR: 在廣泛的基準測試中,Surya 的 OCR 精度優於 Tesseract,且接近谷歌雲視覺的水平。
- 跨平台支持: 可在 CPU 和 GPU 上運行,GPU 模式下速度更快。
- 簡單易用: 提供了命令行工具和 Python API,使用方便。
Surya(OCR 工具包)官網
除了面向個人和研究用途的免費使用外,Surya 還提供付費的商業授權選項,以資助其持續開發。
正文完