PDF Craft – 基於 AI 的 PDF 檔案格式轉換器

31次閱讀
尚無留言

PDF Craft(PDF 檔案格式轉換器)簡介

PDF Craft 是一個 PDF 檔案格式轉換器,開源免費,能夠幫助我們非常方便地將 PDF 檔案轉換為多種其他格式,該工具能夠逐頁讀取 PDF 檔案,結合 DocLayout-YOLO 模型和自訂演算法,從書頁中提取文字,並過濾掉頁首、頁尾、註腳和頁碼等元素。在跨頁處理過程中,演算法能有效解決前後頁面之間的連接問題,最終產生語意連貫的文字。

該工具採用 OnnxOCR 進行文字識別,並使用 layoutreader 確定符合人類閱讀習慣的閱讀順序。對於小型文件或論文,用戶可以將 PDF 轉換為 Markdown 格式,這一過程完全依賴本地計算能力,無需呼叫遠端 LLM(大型語言模型)。在遇到插圖、表格和公式時,相關截圖會直接插入到 Markdown 檔案中。

對於較大的書籍(通常超過 100 頁),推薦將其轉換為 EPUB 格式。在轉換過程中,該工具也會將本地 OCR 識別的資料傳遞給 LLM,以建構書籍的結構,並最終產生帶有目錄和章節的 EPUB 檔案。此外,LLM 還可在一定程度上糾正 OCR 識別錯誤。

PDF Craft - 基於 AI 的 PDF 檔案格式轉換器

透過使用該工具,我們可以輕鬆實現從 PDF 到 Markdown 或 EPUB 的轉換,提升文件處理效率,適合科研人員、學生及圖書愛好者。

PDF Craft(PDF 檔案格式轉換器)官網及安裝教程

安裝教程

首先需要 python 3.10 或以上(推薦 3.10.16)。

pip install pdf-craft
pip install onnxruntime==1.21.0

使用 CUDA

如果你希望使用 GPU 加速,需要確保你的裝置已準備好 CUDA 環境,根據你的作業系統安裝選擇適當的命令安裝。此外,將前文安裝 onnxruntime 的命令替換成如下:

pip install onnxruntime-gpu==1.21.0
正文完
 0
評論(尚無留言)
验证码