PDF Craft(PDF 檔案格式轉換器)簡介
PDF Craft 是一個 PDF 檔案格式轉換器,開源免費,能夠幫助我們非常方便地將 PDF 檔案轉換為多種其他格式,該工具能夠逐頁讀取 PDF 檔案,結合 DocLayout-YOLO 模型和自訂演算法,從書頁中提取文字,並過濾掉頁首、頁尾、註腳和頁碼等元素。在跨頁處理過程中,演算法能有效解決前後頁面之間的連接問題,最終產生語意連貫的文字。
該工具採用 OnnxOCR 進行文字識別,並使用 layoutreader 確定符合人類閱讀習慣的閱讀順序。對於小型文件或論文,用戶可以將 PDF 轉換為 Markdown 格式,這一過程完全依賴本地計算能力,無需呼叫遠端 LLM(大型語言模型)。在遇到插圖、表格和公式時,相關截圖會直接插入到 Markdown 檔案中。
對於較大的書籍(通常超過 100 頁),推薦將其轉換為 EPUB 格式。在轉換過程中,該工具也會將本地 OCR 識別的資料傳遞給 LLM,以建構書籍的結構,並最終產生帶有目錄和章節的 EPUB 檔案。此外,LLM 還可在一定程度上糾正 OCR 識別錯誤。

透過使用該工具,我們可以輕鬆實現從 PDF 到 Markdown 或 EPUB 的轉換,提升文件處理效率,適合科研人員、學生及圖書愛好者。
PDF Craft(PDF 檔案格式轉換器)官網及安裝教程
安裝教程
首先需要 python 3.10 或以上(推薦 3.10.16)。
pip install pdf-craft | |
pip install onnxruntime==1.21.0 |
使用 CUDA
如果你希望使用 GPU 加速,需要確保你的裝置已準備好 CUDA 環境,根據你的作業系統安裝選擇適當的命令安裝。此外,將前文安裝 onnxruntime 的命令替換成如下:
pip install onnxruntime-gpu==1.21.0
正文完