MinerU – 文件資料擷取工具

109次閱讀
尚無留言

MinerU(文件資料擷取工具) 簡介

MinerU 是一個一站式開源免費的文件資料擷取工具,主要包括兩個模組:Magic-PDF 和 Magic-Doc。

MinerU - 文件資料擷取工具

Magic-PDF 是一個 PDF 文件擷取工具,能夠將 PDF 文件轉換為 Markdown 格式。它支援本地檔案或對象儲存上的 PDF 檔案。主要特點包括:

1. 支援多種前端模型輸入
2. 去除頁眉、頁腳、註釋和頁碼
3. 保持原始文件的結構和格式,包括標題、段落、清單等
4. 擷取並顯示 Markdown 中的圖像和表格
5. 將方程式轉換為 LaTeX 格式
6. 自動檢測並轉換亂碼 PDF
7. 兼容 CPU 和 GPU 環境
8. 支援 Windows、Linux 和 macOS 平台

Magic-Doc 是一個網頁和電子書擷取工具,能夠將網頁或多種格式的電子書轉換為 Markdown 格式。主要特點包括:

1. 網頁擷取: 精確解析文字、圖像、表格和公式資訊
2. 電子書擷取: 支援 epub、mobi 等多種文件格式,完全適配文字和圖像
3. 語言類型識別: 準確識別 176 種語言

MinerU(文件資料擷取工具) 官網及

正文完
 0
評論(尚無留言)
验证码