Crawl4AI – 開源網頁爬蟲和網頁抓取工具

745次閱讀

Crawl4AI（開源網頁爬蟲和網頁抓取工具）簡介

Crawl4AI 是一個開源的網頁爬蟲和網頁抓取工具，旨在為大型語言模型 (LLM) 和人工智慧應用提供友善的資料輸出。透過提供高品質的網頁資料輸入以及快速、高效、全面的網頁爬取和抓取功能，可廣泛應用於各種資料抓取場景。

Crawl4AI - 開源網頁爬蟲和網頁抓取工具

具有以下主要特點:

完全免費開源，無需付費即可使用。
極快的爬取速度，效能超越許多付費服務。爬取速度是 Crawl4AI 的主要關注點之一。
輸出格式友善支援 LLM，包括 JSON、清理後的 HTML 和 Markdown 等。
支援同時爬取多個 URL，方便大規模爬取資料。
能夠抓取網頁中的所有媒體標籤，如圖像、音訊和視訊。
抓取頁面中的所有外部和內部連結。
抓取網頁的元資料資訊。
支援自定義認證、請求標頭和頁面修改鉤子。
使用者代理自定義，代理支援增強隱私和存取。
截取網頁螢幕截圖功能。
執行多個自定義 JavaScript 在爬取前操作網頁。
使用 JsonCssExtractionStrategy 無需 LLM 也可生成結構化輸出。
多種區塊提取策略: 主題聚類、正則表達式、句子等。
進階提取策略: 餘弦聚類、LLM 等。
支援 CSS 選擇器精確定位需抓取資料。
傳遞指令 / 關鍵詞以最佳化資料提取。
支援會話管理，適用於多頁面複雜場景爬取。
非同步架構設計，提升效能和擴展性。

Crawl4AI（開源網頁爬蟲和網頁抓取工具）開源地址及線上體驗

開源地址：https://github.com/unclecode/crawl4ai
線上體驗：https://crawl4ai.com/mkdocs/

正文完

发表至：新聞熱話

2024-10-04

0

iPhone 16機型機身曝光，新機將推出多種時尚新色

iPhone 17 Pro 及 iPhone 17 Pro Max 電池將變得更易更換

iPhone創下第三季度最佳銷量紀錄，全球市佔幾乎趕超三星

選擇 iPhone 17 Air ，Pro用戶很可能需要放棄這五個配置

蘋果推出iOS 17.6首個開發者測試版

iOS 19主打更智慧Siri 部分功能延至2026年推出

生態困境與價格下滑：蘋果Vision Pro面臨發展瓶頸

iPhone 16 Pro 耐用性暴力測試出爐，超薄邊框或成潛在缺陷

蘋果 iOS 18 全新二維碼方式分享 WiFi，安卓也能用

爆料稱蘋果或已找到iPhone 17 Air超薄螢幕供應商

評論（尚無留言）