Cloudflare 於 3 月 10 日為其 Browser Rendering 服務推出全新的 `/crawl` 端點(目前為 Open Beta 階段)。這項新功能允許開發者透過單一 API 呼叫來爬取整個網站,並能將內容自動轉換為 HTML、Markdown 或結構化 JSON 格式,為構建 AI 訓練資料集與 RAG(檢索增強生成)管道提供了強大且合規的利器。 (前情提要:Cloudflare重大故障致全球網路大規模癱瘓,「去中心化架構」才是基礎設施建設的未來?) (背景補充:Cloudflare 當機後 24 小時:網路為何「一倒就癱」?中心化風險到 Web3 與 RWA 未來) 隨著生成式 AI 與 RAG(檢索增強生成)技術的爆發式成長,如何高效且合規地獲取網站資料,成為了開發者面臨的首要挑戰。對此,網路基礎設施巨頭 Cloudflare 於 3 月 10 日正式宣布,為其 Browser Rendering(瀏覽器渲染)服務推出一項殺手級新功能:全新的 `/crawl` API 端點。 這項目前處於公開測試(Open Beta)階段的功能,主打讓開發者「只需一次 API 呼叫,就能爬取整個網站」。 非同步作業,支援 Markdown 與結構化 JSON 根據 Cloudflare 的公告,新的爬蟲 API 採用非同步(Asynchronous)運行模式。開發者只需提交一個起始網址,系統便會回傳一個任務 ID(Job ID),並在後台透過無頭瀏覽器(Headless Browser)自動發現與渲染網頁。開發者可隨時透過該 ID 查詢爬取進度與結果。 為了完美對接目前的 AI 開發工作流程,該 API 提供多種輸出格式。除了傳統的 HTML 之外,還能直接輸出深受 LLM(大型語言模型)喜愛的 Markdown 格式,以及由 Workers AI 驅動的結構化 JSON 格式。這將大幅減少開發者在資料清洗與格式轉換上所耗費的時間。 主打「乖寶寶」爬蟲,嚴守合規與防護機制 與市面上許多試圖繞過防護的惡意爬蟲不同,Cloudflare 這次推出的 `/crawl` 端點主打「合規與透明」。官方強調,該端點是一個已簽署的代理程式(Signed-agent),預設會嚴格遵守目標網站的 `robots.txt` 指令(包含爬取延遲限制),並且尊重 Cloudflare 自家的「AI Crawl Control(AI 爬取控制)」規範。 此外,Cloudflare 也明確表示,這款工具「會自我表明為機器人」,並且無法繞過 Cloudflare 的機器人偵測系統或 Captcha 驗證碼。這項設計確保了爬蟲行為不會對網站擁有者的意願與伺服器造成侵犯。 增量爬取省成本,免費方案即可體驗 為了提升效率與降低成本,該 API 還內建了多項進階控制功能: 增量爬取(Incremental crawling):支援 `modifiedSince` 與 `maxAge` 參數,可自動跳過未更改或近期已抓取的頁面,節省重複爬取的運算成本。 精細的範圍控制:開發者可自訂爬取深度、頁面數量上限,並使用萬用字元(Wildcard)來包含或排除特定的 URL 路徑。 靜態模式(Static mode):針對不需要渲染 JavaScript 的純靜態網站,可設定 `render: false` 以跳過無頭瀏覽器的啟動過程,實現極速抓取。 目前,這項強大的爬蟲功能已全面開放給 Cloudflare Workers 的「免費版」與「付費版」用戶使用。這對於需要定期監控網站內容、搜集研究資料,或是打造企業級 AI 知識庫的開發團隊而言,無疑是一項極具吸引力的基礎設施升級。 相關報導 Coinbase 與 Cloudflare 推出的 x402 協議,如何重新打造網路支付革命? 深度分析》Cloudflare 推出穩定幣「NET Dollar」背後在下一盤什麼大棋? Cloudflare 鋪設的「AI 微交易未來」: NET Dollar 穩定幣、E-mail 郵件組合拳〈幫你擋爬蟲的 Cloudflare 推出「一鍵全站爬蟲 API」,完美支援 RAG、增量更新與模型訓練〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。