Cloudflare 推出名為「AI 迷宮」的新功能,透過向未經授權抓取網頁內容的 AI 機器人提供虛假的 AI 生成內容。
網路基礎設施供應商Cloudflare近期宣布推出名為「AI Labyrinth」 (AI迷宮)的新功能,透過向網路爬蟲機器人提供虛假的AI生成內容,藉此打擊未經授權的內容抓取行為。
此功能主要阻止未經授權便以爬蟲機器人自動抓取網路資料,進而用於訓練人工智慧模型的行為,讓有此類行為的人工智慧公司即使透過爬蟲機器人抓取資料,實際上訓練的人工智慧模型也無法正確使用。
Cloudflare的作法相當有趣,並非單方面阻止爬蟲機器人挖掘資料,而是引誘其抓取看似真實,實際上卻是豪不相關的內容「迷宮」,進而造成使用爬蟲機器人挖掘資料的業者徒費資源。
從Cloudflare的看法認為,透過傳統限制存取的作法,實際上會產生更多設法突破限制的情形,因此設法透過虛假內容引誘爬蟲機器人抓取,反而能讓使用爬蟲機器人的人工智慧業者浪費更多資源,甚至必須花費時間重新挖掘資料,進而達成避免真正資料內容被不當取用情形發生。
因此在「AI Labyrinth」的運作原理中,一旦偵測未授權存取行為,當下並非直接限制其存取,而是將這些存取行為引導致一系列以AI生成的偽造內容。
而為了「說服」爬蟲機器人相信其抓取資料為真,透過AI生成內容實際上也是精心挑選,並且以真實資料訓練生成,同時也強調即使這些資料雖然作為誘騙爬蟲機器人使用,但其內容依然做到避免錯誤訊息傳播。
同時,這些AI生成內容不會讓一般用戶看見或連結存取,因此不會發生這些內容不慎出現在一般網頁的情況。
類似作法,過去的網路爬蟲機器人杜絕方式是透過一般人無法在網頁上看見的隱藏連結作為陷阱,藉此引誘網路爬蟲機器人存取,但後來的機器人已經可以順利識別此類陷阱,因此需要更複雜的作法欺騙網路爬蟲機器人。
在此之前,Cloudflare也曾推出一項簡單操作且免費的工具,讓網站經營者能快速杜絕內容被爬蟲機器人抓取,甚至影響網站整體存取效能的問題。
暂无评论内容