被壞爬蟲薅羊毛,雙重應對策略讓電商惡意爬蟲比例降至不足1/3|創新場景
場景描述
受巨大的商業利益驅動,爬蟲現象普遍存在於各行各業,如高科技與金融、旅遊與酒店、數字媒體、電子商務、社交媒體等。其中,電商領域的爬蟲現象顯著高於其他行業。
善意的爬蟲如搜索引擎,它們爲信息流通與檢索提供了便利,有助於提升企業的網絡可見度和營收;中性的爬蟲則涉及了許多提供“爬蟲即服務”的公司,如Web scraping bots、BrightData等,它們旨在幫助用戶進行信息收集與聚合,從事市場調研、競品分析等非惡意活動,但這類工具也許會被不當使用與濫用;有害的爬蟲也就是“壞爬蟲”,可能從事撞庫攻擊、庫存抓取等惡意行爲,不僅威脅到用戶的賬戶安全,也會嚴重損害企業利益與安全。
那麼,在實際應用中,不法分子是如何利用爬蟲技術從電商領域獲利的呢?鈦媒體App瞭解到,爬蟲玩轉了“全網最低價”策略,首先是廣泛蒐集各銷售網站數據,包括產品價格、庫存等關鍵信息;通過對比分析,找出價格最優、優惠力度最大的電商平臺。基於這些信息,轉而在另一個平臺上開設自己的店鋪,以準新或全新未開封的產品進行轉售,利用價格優勢實現盈利。甚至還可能利用腳本搶佔庫存、購買促銷商品後轉售牟利,給電商生態帶來潛在威脅。
值得注意的是,隨着技術的進步,融入了AI和機器學習技術的爬蟲服務也日益智能化,它們能自動從多個數據源抓取內容,通過預設的邏輯進行數據抽取與分析,這種一站式解決方案無疑是把雙刃劍。尤其對電商網站的所有者來說,爬蟲技術演進後,其隱蔽性越來越強,特別是採用“無頭瀏覽器”等技術的爬蟲已經能模擬人類訪問行爲,使得傳統安全手段難以有效識別與攔截。此外,不斷氾濫的爬蟲還會不斷變化,一次防禦過後,下一次還可能會出現變種,這對企業構成了巨大的挑戰。
解決方案
點擊報名參與創新場景50的評選
Akamai北亞區技術總監劉燁告訴鈦媒體App,面對日趨複雜的網絡爬蟲,企業的應對策略應分而治之,以確保好的爬蟲能夠正常訪問,而對壞的爬蟲進行處理。這就要求,首先要能夠識別爬蟲,其次,針對不同類型的爬蟲再採取相應的應對措施。
識別的核心,即如何分析行爲並利用數據庫查看特徵。具體來看有兩種方法:第一種方法是通過觀察足夠多的請求,建立一個大型數據庫,用於記錄並分析請求的特徵。如果請求來自惡意爬蟲,則需要識別其來源和特徵。第二種方法是判斷數據庫之外的請求是人還是爬蟲,需要分析其行爲,以確定是否可能影響企業敏感信息或對電商網站造成不利影響。
針對識別出的壞爬蟲,下一步則是考慮採取什麼樣的應對方法。劉燁表示:“通常我們提到的應對措施是針對其它產品,如應用防火牆(WAF),其主要模式是‘報警’和‘阻止’。然而處理爬蟲時,通常不是簡單地阻攔或禁止,而是管理它們。一旦識別出爬蟲,即使是惡意爬蟲,也應該採取不同的處理方式。”
處理爬蟲的方法可以有多種不同選擇。例如,可以選擇不禁止它,但不做任何響應,讓它誤以爲連接仍在進行;或者是給它提供虛假信息,例如在它抓取價格時返回給它一個虛假的價格;當然也可以選擇直接禁止它。以上措施一般是根據實際情況進行動態調整。
具體到Akamai的做法,其提出了雙重應對策略。首先,在邊緣網絡層面,利用預定義的訪問異常特徵和協議指紋來快速識別並限制惡意爬蟲。其次,通過深入分析訪問行爲(如鼠標移動軌跡、鍵盤敲擊模式)和設備指紋,結合機器學習模型,進一步細化識別精度,確保對潛在威脅的精準打擊。
同時,面對AI加持下不斷變化的爬蟲,企業和安全廠商也應採取更多自動化策略。當出現新的攻擊類型時,不需要人爲干預,策略引擎能夠自動部署新的策略,有針對性地阻止這些新攻擊。這是應對快速變化的攻擊類型和產品演進的重要措施。
成效
關於電商場景中可能遇到的爬蟲問題,包含三個具體例子,分別針對爬蟲識別、被動成本、“撞庫”威脅。
第一個例子是對電商網站高風險爬蟲的識別管理。通過一週的監測,Akamai判斷出某客戶電商網站的人類訪問、高風險爬蟲、中風險爬蟲、善意爬蟲類型,識別出使用高級腳本的惡意爬蟲比例高達97%,進行爬蟲管理後,這一比例降至不到1/3,有效禁掉了大部分高風險爬蟲。
第二個案例是針對爬蟲帶來的被動成本威脅。當企業短信接口被爬蟲觸發時,頻繁的短信發送導致了成本損失。通過爬蟲管理平臺能夠識別並處理這類爬蟲,從而降低費用損失。
第三個案例涉及“撞庫”類型的爬蟲。企業在日誌中發現大量“訪問不成功”的信息,這則是明顯的撞庫請求。通過有效過濾來提升賬戶安全,確保業務安全。(本文首發鈦媒體APP 作者 | 賈雨微)
點擊進入2024 ITValue Summit數字價值年會,瞭解更多信息。