單一 IP 位址在 Amazon 上抓取仿冒商品列表時,在前 100 個請求中就有 60-80% 的失敗率。該市集會根據請求者的地理位置、裝置指紋以及先前的瀏覽歷史,提供不同的商品頁面、價格和賣家名稱。如果沒有能夠在多個國家和 ASN 之間輪換的代理池,您的商標侵權掃描將會錯過那些您需要抓到的列表——那些只有雅加達的買家、深圳的賣家或聖保羅的經銷商才能看到的列表。
地理列表差異與代理池的必要性
Amazon、eBay、Alibaba、Shopee 和 Lazada 都實作了區域感知的內容傳遞。在 Amazon.com 上搜尋「Rolex Submariner」會得到與在 Amazon.de 或 Amazon.co.jp 上相同查詢不同的結果。仿冒者利用這一點:他們在品牌保護團隊監控較不嚴格的區域子網域上列出侵權商品。同一件商品在 amazon.com 上可能顯示為正品,但在 amazon.in 上卻是仿冒品——而且只有當您從印度住宅 IP 查詢時才會看到。
一個至少擁有 50–100 個出口節點、分佈在目標市集主要地區(美國、德國、日本、中國、印度、巴西和東南亞)的代理池,是最低可行的覆蓋範圍。每個節點應該是住宅或行動 IP,而非資料中心 IP,因為市集會積極標記資料中心範圍。僅使用資料中心代理池在 Alibaba 上的失敗率在 200 個請求後超過 90%。每 10–30 個請求輪換一次 IP,並隨機化每個請求的 User-Agent 標頭,以匹配該地區的裝置設定檔。
合法下架通知的證據擷取
根據 DMCA 或 Alibaba 的 IP 保護平台提交下架通知,需要的不僅僅是一個 URL。您必須證明該列表在特定時間、從特定地理視角存在,並且侵犯了您的商標。這意味著要擷取完整的 HTTP 回應標頭(包括 Amazon 的 Date、Content-Type、Set-Cookie 和 X-Amz-Rid)、顯示 URL 列的列表頁面截圖,以及產品描述和賣家資訊的原始 HTML。
使用像 Puppeteer 或 Playwright 這樣的無頭瀏覽器,並由代理輪換中介軟體驅動。以下 shell 片段示範了使用 curl 搭配代理和標頭轉儲進行單次擷取——但在生產環境中,您會需要完整的瀏覽器來渲染 JavaScript 載入的內容:
curl -v --proxy "http://user:pass@res-proxy-1.example.com:3128" \
-H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36" \
-o listing.html \
-D response_headers.txt \
"https://www.amazon.com/dp/B0EXAMPLE"
將標頭、原始 HTML 和 PNG 截圖儲存在以市集名稱、列表 ID 和時間戳命名的目錄中。這個三部分的證據套件是 Amazon 的品牌註冊和 Alibaba 的 IPP 團隊在 24–48 小時內處理下架所需的內容。如果沒有代理來源的標頭證明請求來自目標地區,平台可能會以「地理相關性不足」為由拒絕通知。
跨地區的每日監控工作流程
設定一個 cron job 或 Kubernetes CronJob,每個地區每 6–12 小時執行一次。每次執行會產生一個獨立的 Scrapy 或自訂 Python 程序,並搭配專用的代理池區段。代理池應劃分為「地理群組」——例如,美國西部 20 個 IP、歐盟西部 20 個 IP、亞太東南區 20 個 IP。每 24 小時輪換整個群組,以避免 IP 被封鎖。一個典型的每日掃描,橫跨五個市集掃描 10,000 個產品 ASIN,大約需要 500–1,000 個唯一 IP。
記錄每個請求的代理 IP、回應狀態和延遲。監控成功率的突然下降——下降 20% 表示代理供應商正在回收 IP,或者市集已更新其機器人偵測。發生這種情況時,切換到備用供應商或調整輪換頻率。不要依賴單一代理供應商;至少與兩個不同的住宅代理網路簽訂合約以進行容錯轉移。
一個常見的錯誤是過度輪換。在每個請求上都更換 IP 會觸發 eBay 和 Shopee 上的速率限制模式,反而增加封鎖。更好的節奏是每個 IP 發送 10–15 個請求,並在它們之間加入 2–5 秒的隨機延遲。這模擬了人類瀏覽行為,並使持續爬蟲的成功率保持在 95% 以上。
取捨:延遲、成本與偵測規避
住宅代理速度較慢——中位數往返時間為 2–5 秒,而資料中心 IP 為 200 毫秒。這種延遲在掃描 10,000 個 ASIN 時會累積:每個地區預計需要 6–8 小時。您可以跨多個程序進行平行處理,但每個程序需要自己的 IP 以避免關聯。用於品牌監控的高品質住宅代理池成本為每個地區每月 $300–$800。資料中心代理較便宜,但對此用例無用——它們在幾分鐘內就會被偵測到,且無法產生任何可採取行動的證據。
沒有捷徑。代理池太小或過於同質化,會在仿冒列表上產生 60% 的偽陰性率。代理池太大且輪換過於激進,則會觸發 IP 黑名單並浪費預算。正確的平衡是中等規模的代理池(100–200 個 IP),具有地理特定分區、適度輪換以及持續監控成功指標。這是唯一能夠擷取在下架程序中站得住腳的證據的方法——也是唯一能夠在碎片化的全球市集中保護品牌的方法。