단일 IP 주소로 Amazon에서 위조 상품 목록을 스크래핑하면 처음 100개 요청 내에 60~80%가 실패합니다. 마켓플레이스는 요청자의 지리적 출신, 기기 지문, 이전 검색 기록에 따라 서로 다른 상품 페이지, 가격, 판매자 이름을 제공합니다. 여러 국가와 ASN을 순회하는 프록시 풀이 없으면 상표권 침해 조사에서 꼭 잡아야 할 목록을 놓치게 됩니다. 자카르타의 구매자, 선전의 판매자, 상파울루의 리셀러에게만 보이는 목록 말입니다.
지역별 목록 차이와 프록시 풀의 필수성
Amazon, eBay, Alibaba, Shopee, Lazada는 모두 지역 인식 콘텐츠 전송을 구현합니다. Amazon.com에서 "Rolex Submariner"를 검색하면 Amazon.de나 Amazon.co.jp에서 동일한 검색어로 조회한 결과와 다릅니다. 위조 상품 판매자들은 이를 악용합니다. 브랜드 보호 팀의 모니터링이 덜 엄격한 지역 서브도메인에 침해 상품을 등록하는 것입니다. 동일한 제품이 amazon.com에서는 정품으로 보이지만 amazon.in에서는 위조품으로 나타날 수 있습니다. 단, 인도 거주자 IP로 조회할 때만 그렇습니다.
최소 50~100개의 출구 노드를 대상 마켓플레이스의 주요 지역(미국, 독일, 일본, 중국, 인도, 브라질, 동남아시아)에 분산 배치한 프록시 풀이 최소 요구 사항입니다. 각 노드는 데이터센터 IP가 아닌 가정용 또는 모바일 IP여야 합니다. 마켓플레이스가 데이터센터 대역을 적극적으로 차단하기 때문입니다. Alibaba에서 데이터센터 전용 풀의 실패율은 처음 200개 요청 이후 90%를 초과합니다. 10~30개 요청마다 IP를 교체하고, 요청별로 User-Agent 헤더를 무작위화하여 해당 지역의 기기 프로필과 일치시키십시오.
법적으로 유효한 삭제 요청을 위한 증거 수집
DMCA 또는 Alibaba의 IP 보호 플랫폼에 제출하는 삭제 요청에는 URL만으로는 부족합니다. 특정 시간, 특정 지리적 관점에서 해당 목록이 존재했으며 귀하의 상표를 침해한다는 사실을 증명해야 합니다. 즉, 전체 HTTP 응답 헤더(Amazon의 경우 Date, Content-Type, Set-Cookie, X-Amz-Rid 포함), URL 표시줄이 보이는 목록 페이지 스크린샷, 상품 설명 및 판매자 정보의 원시 HTML을 캡처해야 합니다.
프록시 순환 미들웨어로 구동되는 Puppeteer 또는 Playwright 같은 헤드리스 브라우저를 사용하십시오. 다음 셸 스니펫은 curl을 프록시와 헤더 덤프와 함께 사용한 단일 캡처 예시입니다. 하지만 프로덕션에서는 JavaScript로 로드되는 콘텐츠를 렌더링하기 위해 전체 브라우저가 필요합니다.
curl -v --proxy "http://user:pass@res-proxy-1.example.com:3128" \
-H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36" \
-o listing.html \
-D response_headers.txt \
"https://www.amazon.com/dp/B0EXAMPLE"
헤더, 원시 HTML, PNG 스크린샷을 마켓플레이스 이름, 목록 ID, 타임스탬프로 명명된 디렉터리에 저장하십시오. 이 세 부분으로 구성된 증거 번들은 Amazon의 Brand Registry와 Alibaba의 IPP 팀이 24~48시간 내에 삭제 요청을 처리하는 데 필요합니다. 요청이 대상 지역에서 왔음을 증명하는 프록시 출처 헤더가 없으면 플랫폼이 "지리적 관련성 불충분"을 이유로 요청을 거부할 수 있습니다.
지역별 일일 모니터링 워크플로
지역별로 6~12시간마다 실행되는 cron 작업 또는 Kubernetes CronJob을 설정하십시오. 각 실행은 전용 프록시 풀 세그먼트를 사용하는 별도의 Scrapy 또는 사용자 정의 Python 프로세스를 생성합니다. 프록시 풀은 "지역 코호트"로 나누어야 합니다. 예를 들어 US-West에 20개 IP, EU-West에 20개, APAC-Southeast에 20개입니다. IP 블랙리스트를 피하기 위해 전체 코호트를 24시간마다 교체하십시오. 5개 마켓플레이스에서 10,000개의 제품 ASIN을 매일 스위핑하는 일반적인 작업은 약 500~1,000개의 고유 IP를 소비합니다.
모든 요청의 프록시 IP, 응답 상태, 지연 시간을 기록하십시오. 성공률의 급격한 하락을 모니터링하십시오. 20% 하락은 프록시 제공업체가 IP를 재활용하거나 마켓플레이스가 봇 탐지를 업데이트했음을 의미합니다. 그런 경우 백업 제공업체로 전환하거나 교체 빈도를 조정하십시오. 단일 프록시 공급업체에 의존하지 말고, 장애 조치를 위해 최소 두 개의 서로 다른 가정용 프록시 네트워크와 계약을 유지하십시오.
흔한 실수 중 하나는 과도한 교체입니다. 모든 요청마다 IP를 변경하면 eBay와 Shopee에서 속도 제한 패턴이 유발되어 오히려 차단이 증가합니다. 더 나은 리듬은 IP당 10~15개 요청을 보내고 그 사이에 2~5초의 무작위 지연을 두는 것입니다. 이는 인간의 브라우징 행동을 모방하여 지속적인 크롤링에서 95% 이상의 성공률을 유지합니다.
트레이드오프: 지연 시간, 비용, 탐지 회피
가정용 프록시는 느립니다. 중간 왕복 시간이 2~5초인 반면 데이터센터 IP는 200ms입니다. 이 지연 시간은 10,000 ASIN 스위프에서 누적되어 지역당 6~8시간이 소요됩니다. 여러 프로세스로 병렬화할 수 있지만 각 프로세스는 상관 관계를 피하기 위해 자체 IP가 필요합니다. 브랜드 모니터링을 위한 고품질 가정용 프록시 풀의 비용은 지역당 월 $300~$800입니다. 데이터센터 프록시는 더 저렴하지만 이 사용 사례에는 쓸모가 없습니다. 몇 분 안에 탐지되어 실행 가능한 증거를 전혀 제공하지 못합니다.
지름길은 없습니다. 너무 작거나 너무 균일한 프록시 풀은 위조 상품 목록에서 60%의 위음성률을 초래합니다. 너무 크고 너무 공격적으로 교체하는 풀은 IP 블랙리스트를 유발하고 예산을 낭비합니다. 올바른 균형은 중간 크기의 풀(100~200 IP)에 지역별 세분화, 적절한 교체, 성공 지표의 지속적인 모니터링입니다. 이것이 삭제 절차에서 인정받을 수 있는 증거를 확보하고, 파편화된 글로벌 마켓플레이스 환경에서 브랜드를 보호할 수 있는 유일한 방법입니다.