Kan man ikke "bare" lave dynamiske maskiner hos f.eks. Azure eller Amazon, så findes der vel ingen måde hvorpå de kan kende ip-addressen.
Det gør der faktisk i mange tilfælde. For der er masser af mennesker som prøver at scrape Google på den måde, i større eller mindre projekter, og så snart du er på en ip der tidligere har været bot-lignende aktivitet på tidligere , er Google endnu hurtigere til at sætte den irriterende capha på (den med 9-12 billeder hvor man skal vælge vejskilte, butiksfacader, bjerge osv. ). Så snart du bruger tjenester hvor der er potentiel mulighed for at scrape Google, så er der ret sikkert andre der har fundet på det og gjort det, og dermed falder værdien, da ip´erne allerede er flagged på den ene eller anden måde. Sandsynligheden for at den ip du får tildelt allerede er forsøgt brugt til sracping er i hvert fald til stede.
Udover det skal man huske at Googles anti scraping system ser på hvor godt de kender brugeren der søger. Altså når jeg sidder på min egen arbejds-PC hvor jeg har et normalt søgemønster, er logget ind med min trustede Google konto, og har Cookies fra Google liggende, så skal der meget mere til at slå capcha til, end hvis man bruger en "ren" dynamisk Amazon maskine, uden at være logget ind, uden nogen positiv historik, uden nogle cookies og noget "normalt" forbrugsmønster, og hvor ip´ens eneste søgehistorik muligvis er andre tidligere forsøg på scraping.
Efter min erfaring er Google bare bedre til at beskytte sig imod (gratis) scraping end nogen andre. Jeg er faktisk ikke sikker på vi nogensinde har haft problemer med at scrape nogen andre end Google, altså når vi taler om større mængder data.
I langt de fleste tilfælde er det nok bare at have en ordentlig bunke proxier til rådighed (et betalt netværk af proxier er klart det bedste), og så ellers sørge for at holde sig under et vist antal forespørgsler pr. ip pr. minut alt efter hvem man scraper. Men det er ved at være lang tid siden det virkede ved Google.
Problemet i denne opgave er at det drejer sig om så potentielt mange mia forespørgsler, for at projektet hænger sammen, alternativet er nemlig at købe x-antal capcha indtastninger fra f.eks. indiske udbydere, som du kobler op på din scraper, og hver gang der kommer en capcha, så sidder der en inder og taster den manuelt ind, og så kan man køre lidt igen. Det giver dog ikke mening til denne opgave, men til nogle opgaver er det bestemt en løsning. Det virkede f.eks. fremragende dengang SE-Nuke var populært :-)