Da jeg for alt i verden ikke vil risikere duplicate content, vil jeg gerne beskytte min amerikanske Affiliate-side imod at blive scrapet uanset, om der sidder en og vil scrape siden i Rusland, Danmark eller USA.
Hvad er den mest effektive løsning på denne problemstilling?
Mvh
Thomas
Tekstforfatter - Jeg har 16 års erfaring fra reklamebureauer og som selvstændig. Ring: 2252 3381.
Der er ikke meget du kan gøre i forhold til at undgå scrapers på din engelske side, og du vil på et eller andet tidspunkt nok få besøg af dem. Én ting du kan gøre, og som vil hjælpe dig fremadrettet, er at gøre din side populær nok så den har massere af indgående links, så en eventuelt autogeneret blog med scrapet indhold fra din side ikke kommer til at ranke over dig.
Derudover kan du med fordel tilføje interne links i dine indlæg, så hver gang en scraper stjæler dit indlæg, så vil du få en såkaldt "trashback" - Også kan du let kontakte siden og få indholdet ned, selvom du nok vil blive ignoreret.
En anden god ting kan være at du ændre din RSS feed til resumé istedet for fuldt indhold, så vil du med stor sandsynlighed intet problem have.
Du kan sørge for at gøre Google opmærksom på, at du er den første til at udgive det indhold, du har på dit site. Resten (scraper-sites) vil så i Google's øjne være plagiater.
Alt efter omfanget af scrapingen, kan du anmode Google om at fjerne de(n) pågældende side(r), der kopierer dit indhold, fra deres indeks. Du kan anmode gennem denne formular.
http://en.wikipedia.org/wiki/Spider_trap er løsningen jeg har ikke helt fået mig sat ind i det men har hørt om flere der benytter metoden. du kan også prøve at google honey pot
"Det jeg gjorde var, at jeg lavede en ny php side (udenom wordpress) hvor jeg inkluderede et php script. Scriptet bliver eksekveret hver gang siden bliver requestet af en ip-adresse, der ikke er min egen. Scriptet logger ip-adressen på den maskine, som requester siden og tilføjer den til filen .htaccess på apache serveren med besked om, at denne ip-adresse ikke er velkommen længere. Denne php fil linker jeg så til i min wordpress template, så det er det første link en crawler vil støde på, når den scanner min html. Via css skjuler jeg dog linket, så ingen mennesker kommer til at klikke ind på siden. Til sidst angiver jeg i robots.txt at siden ikke må indekseres - da jeg ellers vil komme til at banne crawlere fra bl.a. Google."
citat esben rasmussen
så jo der er en løsning og tak for et skide godt trick til esben
http://en.wikipedia.org/wiki/Spider_trap er løsningen jeg har ikke helt fået mig sat ind i det men har hørt om flere der benytter metoden. du kan også prøve at google honey pot
Det er en mulighed.
Jeg bider dog mærke i " ... meaning that a "polite" web crawler is affected to a much lesser degree than an "impolite" crawler." fra http://en.wikipedia.org/wiki/Spider_trap. Så vær sikker på hvad du gør, før du gør det, så ikke kommer i unåde hos søgemaskinerne.
Jeg bider dog mærke i " ... meaning that a "polite" web crawler is affected to a much lesser degree than an "impolite" crawler." fra http://en.wikipedia.org/wiki/Spider_trap. Så vær sikker på hvad du gør, før du gør det, så ikke kommer i unåde hos søgemaskinerne.
jeg har tilføjet lidt mere info til mit indlæg ved ikke om du fik det med :-) og som sagt det er ikke en metode jeg selv har afprøvet endnu men når jeg får tid skal det klart afprøves.... man skal selvfølgelig sørge for at google bot ikke hopper i fælden men det skulle der også være en løsning på
Jeg bider dog mærke i " ... meaning that a "polite" web crawler is affected to a much lesser degree than an "impolite" crawler." fra http://en.wikipedia.org/wiki/Spider_trap. Så vær sikker på hvad du gør, før du gør det, så ikke kommer i unåde hos søgemaskinerne.
jeg har tilføjet lidt mere info til mit indlæg ved ikke om du fik det med :-) og som sagt det er ikke en metode jeg selv har afprøvet endnu men når jeg får tid skal det klart afprøves.... man skal selvfølgelig sørge for at google bot ikke hopper i fælden men det skulle der også være en løsning på
Uanset hvad, så takker jeg for input. Det bliver naturligvis lidt for teknisk til mig, men det lyder i hvert fald interessant, Jonas. Jeg videresender denne tråd til min programmør, så har han da noget at forholde sig til.
Dbh
Thomas
Tekstforfatter - Jeg har 16 års erfaring fra reklamebureauer og som selvstændig. Ring: 2252 3381.