Skal du bruge robots.txt

En lile hurtig om robots.txt - og dette er bestemt ikke en udførlig guide. Tag det som en inspiration til at løse nogle af de problemer, du måske sidder med i forhold til at have indhold i søgemaskinerne, du faktisk helst ikke vil have der. Det kan være dine login sider, PDF filer og andet der genererer duplicate content osv. Til sidst får du nogle gode links til at lære mere.

Nørdeniveau: Medium

Lad mig lige starte med at advare: Hvis du kvajer dig med noget som helst i en robots.txt fil, risikerer du at ryge helt ud af søgemaskinerne! En lille fodfejl - og du er kommet til at sige til denne verdens søgemaskiner, at du ikke vil være i deres indeks. Så vær præcis!

Hvad er robots.txt?

Robots.txt er en tekstfil, der – når den bruges – placeres på din webserver. Filen læses af alle søgemaskinerne, og i den kan man fortælle søgemaskinerne hvilke områder af sin hjemmeside, man IKKE vil have dem til at indeksere. Du har intet at bruge robots.txt til, hvis du ikke har brug for at spærre søgemaskinernes indeksering af noget på din hjemmeside. Det har de fleste brug for, men de færreste ved det. Mange shopsystemer og CMS giver ikke mulighed for, at du selv kan arbejde med din robots.txt – og det er en skam. Send din leverandør en pose rådne fiskehoveder med posten hver fredag, til han laver det om, så du kan arbejde med filen selv!

Skal du bruge robots.txt?

Hvis du ikke har noget indhold på din shop/hjemmeside, du ikke ønsker indekseret, er svaret nej. Men det har de fleste faktisk! Det er ikke sådan, at du bruger robots.txt til at fortælle søgemaskinerne, hvad de skal indeksere – du bruger den kun til at fortælle, hvad de IKKE skal indeksere.

Mange hjemmesider har PDF dokumenter uploadet, der i store træk er kopier af den tekst, der er på selve hjemmesiden. Og det er altså duplicate content, for søgemaskinerne læser også PDF filer. Derfor kan det være en rigtig god ide at spærre søgemaskinernes adgang til dine PDF filer.

Sådan laves en robots.txt
Til at fremstille din robots.txt skal du bruge det lille tekstbehandlingsprogram på din PC, der hedder Notepad (eller andet der kan fremstille en flad txt-fil). Det kan du passende finde og åbne, så du er klar om lidt. Vi skal lige se lidt på strukturen i sådan en robots.txt fil først, og den er faktisk ganske enkel at forstå:

Grundlæggende starter den med:

User-Agent: *
Allow: /

Og det betyder: ”User-Agent” – det er navnet på søgemaskinens robot. Ved at sætte en stjerne siger du, at det gælder alle søgemaskiner.

”Allow:/” - det betyder, at søgemaskinerne må kravle rundt i hele din hjemmeside og indeksere alt. Og den linje skal du bare lade stå, for senere begynder vi at fortælle søgemaskinerne hvilke præcise sider, de ikke må indeksere.

Nu skal vi så skrive en linje, hvor vi fortæller søgemaskinerne, at de ikke må indeksere vores PDF filer for eksempel - og her siger vi, at de ligger i domæne.dk/PDF/.

Og den ser således ud:

Disallow: /PDF/

Med den linje fortæller vi søgemaskinerne, at de ikke må medtage noget i folderen /PDF/ i deres indeks.

Robots.txt kan IKKE bruges til hemmelige sager!

Din robots.txt fil kan ses af andre, så lad nu være med at tro, at du kan skjule dine hemmelige sager med den. Du kan kun bruge den til at fortælle søgemaksinerne, hvad de skal undlade at tage med i deres indeks - og ikke andet. Du kan jo selv tjekke f.eks. Aminos robots.txt her: http://www.amino.dk/robots.txt

Robots.txt kan afhjælpe duplicate content

Den bedste måde at undgå duplicate content er netop: Undgå det! Det er bare langt fra alle systemer, der kan det - og her kan robots.txt hjælpe dig lidt på vej. Måske danner din shop forskellige URL af produktvarianter med samme indhold? Hvis shopleverandøren er udenfor pædagogisk rækkevidde og ikke vil rette fejlkonstruktionen, kan du sikre dig med robots.txt.

Bemærk dog lige dette forbehold fra Google:

Selvom Google ikke gennemgår eller indekserer indholdet på sider, som er blokeret af robots.txt, vil vi muligvis stadig indeksere webadresserne, hvis vi finder dem på andre sider på internettet. Som et resultat heraf kan webadressen for siden og muligvis andre offentligt tilgængelige oplysninger, som f.eks. selve teksten i links til webstedet eller titlen fra dette Open Directory Project (dmoz.org), blive vist i Google-søgeresultater. Intet indhold fra dine sider vil dog blive gennemgået, indekseret eller vist.

Du kan fuldstændig forhindre en sides indhold i at blive opstillet i Googles webindeks (selvom andre websteder linker til det) ved at bruge et noindex-metatag. Så snart Googlebot får fat i siden, vil den opdage noindex-metatagget og forhindre siden i at blive vist i webindekset. Googles webindeks giver også mulighed for at bruge "Noindex:" i en robots.txt-fil for også at forhindre en reference til et url-link, der ikke er gennemgået, i at blive vist.

Og sådan et tag skal se således ud:

Til slut nogle gode ressourcer om robots.txt:

http://www.thomas-rosenstand.dk/sadan-bruger-du-robotstxt - læs også kommentarerne

http://www.robotstxt.org/robotstxt.html

http://www.google.com/support/webmasters/bin/answer.py?hl=da&answer=35303

God fornøjelse!

Nørdeniveau: Medium

Om denne blog