Blokér indexering af PDF med robots.txt

Fra Thorsø

Tilmeldt 17. Mar 09

Indlæg ialt: 23

Jan Skinnerup Fra Prokumo Skrevet 01-04-2009 kl. 22:12

Hvor mange stjerner giver du? :

Jeg har lavet mig en robots.txt fil, som jeg har uploaded til mit root directory på min webserver.

Filen indeholder 3 linjer:

User-Agent: *
Disallow: /*.pdf$
Allow: /

Nu er det sådan, at Google allerede har indexeret et par PDF filer og disse kan findes ved bestemte søgninger. Det vil jeg jo gerne undgå (det har jeg lært i en bog jeg har downloaded ;-) ). Mit spørgsmål er nu, hvornår fjerner Google så mine PDF filer fra søgeresultaterne?

Fra Holstebro

Tilmeldt 7. Apr 07

Indlæg ialt: 105

Janus Skrevet 02-04-2009 kl. 22:26

Hvor mange stjerner giver du? :

Google er ret flinke til at overholde det man beder dem om i robots.txt så jeg tror du vil opleve at filen fjernes rimeligt hurtig. Dog vil man ofte kunne finde den slags hvis man søger MEGET precist, f.eks. direkte på domæne og filnavnet.

Du kan også logge ind på Googles webmasters tools og bede dem om at fjerne siden fra deres indeks også plejer det at gå rigtig hurtigt. Se mere her http://www.google.dk/support/webmasters/bin/answer.py?answer=61062

Sidst kunne du jo også overveje at omdøbe filen/filerne på din server så Googles link i det mindste ikke ville virke, og jeg tror ikke du vil opleve at Google tilføjer flere PDF'er hvis du beder den om at lade være :)

Fra Thorsø

Tilmeldt 17. Mar 09

Indlæg ialt: 23

Jan Skinnerup Fra Prokumo Skrevet 02-04-2009 kl. 22:32

Hvor mange stjerner giver du? :

Jeg takker for svaret Janus.

Siden jeg skrev indlægget kan jeg se i Googles webmaster tools, at den faktisk respekterer min robots.txt og gør opmærksom på, at flere andre PDF filer (på et forum) ikke vil blive indexeret.

Så nu afventer jeg stille og roligt Google går sin gang :-)