Hvorfor ikke blot nøjes med: User-agent: * Med henvisning til Googles udsagn: An entry that applies to all bots looks like this: |
Bliver nart helt rundtosset... .-)
Men er der noget forkert i at gøre som jeg har gjort ?
http://op.dk/google-ignorere-generelle-indstillinger-i-robotstxt.html
Da Googles søgerobot understøtter brugen af wildcards, så kan man i sin robots.txt fil sætte den op til, at den skal ignorere alle de URL’er der ender med printfriendly=true, fx sådan her:
User-agent: googlebot
Disallow: /*printfriendly=true
User-agent: *
Disallow: /pdf/
Læg mærke til at der ovenfor ikke står Disallow: /pdf/
for googlebot. Det var ikke nødvendigt tidligere, for googlebot ville både læse de instillinger der var for alle søgemaskiner og de indstillinger der kun gælder for googlebot.
Men sådan er det ikke mere:
- googlebot læser kun indstillingerne for alle søgemaskiner i robots.txt, såfremt der ingen specifikke indstillinger er for googlebot
- hvis der er specifikke indstillinger er for googlebot i robots.txt, så ignoreres alle andre indstillinger, også dem der er generelle og gælder for alle søgemaskiner.
Derfor vil ovennævnte robots.txt fil fremover skulle se således ud:
User-agent: googlebot
Disallow: /*printfriendly=true
Disallow: /pdf/
User-agent: *
Disallow: /pdf/