Besøg af "uønskede" crawlere på hjemmeside

Fra St. Julians

Tilmeldt 29. Aug 09

Indlæg ialt: 56

Nicolai Kostakis Fra Marketing Partners Online Skrevet 13-12-2012 kl. 09:29

Hvor mange stjerner giver du? :

Hej Aminoer,

Jeg har længe forsøgt selv at komme frem til svaret på følgende spørgsmål:

På en af vores hjemmesider noterer vi hver eneste dag en trafik fra en række mærkelige URL'er (crawlere), såsom: searchmirror.com, index.gomeo.com, src.excite.eu og så fremdeles (se nedenfor).

Nogen der har en ide om hvorvidt man kan blokere for disse "uindbudte fremmede", der i bedste fald ingen skade gør, men egentlig er ret irriterende (og måske skadelige?)?

1586.New Microsoft Office Word Document.docx

Rent praktisk ("GA teknisk") kan man jo bare vælge avancerede indstillinger -> uden crawlere hver gang, og dermed sortere denne forstyrrende faktor fra. Men jeg hører meget gerne hvad I andre, der evt. måtte have oplevet samme problemer gør.

Som det fremgår af det vedhæftede billede, er det ikke en lille mængde hits, vi på Bingoforum.dk får fra de pågældende crawlere.

På forhånd tak!

Nicolai Kostakis

Texaspoker.dk er hele Danmarks guide til poker. Bliv en del af Danmarks hyggeligste poker fællesskab.

Tilmeldt 11. Dec 12

Indlæg ialt: 33

Impetus Skrevet 13-12-2012 kl. 09:41

Hvor mange stjerner giver du? :

Hej Nicolai

Jeg har haft samme problem, som vores hostingudbyder gjorde os opmærksomme på. Her er den første mail jeg fik fra dem:

Hello,
System administration has identified your account as using higher resources on the server housing your account. This is impacting other users, and we may be forced to suspend or have already suspended your site in order to stabilize the server.

We noticed that your site is being heavily 'crawled' by search engines. Search engines tend to mimic the effect of hundreds of visitors going through every portion of your site, often all at once.

You may wish to implement a robots.txt file in order to reduce this effect. This file contains instructions for well behaving 'robots' on how to crawl your site. You can find more information about this here:
http://www.robotstxt.org/.

The basic format would be as follows to block robots from the following (example) directories as well as set a 10 second delay between requests:

User-agent: *
Crawl-delay: 10
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

Crawl-delay is an unofficial extension to the robots.txt standard but one that most popular search engines use. One notable example however is Google's crawlers, which instead require you to set this delay in Google Webmaster Tools. We have a step-by-step guide on doing so at this URL:
http://www.inmotionhosting.com/support/website/google-tools/setting-a-crawl-delay-in-google-webmaster-tools

The delay and directories which are disallowed for crawlers are particularly useful for parts of your sites like forums or 'tag clouds' that, while useful to human visitors, are troublesome in terms of how robots aggressively pass through them repeatedly.

Nedenfor var den løsning de selv implementerede.

Hello,

We once again noticed a high CPU load on your server, due to bot crawling. As we further investigated the issue, it appears that one particular bot was causing this issue, the "80legs" crawler. This crawler is known to be rather aggressive. As it is not a major contributor to search engine rankings or information, we have blocked this bot via the following code in your .htaccess file

ErrorDocument 503 "Site temporarily disabled for crawling"
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*(80legs).*$ [NC] RewriteRule .* - [R=503,L]

Fra St. Julians

Tilmeldt 29. Aug 09

Indlæg ialt: 56

Nicolai Kostakis Fra Marketing Partners Online Skrevet 13-12-2012 kl. 11:54

Hvor mange stjerner giver du? :

Hej Impetus,

Tusind tak for at dele svaret fra din hostingudbyder med mig / Amino - vi går med det samme i gang med at køre deres beskrivelse igennem, og så får vi - forhåbentlig - udryddet problemet.

Hvordan med dig selv - fik du løst problemet?

Texaspoker.dk er hele Danmarks guide til poker. Bliv en del af Danmarks hyggeligste poker fællesskab.

Fra Helsingborg

Tilmeldt 3. Apr 05

Indlæg ialt: 6571

Niels Henriksen Fra TextReactor Skrevet 13-12-2012 kl. 12:02

Hvor mange stjerner giver du? :

En anden mulighed er at blokere for deres ip adresse.

Jeg har programmeret i over 27 år. Jeg har kodet i C, C++, Java, Delphi, Perl, JavaScript, C#, F#, VB.NET, ASP, Myresnak :D, Comal80 osv....

Besøg af "uønskede" crawlere på hjemmeside - har I samme problem?