Botzugriffe aus Statistiken raushalten

Seit kurzem haben wir in unseren Besucherlogs mehrmals am Tag Hunderte Zugriffe von einer Berliner IP-Adresse, die offenbar zu Kabel Deutschland gehört. Eventuell handelt es sich um eine Art Crawler, weil im Sekundentakt viele Seiten hintereinanderweg aufgerufen werden. Kennt jemand diesen Effekt und kann man etwas dagegen tun, damit die Aufrufe nicht die Statistik verfälschen?

Wenn es immer die selbe IP-Adresse ist, kannst du diese in den Einstellungen einfach vom Tracking ausschließen.

Ja, aber dann kann ich auch nicht mehr kontrollieren, wie sich die Zugriffe von dieser ominösen IP-Adresse entwickeln. Das Verhalten ist schon seltsam: Mitllerweile ist der „Besucher“ bis zu 9 Stunden täglich auf unserer Website und ruft in zwei oder drei Schüben jedes Mal bis zu 2000 Seiten ab. Manche Seiten mehrere Dutzend Mal hintereinander. Rund 100 Besuche dieser Art gab es schon in den letzten Wochen.

Verwendet Ihr Log-File Analyse oder Javascript Tracking? Bei letzterem ist es eher ungewöhnlich das Bots getrackt werden.
Wäre aber schon möglich dass hier Daten abgegriffen werden. Ich weiß ja nicht um was für eine Seite es sich handelt, aber wenns zum Beispiel eine Shopping-Seite ist, wäre es möglich das aktuelle Preise abgefragt werden oder ähnliches.

Wenn du die Zugriffe von der IP weiterhin tracken willst diese aber nicht mit in die Statsitik einfließen sollen fallen mir nur Hacks ein:

Du könntest z.B. im Tracking-Pixel die SiteID austauschen wenn diese IP zugreift und die Aufrufe in eine andere Piwik-Site tracken… Dafür müsstest du aber Änderungen an deiner Seite vornehmen. In Piwik direkt sehe ich keine gute Lösung, da Segmentierung hierfür wohl eher der falsche Weg wäre.

Wir verwenden den Tracking-Code aus Piwik (Javascript) und es ist keine Shopping-Seite, sondern ein normales Blog mit News und Produkttests. Der Crawler bewegt sich auch offenbar auch nur von der Homepage im Blog-Verlauf nach hinten, also Seite 2,3,4,5 etc. – und zwar mehrmals hintereinander. Die einzelnen Beiträge werden dabei nicht aufgerufen.

Hast du mal geprüft, ob dein Blog vielleicht seit kurzem auch unter einer anderen Web-Adresse auftaucht?
(Inklusive Werbung für die jemand anderes abkassiert?)

Schau mal hier:

Danke für den Tipp, aber alle wichtigen Domains-Varianten lauten laut Checkdomain auf uns und die anderen sind noch frei. Scheint also kein „Site-Kidnapping“ zu geben.

Dein Problem sollte weniger die verfälschte Statistik sein, als der Botzugriff selbst. Da dieser in jedem Fall Traffic verursacht und manche Bots aktiv nach Sicherheitslücken suchen, sollte man versuchen, unliebsame Bots gleich komplett auszusperren. Dadurch sollten die Bots auch aus der Statistik verschwinden (im schlimmsten Fall machen sie noch 403er Anfragen --> http://en.wikipedia.org/wiki/List_of_HTTP_status_codes). Da Du es (zunächst) einmal nur mit einem Bot zu tun hast, würde ein robots.txt mit einem Eintrag oder eine .htaccess der Form vermutlich helfen:

order allow,deny
deny from
allow from all

Weitere Informationen zum Ausperren von Bots sind hier zusammengefasst:
http://www.web-fortbildung.de/wiki/index.php/Bots_mit_robots.txt_ausperren
http://www.web-fortbildung.de/wiki/index.php/Zugriff_auf_Webseiten_mit_.htaccess_sperren

Das Aussperren des Bots über die IP-Adresse habe ich schon probiert. Mein Security-Plugin legt auf Wunsch die entsprechenden deny-Einträge in der .htaccess-Datei an. Allerdings scheint das keine Auswirkungen zu haben. Piwik registriert unter der geblockten IP-Adresse (91.65.0.0) trotzdem weiterhin die regelmäßigen Seitenabrufe. Es hatte nur zur Folge, dass zusätzlich unter einer anderen IP-Adresse dieselben Zugriffe noch einmal erfolgten.

Hmm, wenn du Zugriff auf Logfiles hast, kannst du zumindest mal gucken, ob die Sperre auf der ersten IP-Adresse überhaupt wirkt - alle Aufrufe von dort sollten mit dem besagten 403 ( “Zugriff verweigert” ) quittiert sein. Wenn das der Fall ist, scheint Piwik aber diese vergeblichen Anfragen trotzdem in seiner Statistik aufzuführen - vielleicht gibt es da eine Option das Auszuklammern (leider kenne ich mich bei den Optionen von Piwik nicht so aus).

Solange es “gutartiger” Bot ist, hast du gute Chancen ihn auf allen anderen IPs auch auszusperren, eventuell kannst du den “Berliner- Knoten” komplett verbieten. Wenn es ein Hostingprovider ist sollte das nicht so schlimm sein, “Kabel Deutschland” klingt aber mehr Zugangsprovider, womit du dann recht viele gewollte User mit aussperren würdest. Falls du es schaffst, ihn mit der robots.txt zu erwischen, sollte er von selbst die Aufrufzahl drastisch reduzieren - allerdings klingt ein Bot, der die IP-Adresse wechselt nicht danach, als ob er robot.txt akzeptieren würde.

Als Notlösung, um die Statistik zu retten, könntest du probieren, ihn über die .htaccess oder eine Weiche im Code umzuleiten. Vielleicht zählt Piwik das dann nicht mehr als Aufruf. Besser wäre aber die Zugriffe unerwünschter Bots zuverlässig zu unterdrücken.