Site schnellstens aus Google entfernen: alles außer robots.txt sperren
Written on
Diese Woche bekomme ich einen Anruf von einem Bekannten: er entwickelt gerade eine Website für einen Kunden. Und obwohl die Seite noch nicht fertig ist, taucht sie schon im Suchindex von Google auf. Er hatte vergessen die Seite während der Entwicklung mit einem Passwortschutz zu versehen. Er fragte mich, ob ich eine Idee habe, wie er dieses Versäumnis so schnell als möglich korrigieren könne.
Wir sind nun gemeinsam ein paar Möglichkeiten durchgegangen das Problem zu beheben:
- Site jetzt mit Passwortschutz versehen: es kommt zwar niemand mehr auf die Seite, allerdings ist sie noch in Google (und vermutlich anderen Suchmaschinen) gelistet,
- robots.txt auf die Seite laden, die allen Suchmaschinen sagt, dass die Site nicht gelistet werden möchte: wer die Adresse kennt kommt trotzdem noch darauf oder
- manuell über die Google Webmaster-Tools die Löschung beantragen: allerdings hatte Google schon über 10.000 Treffer auf der Site.
Alle drei Einzelmaßnahmen alleine reichen nicht aus. Wir haben uns entschlossen, dass alles drei in Kombination sinnvoll ist. Eine kleine Herausforderung war nun den Webserver so zu konfigurieren, dass alle Seiten der Site grundsätzlich mit einem Passwortschutz versehen waren, als einziges der Zugriff auf die Datei robots.txt jedoch ohne Passwort möglich war. Meistens wird ein Passwortschutz ja über einen Eintrag wie "require valid-user" in einer .htaccess-Datei eingerichtet. In diesem Fall hätte ein solcher Schutz allerdings ins Root-Verzeichnis der Domain gelegt werden müssen und die robots.txt wäre dann auch nicht mehr abrufbar gewesen.
Lösen lässt sich dieses Problem mit der <LocationMatch>-Einstellung von Apache und einem kleinen regulären Ausdruck:
<LocationMatch "^/(?!robots\.txt).|robots\.txt.+$">
require valid-user
AuthType Basic
AuthUserFile /etc/apache2/users/.htuser
AuthName Devel-Area
</LocationMatch>
Eingetragen kann dies allerdings nicht in eine .htaccess-Datei werden. <LocationMatch> ist in einer solchen Datei nicht zulässig. Der Eintrag muss in den vhost-Eintrag der Apache-Konfiguration gemacht werden (unter Debian: /etc/apache2/sites-available/*).
Auf diesem Weg konnten wir den Zugriff auf die Seite sofort sperren und trotzdem den Suchmaschinen ermöglichen die Datei robots.txt zu lesen. Da diese Datei von Suchmaschinen häufig angefragt wird und wir darin die komplette Indizierung der Site gesperrt haben, waren so auch die Einträge in Google auch innerhalb von ein paar Stunden wieder Vergangenheit.