]> Matthias Wimmer (溫雅石)

Site schnellstens aus Google entfernen: alles außer robots.txt sperren

Tagged as DE · net · google

Written on

Diese Woche bekomme ich einen Anruf von einem Bekannten: er entwickelt gerade eine Website für einen Kunden. Und obwohl die Seite noch nicht fertig ist, taucht sie schon im Suchindex von Google auf. Er hatte vergessen die Seite während der Entwicklung mit einem Passwortschutz zu versehen. Er fragte mich, ob ich eine Idee habe, wie er dieses Versäumnis so schnell als möglich korrigieren könne.

Wir sind nun gemeinsam ein paar Möglichkeiten durchgegangen das Problem zu beheben:

Alle drei Einzelmaßnahmen alleine reichen nicht aus. Wir haben uns entschlossen, dass alles drei in Kombination sinnvoll ist. Eine kleine Herausforderung war nun den Webserver so zu konfigurieren, dass alle Seiten der Site grundsätzlich mit einem Passwortschutz versehen waren, als einziges der Zugriff auf die Datei robots.txt jedoch ohne Passwort möglich war. Meistens wird ein Passwortschutz ja über einen Eintrag wie "require valid-user" in einer .htaccess-Datei eingerichtet. In diesem Fall hätte ein solcher Schutz allerdings ins Root-Verzeichnis der Domain gelegt werden müssen und die robots.txt wäre dann auch nicht mehr abrufbar gewesen.

Lösen lässt sich dieses Problem mit der <LocationMatch>-Einstellung von Apache und einem kleinen regulären Ausdruck:

<LocationMatch "^/(?!robots\.txt).|robots\.txt.+$">
    require valid-user
    AuthType Basic
    AuthUserFile /etc/apache2/users/.htuser
    AuthName Devel-Area
</LocationMatch>

Eingetragen kann dies allerdings nicht in eine .htaccess-Datei werden. <LocationMatch> ist in einer solchen Datei nicht zulässig. Der Eintrag muss in den vhost-Eintrag der Apache-Konfiguration gemacht werden (unter Debian: /etc/apache2/sites-available/*).

Auf diesem Weg konnten wir den Zugriff auf die Seite sofort sperren und trotzdem den Suchmaschinen ermöglichen die Datei robots.txt zu lesen. Da diese Datei von Suchmaschinen häufig angefragt wird und wir darin die komplette Indizierung der Site gesperrt haben, waren so auch die Einträge in Google auch innerhalb von ein paar Stunden wieder Vergangenheit.


Unless otherwise credited all material Creative Commons License by Matthias Wimmer