Bots, die für Email-Spammer Webseiten nach Emailadressen abgrasen, halten sich nicht an Verbote in der robots.txt, etwas effektiver aussperren kann man sie schon über die .htaccess mittels mod_rewrite.
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^boeserbot1 [OR]
RewriteCond %{HTTP_USER_AGENT} ^boeserbot2 [OR]
RewriteCond %{HTTP_USER_AGENT} ^boeserbot3
RewriteRule ^.* - [F]
Bedingt geeignet ist diese Maßnahme noch in Bezug auf Offline-Browser wie HTTrack, mit denen in kurzer Zeit ganze Webpräsenzen gedownloadet werden können [100%igen Schutz bieten auch solche mod_rewrite Regeln nicht, siehe auch Kommentar von wrtlprnft]. Nicht jeder hat allerdings die Zeit, mithilfe von Bottraps und Recherche für die .htaccess eine eigene Liste von nicht erwünschten User Agents und IPs zu erstellen, so greifen viele Webmaster auf vorgefertigte Sperrlisten zurück, die in den Fachforen kursieren.
Der Nachteil dieser Listen ist es, dass die Einträge selten kommentiert sind, und man bei einer ungprüften Übernahme leicht Gefahr läuft, auch Clients auszusperren, die man selbst eigenlich gar nicht aussperren möchte. Wenn die eigenen Seiten nicht im Internet Archiv erfasst sind, könnte dies z.B. daran liegen, dass man dessen Bot ia_archiver gesperrt hat, der sich auf vielen vorgefertigten Blacklists befindet. Ärgerlich könnte dies sein, wenn man im Falle einer Urheberrechtsverletzung mithilfe des Archivs nachweisen möchte, dass die eigene Fassung älter ist als die des Contentdiebes.
Einige Sperrlisten enthalten sogar User Agents von Webbrowsern, wie z.B. diese "aktuelle Zusammenstellung von Bot-Ungeziefer" im Forum von abakus-internet-marketing.de:
RewriteCond %{HTTP_USER_AGENT} ^Lynx [OR]
RewriteCond %{HTTP_USER_AGENT} ^Konqueror [OR]
RewriteCond %{HTTP_USER_AGENT} ^Opera [OR]
Auch hier finden sich keinerlei Kommentare, was aus welchem Grunde gesperrt wird. Zu empfehlen ist es deswegen, solche Listen nicht ohne vorherige Prüfung zu übernehmen.