c't 12/2017
S. 170
Know-how
Robots.txt

Hier nicht weitergehen!

Suchmaschinen-Crawler und andere Web-Robots steuern

Robots.txt: Die steinalte Technik sagt Suchmaschinen-Robots und anderen automatischen Besuchern auch heute noch, welche Seiten sie auf Websites besuchen dürfen und welche nicht. Verbindlich sind ihre Angaben aber nicht, unwillkommene Besucher muss man anders ausschließen.

Eine umstrittene Ankündigung brachte eine alte Technik wieder ins Gespräch: „Robots.txt funktionieren nicht gut mit Web-Archiven“, kündigte das Blog des Internet Archive im April an. Die Digital-Archivare wollen künftig die suchmaschinenspezifischen Einstellungen einer Website nicht mehr beachten. Damit schließen sie sich dem weniger bekannten Archive Team an, das sich in dieser Angelegenheit nicht ganz so diplomatisch ausdrückt: „Robots.txt is a stupid, silly idea“.

Archive.org speichert mitunter Tausende Snapshots einzelner Seiten.

Das „Robot Exclusion Protocol“, so der offizielle Name der Technik, teilt Suchmaschinen mit, welche URLs sie auswerten dürfen und welche nicht. Das soll vor allem Server von unnötigen Zugriffen entlasten: Einigen Statistiken zufolge sind Bots für mehr als die Hälfte des gesamten Web-Traffics verantwortlich. Außerdem sollen die Robots-Anweisungen verhindern, dass Suchmaschinen veraltete Informationen anzeigen, dass Seitenbetreiber für Duplicate Content (also identische Seiten unter verschiedenen URLs) abgestraft werden oder dass bestimmte Inhaltstypen bei Google auftauchen – etwa Bilder oder PDFs.