Het tekstbestand Robots.txt voorkomt dat bepaalde pagina’s of delen van een website door de zoekmachine in de index worden opgenomen. Dat kan bijvoorbeeld wenselijk zijn als er sprake is van een webpagina met een zeer lage kwaliteit die niet in de zoekresultaten moet voorkomen.
Ook als er sprake is van dubbele inhoud dan kan het gebruiken van een tekstbestand aangeraden worden, zodat de googlebot de webpagina niet zal opnemen in de resultaten.
Niet indexeren van webpagina’s
Het indexeren van webpagina’s in Google gebeurt door de spiders van de zoekmachine. Elke pagina van een website wordt doorlopen om te bepalen of deze in de index moet worden opgenomen. Indien er sprake is van robots.txt, dan wordt duidelijk gemaakt dat de pagina niet moet worden geïndexeerd en zal de pagina niet verder bezocht worden.
Robots.txt alternatief
In plaats van het toepassen van robots.txt is er een andere optie beschikbaar, waarbij de bot van Google de pagina wel zal openen, maar waarbij een no index wordt gegeven. Voor specifieke links in een tekst kan een no follow opdracht gegeven worden, waarbij de link niet door de bots van de zoekmachine gevolgd wordt.
Overigens is het gebruik van een robots.txt bestand alleen maar nodig indien er zich op een website inhoud bevindt, waarvan het niet wenselijk is dat deze door een zoekmachine wordt opgenomen in de resultaten. Indien de complete website geïndexeerd moet worden, dan hoeft er geen robots.txt bestand gebruikt te worden.
De opdrachten die in de tekstbestanden worden gegeven, kunnen als richtlijnen worden beschouwd. Google volgt de opdracht, maar er kunnen crawlers zijn die de opdracht niet opvolgen. Het is dan ook belangrijk om te weten dat een tekstbestand geen beveiligingsmiddel is om informatie niet te laten publiceren.