Los buscadores no utilizan personas para que revisen todas las páginas web existentes, ¿se imaginan si fuera esto así? En lugar de esto se utilizan unos spiders que también reciben el nombre de bots o robots, estos robots se encargan de revisar todos los sitios webs y hace que los buscadores se actualicen con los cambios que hayan tenido los sitios web. Si bien los robots son necesarios para que nuestro sitio pueda ser indexado por los buscadores, existe un riesgo de que estos spiders accedan a contenido que no deberían y lo indexen, de esta forma haciendo que esta información sea accesible por cualquier persona y dejaremos a la vista de todos los archivos que son parte fundamental de nuestro sitio y si alguien accede podría entrar al sistema. Nosotros podemos limitar el acceso de estos robots indicándoles qué es lo que tienen que indexar y a que zonas de nuestra página web no pueden acceder. Esto lo podemos hacer utilizando un pequeño código que se inserta en un bloc de notas y que los buscadores ya saben que es el que determina el acceso que tienen sus robots, este archivo tendremos que añadirlo a la raíz de nuestro sitio mediante FTP y ha de tener el nombre de robots.txt
Si no tuviéramos el robots.txt podríamos hacer que el sitio indexase cosas no debidas y si tenemos un robots.txt muy prohibitivo podríamos causar problemas al SEO puesto a que si bloqueamos el contenido que queremos que se indexe, no conseguiremos que los buscadores añadan este nuevo contenido. Hay que tener extremo cuidado con este archivo, puede favorecernos en el SEO tanto como puede perjudicarnos por lo que tendremos que determinar qué es lo que tiene que aparecer en los buscadores y qué no. Si los buscadores ya han indexado contenido que no tenía que ser indexado, simplemente bloqueando desde el robots.txt el acceso a este contenido, la próxima vez que el robot lo lea lo desindexará.