Programacion y Desarrollo Web: Que es y para que sirve el archivo robot.txt

Que es y para que sirve el archivo robot.txt

7/11/2009 | Posted in como se hace un robot.txt, que es un robot.txt, robot.txt

El robot.txt es un fichero en el cual nosotros le damos algunas instrucciones o mejor dicho recomendaciones a los crawlers (los robot que utilizan los buscadores para rastrear nuestro sitio) que deben seguir mientras visitan nuestro sitio, para crearlo solo tenemos que abrir nuestro bloc de notas e introducirle dichas instrucciones que acontinuacion explicare.

User-agent: Aqui introduciremos el nombre del crawler si es que lo conocemos, en caso de que no, tan solo podemos poner un asterisco * el cual indicara que cualquier crawler puede escanear nuestro sitio, pero mucho cuidado ya que varios crawler en lugar de darnos beneficios, tan solo nos perjudican.

Disallow: En esta linea podemos ingresar la ruta de algun archivo o directorio que no queramos que sea escaneada por el crawler, ejemplo; disallow: /ejemplo lo que hemos hecho es indicarle al crawler que no rastree el directorio ejemplo de nuestro sitio.

Craw-delay: 30 Con esto le decimos al crawler que espere 30 segundos entre cada acceso, pero ojo ya que no todos los crawler soportan el craw-delay.

Visit-time: 0300-0400 En esta linea le indicamos al crawler que visite nuestro sitio de 3 am a 4 am, Recuerda que las horas siempre se colocan en Greenwitch.

Request-rate: 1/30 Siendo el 1 el numero de documentos a rastrear y el 30 el tiempo que transcurre entre un rastreo y el siguiente, algo parecido al craw-delay, en mi opinion mas efectivo.

Ahoro so lo falta recordarles de no dejar lineas en blanco, ya que el crawler al encontrarlas deja de leer el archivo, ademas de que si quieren agregar un comentario a alguna linea del archivo, lo pueden hacer con el siguiente simbolo #.

//
//User-agent: * #Para todos los crawlers
//Disallow: /ejemplo
//Visit-time: 0300-0400
//Request-rate: 1/30
//

Programacion, diseño y desarrollo web

Ver noticia en sitio azteca