Estándar para la exclusión de Robots – Como construir un archivo robot.txt

Estándar para la exclusión de Robots – Como construir un archivo robot.txt

El objetivo de la indexabilidad es conseguir que el buscador admita todas y cada una de las páginas que componen nuestro portal o por lo menos que admita las que nosotros le indiquemos. ¿Cómo se consigue esto..?, bien existe dos formas básicas de informar el buscador sobre que páginas queremos que rastree o indexe y sobre cuales no, una sería subir un archivo de texto plano un (.txt) que puedes crear con cualquier editor de textos como por ejemplo el Block de Notas de Windows, a la carpeta raíz de nuestro servidor la que es / . De esta forma colocando en su interior unos códigos que ahora pasaré a explicar vamos a poder indicar al los buscadores (a todos o a cada uno en particular) que partes de la web pueden indexar en sus bases de datos y que partes no. La otra forma sería colocar una meta etiqueta en el apartado <head> de la web, de esta otra forma también podemos conseguir el mismo resultado solo que tendremos que crear una meta etiqueta por cada una de las páginas de nuestra web que NO queramos que el buscador o los buscadores indexen, solo en las que NO.

Protocolo de exclusión por medio de archivo robot.txt

Cuando la araña del buscador visita nuestra web, siempre lo primero que va a hacer es ver si en esta hay un archivo robot.txt o no. En caso afirmativo lo leerá para ver que  partes de la web puede rastrear para su base de datos, recordemos que después se emplearán los algoritmos de posicionamiento sobre esa base de datos y sobre los resultados que saque de nuestro portal así que es importante indicar al buscador cuales son las partes buenas o con contenido adecuado para ellos.
Solo podrá existir un archivo robot.txt por cada página web, en caso de existir más de uno no tengo claro lo que pasaría pero es posible que solo hiciese caso a uno de ellos, el que leyera primero. A su vez en ese único archivo podemos usar cuanta etiquetas específicas queramos, digo específicas por que solo admiten un par de comandos, comandos como estos:

User-agent: *
Disallow: /lib/

Como podemos ver hay dos etiquetas clave que marcan los datos, son User-agent: y Disallow: Estas dos etiquetas son las que marcan todo lo necesario para indicar a los buscadores lo que queremos que hagan en la página.
La primera indica a qué buscador o buscadores nos estamos refiriendo, la segunda indica que partes de la web son las que NO puede indexar o rastrear.
Admite expresiones regulares, como por ejemplo * o *.gif o /tmp/*  el asterisco indica que es la totalidad la que deseamos, por ejemplo *.gif indica todas las imágenes .gif.
En el anterior código estamos indicando, A todos los buscadores User-agent: * y que no indexe el directorio /lib/

En caso de tener que indicar más directorios (sería lo normal por ejemplo para los archivos con funciones o para  los jquery) tendremos que usar más etiquetas Disallow: una por cada renglón pero respetando la regla de no dejar ninguna linea en blanco entre cada linea Disallow: como por ejemplo aquí:

User-agent: *
Disallow: /lib/*
Disallow: /colapseMenu/*
Disallow: /grindSlider/*

Como vemos estamos indicando que, A todos los buscadores, no indexen los directorios /lib/, /colapseMenu/ y /grindSlider/.
Si necesitamos indicar distintos códigos para cada buscador repetiremos los bloques de código y en este caso sí podremos dejar una linea en blanco entre uno y otro, si por ejemplo tenemos que prohibir el acceso a un buscador a partes de la web pero a otro no haremos lo siguiente:

User-agent: *
Disallow: /_class/
Disallow: /_conex/
Disallow: /img/
User-Agent: MJ12bot
Disallow:

Como vemos prohibimos el acceso primer a todos los buscadores a los directorios /_class/ , /_conex/ y /img/ y para el robor MJ12bot le permitimos el acceso a todo el contenido, es cuestión de las necesidades de cada cual, de esta forma podríamos seguir creando códigos y prohibiendo el acceso a cada robot y a cada parte que nosotros queramos.

Protocolo de exclusión por medio de meta etiqueta ROBOT

La meta etiqueta ROBOT permite al creador o al encargado de posicionamiento en buscadores indicar al buscador que esa página no queremos que sea indexada y si queremos que siga los vínculos que la página contiene en su interior o no.
Es importante resaltar que hay que colocar esta etiqueta solo en las páginas que NO queremos que sean rastreadas, en el resto no, para las que sí queremos no hace falta colocar nada y de hecho se recomienda que así sea.
La sintaxis de la meta etiqueta es la siguiente:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Se situará en la parte head de nuestro documento, junto con las meta Desciption y keywords, como podemos ver tiene dos instrucciones por un lado NAME= y por el otro CONTENT= la primera indica que se trata de una meta ROBOTS para indicar la indexabilidad o no de la página, la segunda que acción queremos que desempeñe, en este caso NOINDEX será que no se indexe y NOFOLLOW será que no siga los enlaces que contiene. Podemos poner las dos o solo una de ellas pero si las dos no tienen que estar en el documento no pondremos la meta etiqueta ok??

Aquí algunos de los principales bot’s del panorama actual:

  • Mediapartners-Google,  crawler que se encarga de revisar los anuncios de Google Adsense.
  • Googlebot,  indexador del buscador de Google.
  • Googlebot-Image,  indexador de imagenes del buscador de Google, Google Image
  • msnbot, el bot de MSN messenger
  • Yahoo, el bot de el buscador de Yahoo
  • search.aol, el bot de el buscador de AOL
  • Slurp, crawler de indexación del buscador Yahoo!
  • noxtrumbot, del buscador Noxtrum.
  • Scooter, del buscador Altavista.
  • etc, etc, existen infinidad de ellos, en Internet están todos

Hasta aquí la entrada dedicada a los archivos y meta etiquetas Robots. Como siempre un placer, hasta la próxima..


Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pulse en el enlace para mayor información.

Seo Packages
What is seo - seo tips

Mi Ping en TotalPing.com Paperblog Publisuites Calcular Page Rank