¿Qué se entiende por Robot o Araña del buscador..?

¿Qué se entiende por Robot o Araña del buscador..?

Bender the robot

Imagen de Bender

Para todos/as aquellos/as que estén comenzando a posicionar ya sea su propia web o una página ajena seguro que encuentran esta entrada interesante, para los que ya tienen más experiencia seguro que todo esto ya les suena más que de sobra y no necesitan leer nada de lo que voy a escribir a continuación.

Antes de decir lo que significa la palabra Robot o Araña del buscador diremos que en primer lugar que un buscador es un servidor u ordenador que contiene toda la información referente a las páginas web de Internet que los Robots van recaudando, así que el Robot es entonces el mecanismo, programa o script que lanza el buscador para que rastree la red en busca de datos para después almacenar estos en los discos duros de sus bases de datos y poder así hacer calificaciones y dar a cada una un índice dentro de los resultados de búsquedas, es una labor incansable pudiendo pasa más de una vez por todas las páginas que conforman tu web (o por las que tú le hayas autorizado previamente), la frecuencia con la que pasa por la página será un primer referente para saber que valor de da el buscador a tus contenidos, a mayor frecuencia querrá decir que tus contenidos cambian también con mucha frecuencia de tal forma que los foros y páginas de noticias en general son rastreados con mucha frecuencia para tener registrados todos los cambios que en ellos se van produciendo, el funciona miento es el siguiente, google por ejemplo, lanza el Robot a que rastree la red en busca de datos escritos en las páginas web, estos datos serán los textos, etiquetas de imágenes, meta-datos de cabeceras, etc, etc, que están en el interior de las páginas, leen toda la página web de arriba a abajo y después almacenan toda esa información en la memoria interna del servidor al que pertenezcan para así más tarde el buscador por medio de complicados algoritmos dividir toda esa información en géneros y dar un ranking a cada uno de los resultados dependiendo de multitud de factores (factores a demás secretos y cambiantes a lo largo del tiempo).

Cada buscador tiene su propio robot o por lo menos los más importantes puesto que usan el mismo varios buscadores, por ejemplo el buscador Google usa el robot o araña “GoogleBot” del que en su página web podemos leer lo siguiente:

Googlebot es el robot que utiliza Google para ‘rastrear’ los sitios de Internet. No solamente indexa páginas web (HTML), sino que también extrae información de ficheros PDF, PS, XLS, DOC y algunos otros más.

La frecuencia con la que Googlebot accede a un sitio web depende del PageRank de éste. Contra mayor sea este valor, el robot accederá más asiduamente a sus páginas.

Por ejemplo, podemos comprobar que los sitios con PR10 (el valor más alto), como yahoo.com o usatoday.com, han sido ‘rastreados’ por Googlebot ayer o incluso o hoy mismo, mientras que otros han sido accedidos hace varias semanas. Esto se puede comprobar accediendo al ‘cache’ de esta página.

Para comprobar si Googlebot ha accedido a nuestro sitio web, deberemos echar un vistazo a los logs de nuestro servidor. En ellos, deberemos observar si hay registros de accesos en los que aparezca ‘googlebot’. Generalmente aparecerá el nombre del servidor, el cual podrá ser alguno de estos:

 

SERVIDOR DIRECCION IP
crawl1.googlebot.com 216.239.46.20
crawl2.googlebot.com 216.239.46.39
crawl3.googlebot.com 216.239.46.61
crawl4.googlebot.com 216.239.46.82
crawl9.googlebot.com 216.239.46.234
crawler1.googlebot.com 64.68.86.9
crawler2.googlebot.com 64.68.86.55
crawler14.googlebot.com 64.68.82.138

Googlebot intentará acceder, como hacen la mayoría de los robots de los motores de búsqueda, al fichero ‘robots.txt’. En este archivo se deberán indicar las zonas de nuestro sitio web donde no queremos que entre ni Googlebot ni el resto de los buscadores. Para conocer más sobre ‘robots.txt’, existe un magnígico recurso: www.robotstxt.org.
Una vez que Googlebot haya ‘rastreado’ nuestra página, seguirá los enlaces que en ella encuentre (los HREF y los SRC).
Por lo tanto, si quieres que Googlebot indexe tu página web, solamente es necesario que algún otro sitio tenga un hiperenlace al tuyo. Si no es así, siempre puedes añadir directamente tu URL.

Además de este robot GoogleBot, existe otro, llamado FreshBot que ‘rastrea’ con mayor frecuencia los sitios webs con las noticias ‘más frescas’.

Poco más podemos añadir a lo que nos indican desde [http://google.dirson.com/googlebot.php] tan solo el final del texto cuando habla del archivo de con figuración robot.txt, decir tan solo que se trata como bien indican de un archivo con el que le podemos indicar no solo a google si no a todos los buscadores existentes que partes de la página puede rastrear o más bien cuales no puede porque el resto las intentará rastrear todas.

Para el buscador de yahoo tenemos otro modelo diferente de robot el denominado por ellos mismos “Slurp” y que tiene un funciona miento similar al anterior de nuestro todo poderoso Google, sobre “Slurp” podemos encontrar la siguiente información:

Yahoo! Slurp es el robot rastreador (araña) de Yahoo! para el indexado de páginas web. Yahoo! Slurp recopila documentos de la Web para construir un índice rastreable para servicios de búsqueda que usan el motor de búsqueda de Yahoo!. Estos documentos son descubiertos y rastreados porque otros sitios web contienen enlaces que dirigen hacia ellos.

Como parte del sistema de rastreo, Yahoo! Slurp tomará en cuenta los estándares robots.txt para asegurarse de que no se rastrean e indexan las páginas que no quieres que aparezcan en resultados de búsqueda a través de Yahoo! Search Technology. Si una página está protegida por un fichero robot.txt no será considerada para inclusión ni indexación en la base de datos de nuestro motor de búsquedas.

Información que hemos extraido de http://help.yahoo.com/l/es/yahoo/search/slurp/ (para que pueda ser ampliada por quien lo desee).

Otro punto a tener en cuenta y este es vital para el buen entendimiento entre tu portal y el buscador sería tener en cuenta que el robot es un scrip o una máquina a secas y que por lo tanto tenemos que tener esto en cuenta a la hora de construir el portal, por que decimos esto, porque los buscadores todavía no pueden leer ciertas tecnologías que por otro lado están más que arraigadas en los portales de internet, tecnologías como por ejemplo AJAX o ActioScript de Flash son total mente invisibles para nuestra máquina o robot, cuando el buscador pasa por la página todas las partes construidas con ellas como por ejemplo las animaciones Flash que contenga aunque estas tengan textos no las podrán leer y no sabrán que contenido tienen, no sumarán puntos en el algoritmo posterior de posicionamiento, es cierto que se está avanzando mucho en el tema y que por ejemplo google ya plantea ciertas soluciones al respecto pero por el momento a día de hoy es mejor tener esto en cuenta y emplearlas lo justo y necesario para dar siempre opción por medio de HTML a que el buscador indexe nuestros contenidos.
También tenemos el hecho de que tampoco manejan bien los parámetros que se utilicen en los enlaces internos que empleemos en nuestro portal, esto quiere decir que si por ejemplo tienes una página con un listado de productos y para ver el detalle de cada uno de ellos tienes que pasar un parámetro por la url a la araña del buscador no se le va a ocurrir que tiene que pasar ningún parámetro, leerá la página y punto cuando esta necesita los parámetros para poder mostrar el contenido adecuado en su interior, para resolver esto existen las herramientas para webmaster que proponen ambos buscadores, también hablaremos de ellas en próximas entradas de momento decir que se pueden indicar los parámetros desde estas herramientas y que para la construcción del portal será mejor emplear parámetros que indiquen o contengan contenidos relacionados con lo que van a mostrar, por ejemplo para un listado de productos será mejor pasar el nombre del producto como parámetro que su id, o pasar los dos para que el buscador tenga un buen indicativo de su contenido y ganemos así algunos puntos a la hora de salir en una determinada búsqueda posterior.
Estos serían de momento los dos robots o arañas más importantes y los que se tiene que vigilar que visiten nuestras páginas, en posteriores entradas al blog hablaremos de como crear un archivo robot.txt y de como usar las herramientas para webmaster que nos proponen tanto google como yahoo a través de Internet, gracias a todos por la atención y un saludo.

A %d blogueros les gusta esto:

Mi Ping en TotalPing.com Paperblog Publisuites Calcular Page Rank Spam