2
El lenguaje de los Robots: HTML, archivo Sitemap.xml y archivo Robots.txt
Para comprender el funcionamiento de los robots que buscan y catalogan contenido en nombre de los motores de búsqueda, debemos comprender primero los “gustos” de estos robots para poder “comunicarnos”, o mejor dicho, enviar señales efectivas a estos agentes.
HTML
En el último tiempo el lenguaje HTML se ha transformado en el predielcto por los motores de búsqueda. Algunos motores como google ya pueden leer el contenido dentro de archivos de otros tipos, como FLASH… formato que ofrece flexibilidad en el diseño, pero que desde el punto de vista de la optimización sigue en desventaja frente al HTML. Las principales razones, desde mi punto de vista, que han llevado al HTML a convertirse en lenguaje STANDARD son tres:
1.- Los archivos HTML, por lo general, cuentan con texto dentro del contenido. Esto permite tanto a los usuarios como a los robots la digestión del contenido, y también la correcta indexación que permite ofrecer resultados al momento de las búsquedas en los motores.
2.- Los archivos HTML son livianos, es decir, pueden desplegar mucho contenido y utilizar poco espacio físco (en disco duro)… lo que asegura una rápida transmición del contenido.
3.- Los archivos HTML permiten ordenar el contenido a través de URLs independientes, es decir, mediante páginas autónomas pero relacionadas entre ellas.
ROBOTS.txt
Por otro lado encontramos los archivos ROBOTS.txt. Estos siempre van en el directorio raiz del sitio y es el único medio que tenemos para indicar que contenido queremos poner a disposición de los motores y cual reservamos exclusivamente para los usuarios del sitio. Tomemos dos ejemplos:
1.- http://www.tmduc.com/robots.txt >>> Este simple archivo indica que todos los robots (User-agent: *) pueden acceder a todo el contenido (Disallow:)
2.- http://www.facebook.com/robots.txt >>> Este archivo indica que directorios pueden ser indexados por los robots (agentes) para luego mostrarlos en las busquedas. Podemos comprender porque las fotos de facebook no aparecen en las búsquedas de los motores.
SITEMAP.xml
Finalmente encontramos los archivos sitemap.xml. Estos archivos crean un índice (idéntico al sitemap.html que podemos encontrar en muchas webs para que los usuarios exploren la estructura del sitio) especialmente diseñado para alimentar a los robots de los motores de búsqueda. Esta indicación permite un trabajo mucho más eficiente de los robots. Esto es fundamental en web dinámicas (cuyas páginas HTML están disponible sólo cuando un usuario solicita la infomración) y también en web grandes (compuestas de muchas páginas HTML individuales). En el año 2006 los 3 grandes (Google+Yahoo!+Microsoft) comunicaron la implementación de un nuevo STANDARD o PROTOCLO para los archivos robots.txt, e incluso mantienen la web http://www.sitemaps.org/es/ en forma conjunta. Un gran avance gracias a este protocolo es la capacidad de citar el sitemap dentro del archivo robots.txt (es recomendable poner este archivo en el directorio raiz, similar al ejemplo que mostramos más abajo), lo que indica a los robots donde encontrar el mapa del sitio… para ello sólo debemos agregar en una línea nueva del archivo robots.txt lo siguiente:
Sitemap: http://www.tmduc.com/sitemap.xml
RESUMEN:
Para influir en los resultados de las búsquedas primero debemos contar con una web correctamente creada en HTML, un archivo ROBOTS.txt que indique que contenido catalogar, digerir e indexar, y, por último, una mapa del sitio para facilitar las cosas y hacer el trabajo de los robots más eficiente.





Feed RSS
Muy interesante.
HAce un tiempo programamos un proyecto para “competir” con portal inmobiliario y el tema de que cada aviso apareciera en google era importantisimo, tratamos y funciono!! Usamos las 2 herramientas y además, claro el sitio era en HTML y PHP(que es leido como html por los browser y robots)
Saludos!
Personalmente estoy metido de cabeza con DRUPAL (www.drupal.org), que es precisamente una herramienta php vista por los Browsers como HTML.