Crear un fichero robots.txt

googlebot¿Cómo indexan los buscadores tu página web? Bueno, el proceso es algo más complicado pero tiene unos programas que van recorriendo la web (siguiendo enlaces y viendo lo que hay), almacenando las direcciones y actualizando su base de datos.

Estos programas los llamamos robots (en un alarde de creatividad) y por defecto te analizan toda tu web. Pero puede pasar que tu no quieras que aparezcan ciertos resultados en los buscadores (una carpeta temporal, una carpeta de datos, los resultados de la búsqueda) o incluso que queramos decir a estos robots dónde están ciertas cosas que SI quiero que me indexen. Para eso usamos el fichero robots.txt.
Ventajas:
-Evita contenido duplicado.
-Evita que se indexe contenido “restringido” o privado.
-Aumenta la importancia de las páginas que queremos indexadas.
-Evita que aparezcan en Google las carpetas del sistema.
-Evita que el servidor mane 404 cuando el robot busca el fichero robots.txt.

Creamos un fichero robots.txt en la raíz de la web, en formato texto plano. Y aquí os dejamos algunos ejemplos.

  • Si queremos permitir el acceso de los robots a toda la web:
User-agent: *
Disallow:
  • Si quieremos prohibir el acceso de los robots a toda la web:
User-agent: *
Disallow: /
  • Un ejemplo sencillo de un fichero robots.txt podría ser:
User-agent: *

Disallow: /cgi-bin/
Disallow: /*.js$
Disallow: /*.css$

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

User-agent identifica el robot sobre el que queremos actuar. Como vemos aquí tenemos unas exclusiones de ficheros (*.css y *.js) y de un directorio (cgi-bin) y permitir todo para Google Image y Adsense. Las líneas marcadas con # son comentarios para nosotros los humanos.

  • Si queremos indicarle a los robots dónde está el fichero sitemap (muy importante tenerlo):
Sitemap: http://www.dominio.com/sitemap.xml
  • Y  para prohibir que aparezcan los resultados de las búsquedas en la página en los buscadores:
Disallow: /*?*
Disallow: /*?

Si tienes un gestor de contenidos muchos plugins te permiten hacer este fichero automáticamente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s