Muchas veces los clientes nos contactan porque detectan un uso intensivo e inusual del ancho de banda del sitio, muchas veces esto se debe a razones legítimas, cuando el cliente ha realizado una campaña publicitaria del sitio o ha realizado trabajos de SEO, lo cual incrementa de manera significativa las visitas al sitio y proporcionalmente el incremento del uso de ancho de banda. En la mayoría de los sitios pequeños o medianos esto es casi indetectable pero cuando es un sitio grande o con una cantidad considerable de archivos de imagenes o videos, el ancho de banda que se consume por los robots puede ser mucho.
Este artículo tiene como finalidad informar y brindarte herramientas para que evalúes y apliques algunas de las técnicas para bloquear los robots malos.
El siguiente vínculo te informa sobre las nociones básicas sobre el archivo robots.txt y te muestra algunos ejemplos para poder bloquear la indexación de tu sitio web.
http://es.wikipedia.org/wiki/Est%C3%A1ndar_de_exclusi%C3%B3n_de_robots
http://es.wikipedia.org/wiki/Est%C3%A1ndar_de_exclusi%C3%B3n_de_robots#Ejemplos
En el siguiente link puedes ver un proyecto de Apache que usa reglas de .htaccess para bloquear los robots malos. Agregando dichas líneas en tu archivo .htaccess bloquea una gran cantidad de robots.