Perdidos en el espacio

El robot de la Biblioteca Nacional de España

Robot con persona
Hola ¡ya estoy aquí!

¡Peligro Will Robinson! Me decían los logs al archivo robots.txt (un fichero en el raíz de todos los dominios que indica qué partes de una página son públicas o no para aparecer en buscadores ¡El robot de la BNE llama a tu web privada!

El quid de la cuestión está en que si un robot se comporta como debiera, la primera visita  a tu web debe ser al fichero robots.txt. En caso que le indiques que no quieres ser visitado, ahí debería parar.

Algunos crawlers, bots, robots o spiders no hacen caso de este fichero o directamente no lo consultan. En mi caso puedo poner de ejemplo a Baidu, un robot chino al que le tengo prohibido visitarme por la voracidad que tiene y el poco caso al fichero robots.txt que hace.

Lo que me ha sorprendido negativamente es que hay otros robots que tampoco hacen caso de este fichero. Éstos vienen de fuentes conocidas como pueden ser: Google (el robot que comprueba y analiza la publicidad de tu sitio para saber cómo se mostrará en un móvil, a no ser que lo nombre explícitamente) o en el caso que nos ocupa, el robot de la Biblioteca Nacional.

El contenido del fichero robots

En el momento de escribir esta entrada, el contenido de mi fichero robots.txt era:

User-agent: *
Disallow: /

Algo que quiere decir: Si eres un robot, no me visites, no me indexes, no me interesa de momento.

Cuando un robot visita tu sitio, en tu archivo de log aparece una línea como esta:

X.Y.Z.T – – [00/Xxx/20XX:00:00:00 +0200] «GET /robots.txt HTTP/1.1» 200 3744 «-«

Y a continuación aparece el identificador del robot, por ejemplo:

  • «Mozilla/5.0 (compatible; heritrix/3.3.0 +http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html)«
  • «Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)»
  • «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
  • «DomainCrawler/3.0 (info@domaincrawler.com; http://www.domaincrawler.com/)»
  • «Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)»
  • «Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)»
  • Hay otros, no tienes más que buscar en internet otros identificadores.

En 2020, el enlace para ver información es: http://www.bne.es/es/Colecciones/ArchivoWeb/

El curioso caso del robot de la BNE

Golpeando robot
¡Verás como te coja!

En el caso del robot de la Biblioteca Nacional tenemos a un robot de tipo maleducado y prepotente, pero como ocurre en estos casos, la culpa es de sus padres (políticos).

No, el robot ni está casado, ni tiene suegros ¿Entonces? ¿Quienes son sus padres políticos? Pues ni más ni menos que los que nosotros hemos elegido (y elegimos) cada cuatro años, sólo que a nivel nacional.

Nuestros queridos políticos, con buen criterio pero poca cabeza, decidieron que era bueno tener una copia digital de información que de otro modo se perderá en pocos años. Esta es la desventaja de lo digital frente al papel.

Las técnicas que se utilicen dentro de varios siglos (o simplemente años) para tratar de recuperar registros históricos ¡Prometen ser complejas e interesantes!

Si hoy día existen complejas técnicas de restauración. Hay gente dedicada a restaurar viejos pergaminos hechos pedazos, jirones de manuscritos de otra época y policromías variadas en estatuas y muros. No quiero imaginar qué harán con los discos magnéticos en el futuro ¡o peor, con los nuevos SSD!

De hecho este problema ya existe hoy día, para recuperar viejos registros presentes en unidades de cinta que ya no existen y que en ocasiones requieren una auténtica labor de ingeniería inversa.

«Un robot muy legal»

Explicado de otro modo, como dice la web de la BNE:

El Real Decreto 635/2015 regula el depósito legal de las publicaciones en línea. Este real decreto desarrolla la Ley 23/2011, de 29 de julio, de Depósito legal, en la que se consideran por primera vez objeto de depósito legal los sitios web y las publicaciones en línea.

Visitante pesado
Hola, soy el respetuoso robot de la BNE

Quieras o no quieras, te va a visitar. Salvo que hagas alguna configuración con el servidor, con el .htaccess, con alguna regla de cloudflare, un plugin específico que prohíba determinados user-agents o algo complicado.

En la imagen de la derecha puede verse al robot visitando mi página en ese momento.

Pero ¿es maleducado por defecto este robot? En realidad, sus primeros padres le enseñaron bien, puesto que es un desarrollo basado en Heritrix mantenido por Internet Archive y que hace caso de estándares, sólo que en este caso, la BNE lo ha malcriado diciéndole que en virtud de ese decreto, puede leer igual todo lo que le de la gana, incluso partes privadas de la web.

Los rastreos, según la BNE:

«Se hacen una vez al año sobre la base del listado completo de todos los dominios registrados en ESNIC (1.820.147 sitios en julio de 2016)».

Además, continúan «Por el mandato legal que tiene la BNE en materia de depósito legal, el robot ignora los ficheros robots.txt.». Lo cierto es que no he leído (aún) el decreto, pero en el no se hace mención específica al fichero robots.txt (al menos no aparece si haces una búsqueda sobre el texto del BOE).

El robot cumple la ley de Asimov de no dañar (el copyright)

Santa Claus Robot
Y este año también te anoto ¡web mala!

Por si fuera poco, no se puede consultar por internet la copia que tienen de tu web, sólo a través de sus ordenadores. Estos están  especialmente diseñados para que no puedas copiar y/o imprimir texto, por temas de derechos de copia.

Cuando por primera vez vi el bot, no sabía que sería tan maleducado. Hasta pensé en dejarle la puerta abierta sólo a él. Esta web, en principio no estaba pensada para aparecer en buscadores, pero no me importaba que la BNE tuviera copia de mi web por temas de depósito legal. Que por cierto, no asignan número, ni con esas.

Actualmente no sé qué hacer o qué pensar de la BNE, ignorar el fichero robots.txt no es una buena práctica. Tampoco lo es no dejar acceder al contenido descargado y mucho menos dejar acceder al contenido descargado desde sus equipos. Me pregunto si permitirán acceder a aquellos que tiene una prohibición en el fichero robots.txt.

Tener una web accesible al público, pero no conocida, creo que es un derecho. Que aparezca o no en buscadores, una opción y pedir a un organismo oficial que sea educado y respete los estándares es algo que no debería ser necesario mencionar.

Imágenes de la serie de los 60 «Perdidos en el espacio». La última es del malvado Santa Claus robot de Futurama.

Artículos relacionados:

Dominios .es, actualizaciones y peculiaridades