Exclusión de robot

Milton Quiroga
3 may 2024
6 Min. de lectura

Desde los tiempos heroicos de Internet hace ya varias décadas, tanto proveedores de contenido, como motores de búsquzzeda acordaron un protocolo de manejo de robots simple y sobre todo benéfico para el desarrollo incipiente de Internet. Hoy, treinta años después y con la aparición de las aplicaciones AI este sencillo acuerdo parece llegar al final de su días. Este breve artículo describe la problemática asociada y esboza una posible solución diferente utilizando tecnologías criptográficas.

El problema de la exclusión de robot

Se trataba básicamente de una relación de conveniencia definida tres décadas atrás... Por un lado, los motores de búsqueda de la época como Lycos / Yahoo / Altavista necesitaban construir índices con la información de los proveedores de contenido, de manera que sus visitantes pudieran encontrar en ellos -rápidamente- los sitios donde estaba la información relevante buscada.

Por otro lado, los proveedores de contenido necesitaban ser incluidos en los índices de los motores de búsqueda. De nada sirve para un semanario como «The Economist» el escribir y publicar artículos estupendos de mucho interés, si sus potenciales lectores no pueden encontrar el url del semanario en su motor de búsqueda favorito.

Por estas razones tanto motores de búsqueda como proveedores de contenido acordaron que un pequeño fichero (ubicado por el proveedor de contenido en proveedorContenido.com/robots.txt) definiría la relación aceptada entre el motor de búsqueda y el proveedor de contenido.

Los motores de búsqueda operan sus robots de búsqueda de información (también conocidos como spiders, crawlers, worms, WebAnts, web crawlers) recorriendo incesantemente toda la Internet visible, y en cuánto llegan a un sitio web, recuperan el fichero proveedorContenido.com/robots.txt y allí se ciñen a las directrices del sitio, acerca de qué partes de su sitio pueden ser consultadas y recuperada la información para los índices del motor de búsqueda.

Este sencillo acuerdo "pacto de caballeros" luego se estandarizó en el RFC 9309 Robots Exclusion Protocol" (https://www.rfc-editor.org/rfc/rfc9309) cuya popularidad se extendió por toda Internet, al punto que Google® estimó en el 2019 su presencia en más de 500 millones de sitios web. En su concepción más simple el fichero está formado por una serie de entradas, cada entrada empieza con un campo User-agent: que identifica el robot, junto con entradas Disallow: y Allow:, indicando qué partes del sitio web son permitidas o prohibidas visitar para ese robot específico.

Por ejemplo, el fichero de Amazon® recuperado justo hoy 22 de abril del 2024 de https://www.amazon.com/robots.txt tiene la apariencia de la figura 1.

En el podemos observar cómo Amazon® autoriza a los robots de los motores de búsqueda que construyan índices con lo que encuentren en la ubicación /gp/offer-listing/B000 y /gp/offer-listing/9000, pero prohibe que los robots recorran /gp/aw/shoppingAids/.

Así -quizás para sorpresa del lector-, los motores de búsqueda como Google® realizan una evidente violación de copyright al descargar copia de los contenidos de un sitio externo y almacenarlo en sus índices. Sólo que esta violación de derechos de autor es permitida, tolerada y aún estimulada por el mismo sitio web. La razón es conveniencia. Ninguna organización puede pensar en no aparecer en los resultados de la búsqueda que realice un cliente potencial en Google®.

Es decir por más de treinta años tanto proveedores de contenido como motores de búsqueda mantuvieron un delicado equilibrio de derechos de autor basado en un pequeño fichero, en el cual los contenidos que aparecieran como Allow: eran bienvenidas a ser visitadas por los robots para construir índices en el motor de búsqueda, mientras que las partes rotuladas como Disallow: se les solicitaba a los robots -muy encarecidamente- no visitarlas.

Así los diferentes sitios web ofertaban su contenido a los motores de búsqueda sin recibir ninguna remuneración diferente a la de aparecer en las búsquedas que los usuarios comunes realizaran en los motores de búsqueda. Un acuerdo curioso de "tu me permites usar tu contenido y yo te devuelvo tráfico".

Y entonces apareció ChatGPT

Este equilibrio basado en los contenidos de un simple fichero, beneficios mutuos y adhesión "caballerezca" a una buena conducta se mantuvo por muchos años... Hasta que aparecieron los servicios AI como ChatGPT.

Es claro que estas novedosas aplicaciones de AI, basadas en large language models realizan también una violación de copyright de los proveedores de contenido, en el sentido en que sus modelos de datos se construyen a partir de recorrer también incesantemente Internet con robots y descargando una copia local de cada contenido en sus propios servidores.

En efecto, es una copia local de los contenidos, solo que en vez de ser almacenada en archivos invertidos y recuperados mediante similaridad coseno como en los motores de búsqueda tradicionales, en el caso de las aplicaciones AI se almacena en redes neuronales ’transformer’ que deben ser ’entrenadas’ con los contenidos descargados.

Sin embargo, a pesar de cierta similaridad en la violación de copyright, hay una diferencia bastante importante... Mientras que la violación de copyright es mutuamente conveniente para los proveedores de contenidos y para el motor de búsqueda, en el caso de las aplicaciones AI, después del despojo, NO HAY NINGÚN beneficio para el proveedor de contenidos y si para el que ofrece el servicio de AI.

En una visión bastante simplista del proceso, se puede afirmar que la aplicación AI toma contenidos ilegalmente de Internet, para luego mezclarlo con otros contenidos y mediante sofisticados algoritmos de aprendizaje de redes neuronales, presenta como propias respuestas -artificialmente inteligentes- al usuario, sin que el proveedor de contenido perciba ningún beneficio en el proceso de despojo.

En efecto, el lector atento habrá notado en la figura de arriba del fichero de exclusión de robots de Amazon® las líneas destacadas en la figura 2.

Nótese como se pide específicamente al robot de OpenAI® GPTBot que no visite ni recorra absolutamente ningún contenido del sitio de Amazon®.

Así mismo, la figura 3 es parte del fichero de exclusión del semanario The Economist®.

Nótese la prohibición de recorrer cualquier parte del sitio de The Economist para OpenAI® (GPTBot), Google Bard® (Google-Extended), incluso Wayback Machine® (ia_archiver), algo claramente excesivo toda vez que los índices de la Wayback Machine® son benévolos por naturaleza y han permitido documentar la historia de Internet desde sus primeros inicios.

Discusión

Sin embargo, la adhesión al RFC 9309 Robots Exclusion Protocol no es obligatoria. En efecto, muchas de las aplicaciones AI que conocemos -como por ejemplo ChatGPT-, fueron construídas ignorando lo especificado en el protocolo de exclusión de robots.

Han habido diferentes propuestas para hacer que los elementos del fichero robots.txt tengan fuerza legal. Poco a poco se establecen algunos precedentes en USA acerca del funcionamiento de motores de búsqueda y web scraping en general en algunos estados, pero no hay todavía nada establecido en la justicia federal.

En el mundo académico, se analiza este problema desde diferentes perspectivas (https://digitalcommons.law.uw.edu/wjlta/vol13/iss3/4/), con conclusiones sombrías como “the rules as a whole are too weak, and holding them accountable is too difficult”... Sin la fuerza de una interpretación de las altas cortes, la situación queda prácticamente impune.

Así la problemática es clara, las aplicaciones AI se aprovechan de los contenidos de los sitios proveedores de contenido, sin que haya ningún tipo de reciprocidad, ni tráfico, ni beneficio económico. Sus contenidos son arrebatados y presentados como propios por las aplicaciones de inteligencia artificial.

Epílogo

Los proveedores de contenido se enfrentan ahora mismo con una disyuntiva difícil creada por la revolución AI. O se someten a que su propiedad intelectual sea arrebatada sin ninguna compensación o intentan enfrentarse ante estos gigantes utilizando apenas un fichero robots.txt, que legalmente puede ser ignorado ahora mismo, sin ninguna consecuencia.

Un fichero que además podemos anotar refleja otra época de Internet... Una época en que los participantes en Internet tenían claro que la red era una construcción social colaborativa, en la que de común acuerdo podían convivir y progresar juntos, respetando los deseos de cada cual.

Hoy en día con la sombra depredadora de la revolución AI que busca replantear completamente la cultura y la economía, claramente el acuerdo entre voluntades representado por el fichero robots.txt parece un arcaísmo, un remoto recuerdo de tiempos remotos.

Hay una posibilidad sin embargo... Este es el tipo de problemas en los que una adecuada combinación de primitivas criptográficas ofrecería una propuesta novedosa y una solución bastante elegante a un problema particularmente complejo.

Quizás sea el momento de pensar una solución diferente al problema.

Si deseas tener siempre a la mano el artículo escrito por Milton Quiroga, te invitamos a descargarlo, compartirlo y comentarnos qué opinas al respecto.

REFERENCIAS

Las imágenes usadas en esta nota fueron tomadas respectivamente de https://www.iconfinder.com/icons/4092424/robotics_spider_spiderbot_icon, https://www.amazon.com/robots.txt y https://www.economist.com/robots.txt adhiriendo estrictamente a los criterios de fair-use.

Exclusión de robot

El problema de la exclusión de robot

Y entonces apareció ChatGPT

Discusión

Epílogo

Entradas recientes

Comentarios