top of page

Exclusión de robot

Desde los tiempos heroicos de Internet hace ya varias décadas, tanto proveedores de contenido, como motores de búsquzzeda acordaron un protocolo de manejo de robots simple y sobre todo benéfico para el desarrollo incipiente de Internet. Hoy, treinta años después y con la aparición de las aplicaciones AI este sencillo acuerdo parece llegar al final de su días. Este breve artículo describe la problemática asociada y esboza una posible solución diferente utilizando tecnologías criptográficas.

El problema de la exclusión de robot


Se trataba básicamente de una relación de conveniencia definida tres décadas atrás... Por un lado, los motores de búsqueda de la época como Lycos / Yahoo / Altavista necesitaban construir índices con la información de los proveedores de contenido, de manera que sus visitantes pudieran encontrar en ellos -rápidamente- los sitios donde estaba la información relevante buscada.


Por otro lado, los proveedores de contenido necesitaban ser incluidos en los índices de los motores de búsqueda. De nada sirve para un semanario como «The Economist» el escribir y publicar artículos estupendos de mucho interés, si sus potenciales lectores no pueden encontrar el url del semanario en su motor de búsqueda favorito.


Por estas razones tanto motores de búsqueda como proveedores de contenido acordaron que un pequeño fichero (ubicado por el proveedor de contenido en proveedorContenido.com/robots.txt) definiría la relación aceptada entre el motor de búsqueda y el proveedor de contenido.


Los motores de búsqueda operan sus robots de búsqueda de información (también conocidos como spiders, crawlers, worms, WebAnts, web crawlers) recorriendo incesantemente toda la Internet visible, y en cuánto llegan a un sitio web, recuperan el fichero proveedorContenido.com/robots.txt y allí se ciñen a las directrices del sitio, acerca de qué partes de su sitio pueden ser consultadas y recuperada la información para los índices del motor de búsqueda.


motor de búsqueda

Este sencillo acuerdo "pacto de caballeros" luego se estandarizó en el RFC 9309 Robots Exclusion Protocol" (https://www.rfc-editor.org/rfc/rfc9309) cuya popularidad se extendió por toda Internet, al punto que Google® estimó en el 2019 su presencia en más de 500 millones de sitios web. En su concepción más simple el fichero está formado por una serie de entradas, cada entrada empieza con un campo User-agent: que identifica el robot, junto con entradas Disallow: y Allow:, indicando qué partes del sitio web son permitidas o prohibidas visitar para ese robot específico.


Por ejemplo, el fichero de Amazon® recuperado justo hoy 22 de abril del 2024 de https://www.amazon.com/robots.txt tiene la apariencia de la figura 1.


En el podemos observar cómo Amazon® autoriza a los robots de los motores de búsqueda que construyan índices con lo que encuentren en la ubicación /gp/offer-listing/B000 y /gp/offer-listing/9000, pero prohibe que los robots recorran /gp/aw/shoppingAids/.


Así -quizás para sorpresa del lector-, los motores de búsqueda como Google® realizan una evidente violación de copyright al descargar copia de los contenidos de un sitio externo y almacenarlo en sus índices. Sólo que esta violación de derechos de autor es permitida, tolerada y aún estimulada por el mismo sitio web. La razón es conveniencia. Ninguna organización puede pensar en no aparecer en los resultados de la búsqueda que realice un cliente potencial en Google®.


Es decir por más de treinta años tanto proveedores de contenido como motores de búsqueda mantuvieron un delicado equilibrio de derechos de autor basado en un pequeño fichero, en el cual los contenidos que aparecieran como Allow: eran bienvenidas a ser visitadas por los robots para construir índices en el motor de búsqueda, mientras que las partes rotuladas como Disallow: se les solicitaba a los robots -muy encarecidamente- no visitarlas.


Así los diferentes sitios web ofertaban su contenido a los motores de búsqueda sin recibir ninguna remuneración diferente a la de aparecer en las búsquedas que los usuarios comunes realizaran en los motores de búsqueda. Un acuerdo curioso de "tu me permites usar tu contenido y yo te devuelvo tráfico".


Y entonces apareció ChatGPT


Este equilibrio basado en los contenidos de un simple fichero, beneficios mutuos y adhesión "caballerezca" a una buena conducta se mantuvo por muchos años... Hasta que aparecieron los servicios AI como ChatGPT.


Es claro que estas novedosas aplicaciones de AI, basadas en large language models realizan también una violación de copyright de los proveedores de contenido, en el sentido en que sus modelos de datos se construyen a partir de recorrer también incesantemente Internet con robots y descargando una copia local de cada contenido en sus propios servidores.


En efecto, es una copia local de los contenidos, solo que en vez de ser almacenada en archivos invertidos y recuperados mediante similaridad coseno como en los motores de búsqueda tradicionales, en el caso de las aplicaciones AI se almacena en redes neuronales ’transformer’ que deben ser ’entrenadas’ con los contenidos descargados.


Sin embargo, a pesar de cierta similaridad en la violación de copyright, hay una diferencia bastante importante... Mientras que la violación de copyright es mutuamente conveniente para los proveedores de contenidos y para el motor de búsqueda, en el caso de las aplicaciones AI, después del despojo, NO HAY NINGÚN beneficio para el proveedor de contenidos y si para el que ofrece el servicio de AI.


En una visión bastante simplista del proceso, se puede afirmar que la aplicación AI toma contenidos ilegalmente de Internet, para luego mezclarlo con otros contenidos y mediante sofisticados algoritmos de aprendizaje de redes neuronales, presenta como propias respuestas -artificialmente inteligentes- al usuario, sin que el proveedor de contenido perciba ningún beneficio en el proceso de despojo.


En efecto, el lector atento habrá notado en la figura de arriba del fichero de exclusión de robots de Amazon® las líneas destacadas en la figura 2.


robots de Amazon®

Nótese como se pide específicamente al robot de OpenAI® GPTBot que no visite ni recorra absolutamente ningún contenido del sitio de Amazon®.


Así mismo, la figura 3 es parte del fichero de exclusión del semanario The Economist®.


The Economist

Nótese la prohibición de recorrer cualquier parte del sitio de The Economist para OpenAI® (GPTBot), Google Bard® (Google-Extended), incluso Wayback Machine® (ia_archiver), algo claramente excesivo toda vez que los índices de la Wayback Machine® son benévolos por naturaleza y han permitido documentar la historia de Internet desde sus primeros inicios.


Discusión


Sin embargo, la adhesión al RFC 9309 Robots Exclusion Protocol no es obligatoria. En efecto, muchas de las aplicaciones AI que conocemos -como por ejemplo ChatGPT-, fueron construídas ignorando lo especificado en el protocolo de exclusión de robots.


Han habido diferentes propuestas para hacer que los elementos del fichero robots.txt tengan fuerza legal. Poco a poco se establecen algunos precedentes en USA acerca del funcionamiento de motores de búsqueda y web scraping en general en algunos estados, pero no hay todavía nada establecido en la justicia federal.


En el mundo académico, se analiza este problema desde diferentes perspectivas (https://digitalcommons.law.uw.edu/wjlta/vol13/iss3/4/), con conclusiones sombrías como “the rules as a whole are too weak, and holding them accountable is too difficult”... Sin la fuerza de una interpretación de las altas cortes, la situación queda prácticamente impune.


Así la problemática es clara, las aplicaciones AI se aprovechan de los contenidos de los sitios proveedores de contenido, sin que haya ningún tipo de reciprocidad, ni tráfico, ni beneficio económico. Sus contenidos son arrebatados y presentados como propios por las aplicaciones de inteligencia artificial.


Epílogo


Los proveedores de contenido se enfrentan ahora mismo con una disyuntiva difícil creada por la revolución AI. O se someten a que su propiedad intelectual sea arrebatada sin ninguna compensación o intentan enfrentarse ante estos gigantes utilizando apenas un fichero robots.txt, que legalmente puede ser ignorado ahora mismo, sin ninguna consecuencia.


Un fichero que además podemos anotar refleja otra época de Internet... Una época en que los participantes en Internet tenían claro que la red era una construcción social colaborativa, en la que de común acuerdo podían convivir y progresar juntos, respetando los deseos de cada cual.


Hoy en día con la sombra depredadora de la revolución AI que busca replantear completamente la cultura y la economía, claramente el acuerdo entre voluntades representado por el fichero robots.txt parece un arcaísmo, un remoto recuerdo de tiempos remotos.


Hay una posibilidad sin embargo... Este es el tipo de problemas en los que una adecuada combinación de primitivas criptográficas ofrecería una propuesta novedosa y una solución bastante elegante a un problema particularmente complejo.


Quizás sea el momento de pensar una solución diferente al problema.











Si deseas tener siempre a la mano el artículo escrito por Milton Quiroga, te invitamos a descargarlo, compartirlo y comentarnos qué opinas al respecto.


Cyte_NL_92_Excluyendo_robots
.pdf
Descargar PDF • 964KB



REFERENCIAS


10 visualizaciones0 comentarios
bottom of page