Los publishers se enfrentan a una nueva economía del scraping impulsada por la IA

Una nueva economía de scrapers de terceros está creciendo alrededor del contenido editorial. Más allá de las grandes compañías de IA, decenas de proveedores rastrean la web, extraen contenido de publishers y lo revenden a clientes empresariales, muchas veces sin que los medios sepan quién accede realmente a sus contenidos ni cómo se monetizan.

Según el análisis citado por Digiday, esta industria podría mover alrededor de 1.000 millones de dólares, con proveedores como Firecrawl, Exa, Tavily, Brave, You.com, Perplexity Sonar o Bright Data. El problema para los publishers es evidente: su contenido genera valor para terceros, pero ellos no participan económicamente en esas relaciones.

La presión se intensifica por el fuerte crecimiento de la actividad de bots de IA. Akamai registró un aumento del 300% en este tipo de tráfico en 2025, con los publishers como el segundo sector más afectado. Además, no se trata solo de crawlers de entrenamiento: también crecen los bots que extraen páginas en tiempo real para responder consultas en asistentes de IA, reduciendo aún más la posibilidad de que el usuario visite la fuente original.

El retorno para los publishers sigue siendo mínimo. Según Raptive, ChatGPT genera menos del 0,2% del tráfico hacia su red de 6.000 publishers independientes. Es decir, las plataformas de IA consumen contenido e infraestructura, pero apenas devuelven audiencia. Esta asimetría está alimentando una tensión creciente: los medios aportan el contenido que permite mejorar respuestas, productos y experiencias de IA, pero no reciben una compensación proporcional por ese uso.

Ante este escenario, algunos publishers están adoptando estrategias más agresivas de bloqueo de bots. Sin embargo, bloquear no es sencillo: muchas herramientas de scraping están diseñadas para esquivar restricciones, y alrededor del 30% de los scrapes de bots de IA incumplen instrucciones explícitas de robots.txt. Por eso, el debate empieza a desplazarse desde la simple defensa técnica hacia modelos más estructurados de licenciamiento, permisos y acuerdos comerciales.

La cuestión ya no es solo tecnológica, sino económica y estratégica. Si el contenido editorial alimenta productos de IA, los publishers quieren tener capacidad de decidir quién accede, bajo qué condiciones y con qué compensación. En ese contexto, el control del acceso al contenido puede convertirse en una nueva palanca de negociación para los medios.