Internet está cambiando tanto que algunas personas clave del sector de la tecnología se están empezando a preocupar. Sam Altman, CEO de OpenAI, la empresa tras el famoso ChatGPT, ha reconocido algo que antes muchos veían como una teoría de conspiración: la llamada teoría de la internet muerta podría estar pasando de ser solo una idea loca a una realidad.
Esta básicamente dice que gran parte del contenido que se consume en internet ya no está creado por personas reales, sino por bots y sistemas de inteligencia artificial que generan textos, imágenes y vídeos de forma automática. De forma simple, ya hay una inmensa cantidad de artículos, posts y hasta comentarios en redes sociales que no la hacen humanos, sino máquinas.
De esta forma, la línea entre lo verdadero y lo falso se vuelve tan difusa que se hace casi imposible confiar en lo que ves o lees.
Los investigadores hablan incluso de un “envilecimiento del cerebro digital”, porque esta enorme cantidad de contenido falso o creado para ser viral hace que los sistemas de inteligencia artificial que se entrenan con ellos también empeoren en capacidad, precisión y hasta en sentido común. Es la pescadilla que se muerde la cola y la IA comienza a olvidar el pensamiento profundo y original porque aprende de información cada vez más pobre.
El ciclo vicioso es obvio: cuanto más basura hay, peor se vuelve la inteligencia artificial, y cuando la IA empeora, produce más contenido basura que alimenta aún más una internet ya considerada muerta. Rizando el rizo, esta situación afecta a la creación de opinión pública y puede hacer realmente fácil que ciertas ideas o noticias falsas se propaguen sin control.
Sam Altman y otros expertos creen que la solución pasa por cambios drásticos, desde limitar el contenido generado automáticamente, crear herramientas que permitan distinguir la información verdadera de la sintética, y, sobre todo, que la gente sepa que esto realmente está ocurriendo.
“El contenido generado por humanos está desapareciendo y no tenemos copia”
Esto es lo que algunos expertos llaman model collapse o colapso del modelo. Aunque también es verdad que se ha hecho más conocida la frase de ‘Entrada de Basura, Salida de Basura’ (Garbage In/Garbage Out o GIGO, por sus siglas en inglés).
Es por eso que preservar el contenido humano original se ha vuelto una necesidad absoluta. Los modelos de IA aprenden a partir de grandes cantidades de datos, y si esos datos no dejan ver la realidad humana, la IA tampoco podrá entendernos bien ni ayudarnos.
Por ejemplo, si quieres que un chatbot te explique un tema médico, lo que sería perfecto es que haya aprendido de textos escritos por expertos reales, no de respuestas generadas por otras máquinas que pueden tener errores.
Quizá no te des cuenta, pero cuando buscas algo en Google, lees noticias o te metes un foro, estás interactuando con una enorme de información que mezcla textos humanos y generados por IA. Eso puede influir en lo que crees, en cómo te informas y en las decisiones que tomas.
Según Sam Altman, se generan ya más de 100.000 millones de palabras al día con IA, muchas de ellas accesibles en internet.
Un estudio de Bloomberg Research puso este problema en perspectiva, analizando cómo once de los principales modelos de lenguaje, incluyendo GPT-4o y Llama-3, utilizaban más de 5.000 indicaciones dañinas, que “producían malos resultados”.
Para evitar este colapso, algunos investigadores están trabajando para crear archivos y bases de datos con contenido original, anterior a la explosión de la IA generativa. Por ejemplo, proyectos como LowBackgroundSteel.ai recopilan sitios web, textos y datos creados antes de 2022 para que no se pierdan.
También hay iniciativas como el Arctic Code Vault de GitHub, que guardó una copia de millones de líneas de código open source en una mina en Noruega, como un archivo para futuras generaciones. Son como cápsulas del tiempo digitales que preservan la esencia humana en la red.
Además, se están creando técnicas para que los modelos de IA puedan identificar y diferenciar el contenido generado por humanos del generado por máquinas, y así evitar que se ‘autoalimenten’ con textos sintéticos que degradan su calidad.
Conoce cómo trabajamos en ComputerHoy.
Etiquetas: Chrome, Inteligencia artificial, Software


