La mayor parte de modelos de inteligencia artificial actuales, con los que funcionan los chatbots más populares como ChatGPT, se entrenan mediante grandes bases de datos que en muchos casos se obtienen de contenidos públicos compartidos en Internet.
Una serie de expertos han demostrado ahora que esta práctica, conocida como scraping o raspado web, conlleva serios peligros si entre los modelos de IA se cuelan también archivos maliciosos, lo que puede hacer que su funcionamiento se manipule.
Así se extrae de la investigación académica que han publicado de forma conjunta la compañía especializada en IA Anthropic –responsable del chatbot Claude–, el Instituto de Seguridad de la IA de Reino Unido y el Instituto Alan Turing, titulado “Los ataques de envenenamiento contra los LLM requieren un número casi constante de muestras envenenadas”.
En este análisis, se ha descubierto que solo 250 documentos corruptos que se cuelen entre los datos de entrenamiento de un modelo de IA son capaces de generar una vulnerabilidad o una puerta trasera en herramientas como ChatGPT, Gemini y Claude.
Este ataque funciona sin importar lo grande que sea el modelo de IA
La posibilidad de corromper el funcionamiento normal de una IA al comprometer los datos con los que se entrena ya se conocía anteriormente. Hasta ahora, se creía que en los modelos de lenguaje masivo actuales requerían más documentos maliciosos para infectarse y por tanto era más difícil, pero el estudio actual acaba de descartar esa creencia.
“Este estudio representa la mayor investigación sobre envenenamiento de datos realizada hasta la fecha y revela un hallazgo preocupante: los ataques de envenenamiento requieren un número casi constante de documentos, independientemente del tamaño del modelo”, como ha explicado Anthropic.
Esto lo demostraron al analizar modelos de diferentes tamaños, entre 600 millones y 13.000 millones de parámetros o tokens, en los que pudieron comprobar que con 250 documentos maliciosos, el mal funcionamiento de la IA se producía de igual manera.
En el experimento, los expertos también han investigado si continuar el entrenamiento con datos no comprometidos puede eliminar los rastros de comportamiento corrupto en la IA, y de nuevo las conclusiones resultan preocupantes, porque aunque la efectividad de los ataques se reduce, no se eliminan los riesgos completamente.
Otras amenazas para la IA
En la investigación, los expertos consiguieron que las respuestas de un chatbot incluyeran palabras inventadas o que cambiasen de idioma sin motivo, pero esta técnica abre la puerta a amenazas más serias, como comprometer el código del algoritmo o revelar información sensible.
Al no haberse analizado este uso, puede que la cantidad de documentos infectados para este sea más alta que 250, pero ya hay investigaciones previas, como una realizada en 2024 por la Universidad Carnegie Mellon. ETH Zurich, Meta y Google DeepMind, que muestra que con el control del 0,1% de los datos de preentrenamiento pueden incorporarse puertas traseras en los chatbots de IA.
No es la primera vez que estudios demuestran las vulnerabilidad inherentes en las herramientas de IA actuales, que pese a ser recientes ya empiezan a tener eso en común con el resto de softwares y sistemas operativos que existen.
Una de estas amenazas tiene que ver con la posibilidad de crear un prompt que hace que la IA extraiga los datos personales de los usuarios de los chats, mediante el ataque conocido como Imprompter.
Conoce cómo trabajamos en ComputerHoy.
Etiquetas: Inteligencia artificial, Ciberseguridad
