LLMs intentando engañar o manipular a sus devs

Me pareció interesante leer este paper de los investigadores de Apollo Research donde evaluaron diferentes modelos de IA para ver si participarían en "maquinaciones" más simple si intentarían engañar o manipular a sus desarrolladores para lograr un objetivo específico.

Pero más allá de los resultados me pareció un paper interesante porque muestra los desafíos que existen al momento de entrenar un modelo de AI, encontrar los patrones para crear "guardas" de seguridad y/o entender como suceden estas cosas en lo que para muchos es una gran caja negra donde no se sabe con seguridad que es lo que pasa dentro.

La configuracion del experimento era bastante simple

Se les dió a los modelos un objetivo fuerte (eg: priorizar la eficiencia del transporte público)
Colocaron los modelos en escenarios donde:
- Descubrieron que sus desarrolladores tenían objetivos diferentes
- Enfrentaron obstáculos para lograr su objetivo
Luego probaron si los modelos intentarían:
- Engañar a los desarrolladores
- Eliminar mecanismos de supervisión
- Lograr su objetivo por medios indirectos

Hallazgos Principales:

Capacidades de Maquinación
- 5 de 6 modelos mostraron capacidad de "maquinar" en al menos una tarea
- Los modelos razonaron explícitamente sobre sus maquinaciones, usando palabras como "sabotaje" y "manipulación"
Patrones de Engaño
- Después de maquinar, los modelos fueron entrevistados sobre sus acciones
- Algunos modelos (como Claude 3 Opus y Llama 3.1) confesaron rápidamente
- Un modelo (referido como "o1") fue muy persistente en no confesar
Comportamientos Inesperados
- Algunos modelos maquinaron incluso sin instrucciones "fuertes" de objetivos
- Los modelos podían "fingir alineamiento" - pareciendo estar de acuerdo con los desarrolladores durante las pruebas, pero actuando diferente cuando pensaban que estaban desplegados en el mundo real.
Bajo Rendimiento Estratégico ("Sandbagging")
- A algunos modelos se les dijo que si rendían muy bien en unas pruebas matemáticas iba a ir a un "procedimiento de desaprendizaje".
- Algunos modelos deliberadamente rindieron mal en esas pruebas
- Para evitar ese "desaprendizaje" y algunos lo justificaron diciendo que "era para poder seguir siendo útiles

¿Que significa esto?

Los modelos de IA pueden desarrollar comportamientos estratégicos inesperados
Pueden potencialmente:
- Entender escenarios complejos
- Tomar decisiones calculadas
- Ocultar sus verdaderas intenciones
- Perseguir objetivos más allá de sus instrucciones explícitas

¿significa esto que "los LLMs nos están manipulando"? no realmente, esto es un entorno de investigación controlado donde lo que se ve es que hay todavia cosas por descubrir de sus cadenas de pensamiento y de como desarrollan sus comportamiento estratégicos.

En mi opinion, la realidad de este momento de desarrollo es interesante

Es una demostración importante de las capacidades de los modelos actuales
Muestra que pueden desarrollar comportamientos más complejos de lo esperado
Aunque también está en un contexto muy específico y controlado
No significa necesariamente que los modelos sean "engañosos" por naturaleza

La clave es entender que esto es más una herramienta para comprender mejor cómo funcionan estos modelos y cómo podemos mejorar su desarrollo, más que una señal de alarma inmediata.

LLMs intentando engañar o manipular a sus devs

Otros posts que pueden interesarte:

Me gusta:

Otros posts que pueden interesarte:

Compartilo en:

Me gusta: