Noticias de LLMs

LLMs intentando engañar o manipular a sus devs

Me pareció interesante leer este paper de los investigadores de Apollo Research donde evaluaron diferentes modelos de IA para ver si participarían en "maquinaciones" más simple si intentarían engañar o manipular a sus desarrolladores para lograr un objetivo específico.

Pero más allá de los resultados me pareció un paper interesante porque muestra los desafíos que existen al momento de entrenar un modelo de AI, encontrar los patrones para crear "guardas" de seguridad y/o entender como suceden estas cosas en lo que para muchos es una gran caja negra donde no se sabe con seguridad que es lo que pasa dentro.

La configuracion del experimento era bastante simple

  1. Se les dió a los modelos un objetivo fuerte (eg: priorizar la eficiencia del transporte público)
  2. Colocaron los modelos en escenarios donde:
    • Descubrieron que sus desarrolladores tenían objetivos diferentes
    • Enfrentaron obstáculos para lograr su objetivo
  3. Luego probaron si los modelos intentarían:
    • Engañar a los desarrolladores
    • Eliminar mecanismos de supervisión
    • Lograr su objetivo por medios indirectos

Hallazgos Principales:

  1. Capacidades de Maquinación
    • 5 de 6 modelos mostraron capacidad de "maquinar" en al menos una tarea
    • Los modelos razonaron explícitamente sobre sus maquinaciones, usando palabras como "sabotaje" y "manipulación"
  2. Patrones de Engaño
    • Después de maquinar, los modelos fueron entrevistados sobre sus acciones
    • Algunos modelos (como Claude 3 Opus y Llama 3.1) confesaron rápidamente
    • Un modelo (referido como "o1") fue muy persistente en no confesar
  3. Comportamientos Inesperados
    • Algunos modelos maquinaron incluso sin instrucciones "fuertes" de objetivos
    • Los modelos podían "fingir alineamiento" - pareciendo estar de acuerdo con los desarrolladores durante las pruebas, pero actuando diferente cuando pensaban que estaban desplegados en el mundo real.
  4. Bajo Rendimiento Estratégico ("Sandbagging")
    • A algunos modelos se les dijo que si rendían muy bien en unas pruebas matemáticas iba a ir a un "procedimiento de desaprendizaje".
    • Algunos modelos deliberadamente rindieron mal en esas pruebas
    • Para evitar ese "desaprendizaje" y algunos lo justificaron diciendo que "era para poder seguir siendo útiles

¿Que significa esto?

  • Los modelos de IA pueden desarrollar comportamientos estratégicos inesperados
  • Pueden potencialmente:
    • Entender escenarios complejos
    • Tomar decisiones calculadas
    • Ocultar sus verdaderas intenciones
    • Perseguir objetivos más allá de sus instrucciones explícitas

¿significa esto que "los LLMs nos están manipulando"? no realmente, esto es un entorno de investigación controlado donde lo que se ve es que hay todavia cosas por descubrir de sus cadenas de pensamiento y de como desarrollan sus comportamiento estratégicos.

En mi opinion, la realidad de este momento de desarrollo es interesante

  • Es una demostración importante de las capacidades de los modelos actuales
  • Muestra que pueden desarrollar comportamientos más complejos de lo esperado
  • Aunque también está en un contexto muy específico y controlado
  • No significa necesariamente que los modelos sean "engañosos" por naturaleza

La clave es entender que esto es más una herramienta para comprender mejor cómo funcionan estos modelos y cómo podemos mejorar su desarrollo, más que una señal de alarma inmediata.

| Inteligencia Artifical Seguridad
Tags:
AI innovación LLMs Seguridad

"There is no spoon": Por qué los LLMs no 'alucinan'

Recuerdo en The Matrix cuando Neo llega a conocer a The Oracle: ahí se da cuenta de que no hay una cuchara, sino solo la representación mental de una cuchara. Es entonces cuando comprende que la realidad no es como la percibimos, sino una interpretación que hace nuestro cerebro: lo mismo nos pasa cuando imaginamos que un LLM alucina o que entiende inherentemente lo que le preguntamos.

La cita de The Matrix funciona aquí como una metáfora clave: “No existe la cuchara” en el sentido de que el modelo no tiene ninguna percepción o concepto inherente de la realidad; está imitando patrones estadísticos sin una comprensión o creencia subyacente. Por eso en lugar de tratar de “ver la cuchara” (o una realidad concreta), un LLM se limita a procesar y reproducir correlaciones.

El “fallo” en el sistema es de nuestra percepción humana cuando se espera una precisión o intencionalidad que el modelo no puede ofrecer, no es un fallo del modelo.

Leer completa
| Inteligencia Artifical Rants
Tags:
AI IA innovación LLMs