Categorías
Inteligencia Artifical

ChatGPT y el contexto

En 1973, Arthur C. Clarke escribió Perfiles del Futuro: Una Investigación sobre los Límites de lo Posible“, donde formuló sus famosas “Tres Leyes”, siendo la tercera la más citada: “Cualquier tecnología suficientemente avanzada es indistinguible de la magia.” Esta frase hoy me persigue, especialmente con el auge de los Modelos de Lenguaje Grande (LLMs) o el uso de ChatGPT. Estos modelos pueden generar resultados que se sienten mágicos, pero no entender el papel que juega el contexto es no entender su esencia misma.

El contexto no es solo una característica; es la base que permite a estos modelos realizar su “magia”.

El contexto en los LLMs se refiere a los diversos tipos de información que el modelo procesa para generar una respuesta relevante y eso incluye al menos 3 divisiones:

  • La consulta: esto es el texto o consulta que el usuario quiere entender y sirve como el prompt principal para la respuesta del modelo.
  • Instrucciones del usuario: cualquier directiva específica o guía dada por el usuario, como pedir un resumen, una explicación detallada o un cambio en el tono. Esto incluye que le digas cual es el perfil al que debe apuntar (eg: “soy un arquitecto de 35 años, con 8 de experiencia en diseño de aeropuertos”) y que puedes incluir siempre en la consulta.
  • Conocimiento amplio: la información con la que el modelo ha sido entrenado, incluidos libros, artículos y otras fuentes de datos, que le permite entender el lenguaje, los conceptos y los contextos más allá de la entrada inmediata.

Cuando el LLM genera respuestas, está sintetizando estos elementos, por eso las respuestas generadas suenan coherentes y, sobre todo, relevantes para las expectativas del usuario. Sin aprovechar este contexto, el modelo perdería su capacidad de proporcionar respuestas significativas para tus expectativas o, luego de refinar el “context window”, que sean realmente precisas.

“Now you’re looking for the secret, but you won’t find it, because of course you’re not really looking. You don’t really want to know. You want to be fooled.”
― Christopher Priest, The Prestige (citado antes)

Personalizar los LLMs para aprovechar al máximo la entrada inmediata y las instrucciones del usuario es clave para garantizar respuestas relevantes y efectivas. (Nota: obviamente no hablo de personalizar el modelo porque no está a tu alcance). Por ejemplo:

  • Optimizar la entrada inmediata: puedes ser preciso en la forma en que formulas tus consultas para obtener las respuestas más precisas y enfocadas. En lugar de hacer preguntas vagas, como “¿Qué es la IA?”, intenta algo más específico para que la respuesta salga adaptada a un perfil como el tuyo:
    • “Explica los beneficios clave de la IA en la salud en términos simples, soy un paciente de 53 años que conoce poco de tecnología.
  • Personalizar las instrucciones del usuario: puedes guiar al modelo para que produzca contenido que se ajuste a tus preferencias y las opciones son ilimitadas. Por ejemplo, podrías pedir que se adapte a un formato: “Resume este artículo en 3 puntos”. O a tu conocimiento: “Dame una explicación detallada con términos técnicos”. O a tu necesidad de mimos al ego:
    • “De todas nuestras interacciones, ¿cuál es una cosa que puedes decirme sobre mí que tal vez no sepa sobre mí?”

Cuanto más refines y personalices tus entradas, mejor podrá el modelo responder a tus necesidades específicas.

Además de mejorar las interacciones con preguntas más precisas, podés personalizar ChatGPT/Claude o MetaAI para que se adapte aún más a tus necesidades.

Por ejemplo, ChatGPT puede recordar detalles de tus conversaciones previas, lo que le permite ofrecer respuestas más relevantes y personalizadas a largo plazo. Podés preguntarle directamente qué recuerda de ti para que borres lo que no te interese o agregues datos o pedirle que te ayude a ajustar la forma en que responde a tus solicitudes.

Por ejemplo, una simple pregunta como “¿Qué sabes sobre mí?” te mostrará la información que ChatGPT ha guardado de tus interacciones previas, brindándote una mayor comprensión de cómo utiliza el contexto para personalizar su asistencia y quizás tengo la ventaja de haber heche una carrera humanistica donde se entiende que:

La importancia del contexto en comunicación es que organiza y da sentido al mensaje. El significado de un mensaje no depende solo de su estructura gramatical, sintáctica o léxica sino también del contexto que acompaña a un enunciado y afecta a su interpretación.

Que lindo futuro nos espera con prompt engineering.

Categorías
Google Inteligencia Artifical

NotebookLM: de contenido a podcast en segundos, una gran idea de Google con AI

Me gusta NotebookLM por varias razones: primero, porque es una gran muestra de las cosas que se pueden hacer con la IA generativa combinando modelos; luego, porque algunos casos de uso me están sorprendiendo; y finalmente, porque, en cierto sentido, muestra que Google sigue siendo capaz de desarrollar productos interesantes.

¿Qué es y cómo funciona NotebookLM?

Para los que no lo conozcan, NotebookLM (antes conocido como Project Tailwind) es una herramienta impulsada por IA, diseñada para ayudar a los usuarios a organizar, analizar y obtener información de las notas que toman, sean estas propias o documentos que uno sube. También funciona con enlaces que uno ingresa en el sistema y utiliza una combinación de modelos de lenguajes, empleando IA para extraer puntos clave, resumir contenido y generar preguntas o insights… ¡incluso en formato de podcast!

Ejemplo de “podcast” creado con solo introducir la URL de “Inteligencia Artificial” de este blog en NotebookLM

Lo interesante es cómo funciona. El proceso que usa NotebookLM de Google para transformar contenido escrito en conversaciones de audio es fascinante, porque combina partes ya vistas y “estandarizadas” con nuevas ideas, especialmente en edición. Todo comienza cuando subís tus documentos – pueden ser notas, documentos en PDF o enlaces como en el ejemplo anterior.

Cuando subís el contenido, Google con su IA (usa el modelo Gemini 1.5 Pro) analiza tu texto, procesándolo y “entendiendo” no solo las palabras sueltas, sino también el contexto y los puntos clave de todo el documento.

Luego, la IA crea un “script” donde transforma/convierte ese análisis de tu texto en un diálogo (usando otro modelo de “texto a tokens”) entre dos personas.

Finalmente, la inteligencia artificial sintetiza ese resultado en dos voces (usando otro modelo más, Soundstorm) e incluye risas, interrupciones, pausas pensativas, muletillas sutiles y lo “publica”… con una atención al detalle sorprendente.

Todo esto en menos de 10 minutos. ¿Qué tiene de interesante? En cuestión de minutos, tu texto se transforma en un podcast de 10-15 minutos que suena natural y hace que tu contenido sea más accesible. Básicamente, convierte tu material escrito en una charla de audio que presenta la información de manera clara y entretenida.

Principios clave de diseño

¿Por qué me pareció interesante esto como muestra de que Google Labs puede crear productos virales y, potencialmente, interesantes? Dos razones bastante simples:

  1. Enfoque AI-First: NotebookLM fue diseñado desde cero con capacidades de IA como núcleo, reimaginando cómo podría ser un software de toma de notas con un potente modelo de lenguaje como base.
  2. IA Basada en Fuentes (Source-Grounded AI): una característica distintiva de NotebookLM es que permite a los usuarios “anclar” el modelo de lenguaje en fuentes y documentos específicos proporcionados por el usuario. Esto crea un asistente de IA personalizado que está versado en la información relevante para las necesidades del usuario y donde el potencial de alucinar es menor.

De nuevo, Google no metió herramientas de IA en Google Keep, sino que creó algo desde cero basado en herramientas de IA en menos de dos meses. Y más allá de que esto pueda terminar en el Google Graveyard, es una gran prueba de concepto que muestra que la información puede hacerse más accesible.

Información o educación más accesible

Esta tecnología representa un avance muy significativo en la forma en que podemos consumir y compartir información. Aunque la primera lectura podría ser cínica y decir “estamos convirtiendo texto en snacks” o “si lo hace una IA es que es simple”, la realidad es que las aplicaciones potenciales abarcan varios campos, desde la educación y los negocios hasta hacer que la información sea más accesible para personas con diferentes preferencias de aprendizaje o problemas de visión.

No pienso solamente en convertir capítulos de libros en discusiones de audio para estudiar mejor, que es, tal vez, lo primero que viene a la mente, sino en buscar nuevas formas de escuchar tu contenido y crear una narrativa nueva (de hecho, tengo ganas de hacer unas pruebas con decks de startups… ¡pueden enviarlo para que lo haga! 😄).

¿Cómo seguirán? Asumo que expandirán esto a otros idiomas, personalizarán las voces o ajustarán la duración, o tal vez con ideas que ni se me hayan ocurrido.

Categorías
Inteligencia Artifical Rants

AI: de LLMs y SLMs; eficiencia y ubicuidad

Con la demo de ChatGPT ya quedó claro que los LLM (modelos de lenguaje grandes) tienen nuestra atecion por sus capacidades en el procesamiento del lenguaje natural. Sin embargo, su tamaño y los recursos que requieren limitan su acceso y por eso es que es dificil ver nuevos jugadores en ese mercado y ahí es donde hay un espacio súper interesante para explorar los SLMs o modelos de lenguaje pequeños como alternativa.

¿Qué son los Modelos de Lenguaje Pequeños?

Categorías
Apple Inteligencia Artifical

Apple volviéndose IBM

Hay un viejo dicho que dice que nadie fue despedido por comprar IBM, porque era la única apuesta segura: los blindaba de las repercusiones si algo había salido mal ya que presumiblemente tenían la reputación y Apple era, ese momento, la innovación y el disruptor; sin embargo el tiempo pasa para todos y hoy…

En una era donde los dispositivos se convierten en integrales para la era de la inteligencia artificial; vemos al mercado aplaudir cosas que son intrigantes:

I would argue that the improved autocorrect in iOS 17 is a major feature — in my use it’s clearly an improvement, and autocorrect is a feature used every day, in almost every app, by almost every iOS user. It’s one of the most used and most important features in the entire OS. I’d also argue that Apple has done some terrific work with AI features in Photos. The search feature in Photos works really well.

Gruber en “Apple AI”
Categorías
Inteligencia Artifical

BloombergGPT: un modelo de IA financiera

Si algo distinguió a Bloomberg del resto de los proveedores de información financiera fue que siempre estuvo al frente del uso de nueva tecnología; ahora su terminal suma un modelo como ChatGPT pero entrenado y orientado puramente a finanzas.

Bloomberg GPT o Inteligencia artificial en la terminal de bloomberg

Con las ventajas de estos modelos para dominios especificos de conocimiento, Bloomberg tiene un leverage competitivo gigantesco: entrenaron a BloombergGPT como un modelo financiero con su dataset propietario de 363.000 millones de tokens de documentos financieros en inglés, y lo aumentaron luego con un dataset similar en tamaño pero público; por eso los benchmarks de NLP dan números gigantescos.

Los tokens son las unidades básicas de texto o código que un LLM AI utiliza para procesar y generar lenguaje. Los tokens pueden ser caracteres, palabras, subpalabras u otros segmentos de texto o código, dependiendo del método o esquema de tokenización elegido.

LLM AI Tokens en Microsoft Learn.

Ahora, con este poder de fuego mejorando las herramientas para escanear noticias, datos, análisis de sentimiento y aplicardo en el sentido general de las preguntas que se pueden generar con lenguaje natural… le abre a Bloomberg un mercado gigante con casos de uso que no termino de imaginar.

Y esto es un gran paso para entender el peso de estos modelos en dominios de conocimiento específico. Qué mejor que finanzas para verlos claramente donde los resultados son blanco o negro, positivo o negativo.

Categorías
Rants

OpenAI, ChatGPT y la era hibrida de copilotos.

El experimento del Juez Juan Manuel Padilla Garcia, de Colombia, es de los mas interesantes que he visto con OpenAI en el mundo real, cuando el Juzgado 1º Laboral del Circuito de Cartagena, usó ChatGPT para dictar sentencia y lo fundamentó en el documento… usandolo como copiloto.

“…extender los argumentos de la decisión adoptada, conforme al uso de inteligencia artificial (IA). Por consiguiente, se procedió a incluir apartes del problema jurídico planteado en la presente sentencia y se ingresó en el aplicativo https://chat.openai.com/chat” … “El propósito de incluir estos textos producto de la IA no es en manera alguna reemplazar la decisión del Juez. Lo que realmente buscamos es optimizar los tiempos empleados en redacción de sentencias, previa corroboración de la información suministrada por IA”

Fundamentos: Juez Juan Manuel Padilla Garcia, P5 y 7

En el link está el documento completo del juez pero la base es simple de entender; estos modelos (LLM y Transformers) son herramientas que necesitan corroboración de un humano para darle sentido a su respuesta.

inteligencia artificial Maschinenmensch

La base de todo es simple: la respuesta que uno ve en ChatGPT o cualquier otro modelo, se genera por un modelo estadístico que decide que palabra (o símbolo) va luego de otra, sin entrar en valoración del sentido de lo que esta entregando.

Eso es lo que genera mucha confusión alrededor de estos transformers: Sus respuestas hacen sentido, son rápidas y son asertivas pero no están orientadas a certeza sino a modelos estadísticos.

Por eso me gusta el concepto de “copilotos” como una herramienta que ayudan al piloto con datos y background que uno puede tomar para mejorar el producto final… el segundo punto que hay que entender que pocas veces esto es un one-off; hay valor en refinar prompts, en follow ups, en buscar hacks y así dandole verdadero valor al concepto conversacional.

Por eso Stack Overflow se prohibe copiar respuestas de ChatGPT sin verificacion y errores en sus respuestas matemáticas y por eso hay gente horrorizada de verlos sin entender las limitaciones que estos modelos tienen y no terminan de entender que estamos en una era hibrida de IA

Explainability and comprehensibility of AI are important requirements for intelligent systems deployed in real-world domains. Users want and frequently need to understand how decisions impacting them are made. Similarly it is important to understand how an intelligent system functions for safety and security reasons. In this paper, we describe two complementary impossibility results (Unexplainability and Incomprehensibility), essentially showing that advanced AIs would not be able to accurately explain some of their decisions and for the decisions they could explain people would not understand some of those explanations.

Roman V. Yampolskiy – Unexplainability and Incomprehensibility of AI