Me gusta NotebookLM por varias razones: primero, porque es una gran muestra de las cosas que se pueden hacer con la IA generativa combinando modelos; luego, porque algunos casos de uso me están sorprendiendo; y finalmente, porque, en cierto sentido, muestra que Google sigue siendo capaz de desarrollar productos interesantes.
¿Qué es y cómo funciona NotebookLM?
Para los que no lo conozcan, NotebookLM (antes conocido como Project Tailwind) es una herramienta impulsada por IA, diseñada para ayudar a los usuarios a organizar, analizar y obtener información de las notas que toman, sean estas propias o documentos que uno sube. También funciona con enlaces que uno ingresa en el sistema y utiliza una combinación de modelos de lenguajes, empleando IA para extraer puntos clave, resumir contenido y generar preguntas o insights… ¡incluso en formato de podcast!
Lo interesante es cómo funciona. El proceso que usa NotebookLM de Google para transformar contenido escrito en conversaciones de audio es fascinante, porque combina partes ya vistas y "estandarizadas" con nuevas ideas, especialmente en edición. Todo comienza cuando subís tus documentos - pueden ser notas, documentos en PDF o enlaces como en el ejemplo anterior.
Cuando subís el contenido, Google con su IA (usa el modelo Gemini 1.5 Pro) analiza tu texto, procesándolo y "entendiendo" no solo las palabras sueltas, sino también el contexto y los puntos clave de todo el documento.
Luego, la IA crea un "script" donde transforma/convierte ese análisis de tu texto en un diálogo (usando otro modelo de "texto a tokens") entre dos personas.
Finalmente, la inteligencia artificial sintetiza ese resultado en dos voces (usando otro modelo más, Soundstorm) e incluye risas, interrupciones, pausas pensativas, muletillas sutiles y lo "publica"... con una atención al detalle sorprendente.
Todo esto en menos de 10 minutos. ¿Qué tiene de interesante? En cuestión de minutos, tu texto se transforma en un podcast de 10-15 minutos que suena natural y hace que tu contenido sea más accesible. Básicamente, convierte tu material escrito en una charla de audio que presenta la información de manera clara y entretenida.
Principios clave de diseño
¿Por qué me pareció interesante esto como muestra de que Google Labs puede crear productos virales y, potencialmente, interesantes? Dos razones bastante simples:
- Enfoque AI-First: NotebookLM fue diseñado desde cero con capacidades de IA como núcleo, reimaginando cómo podría ser un software de toma de notas con un potente modelo de lenguaje como base.
- IA Basada en Fuentes (Source-Grounded AI): una característica distintiva de NotebookLM es que permite a los usuarios "anclar" el modelo de lenguaje en fuentes y documentos específicos proporcionados por el usuario. Esto crea un asistente de IA personalizado que está versado en la información relevante para las necesidades del usuario y donde el potencial de alucinar es menor.
De nuevo, Google no metió herramientas de IA en Google Keep, sino que creó algo desde cero basado en herramientas de IA en menos de dos meses. Y más allá de que esto pueda terminar en el Google Graveyard, es una gran prueba de concepto que muestra que la información puede hacerse más accesible.
Información o educación más accesible
Esta tecnología representa un avance muy significativo en la forma en que podemos consumir y compartir información. Aunque la primera lectura podría ser cínica y decir "estamos convirtiendo texto en snacks" o "si lo hace una IA es que es simple", la realidad es que las aplicaciones potenciales abarcan varios campos, desde la educación y los negocios hasta hacer que la información sea más accesible para personas con diferentes preferencias de aprendizaje o problemas de visión.
No pienso solamente en convertir capítulos de libros en discusiones de audio para estudiar mejor, que es, tal vez, lo primero que viene a la mente, sino en buscar nuevas formas de escuchar tu contenido y crear una narrativa nueva (de hecho, tengo ganas de hacer unas pruebas con decks de startups... ¡pueden enviarlo para que lo haga! 😄).
¿Cómo seguirán? Asumo que expandirán esto a otros idiomas, personalizarán las voces o ajustarán la duración, o tal vez con ideas que ni se me hayan ocurrido.