Hace unos días comenté sobre el trading algorítmico de acciones, hoy leo una nota interesante sobre bots programados por CSIdentity para actuar como humanos y hackear a hackers sacándoles datos… lo que muestra que el avance de los algoritmos está creciendo exponencialmente y, si te imaginás que los hackers son tontos, saber que existe Narrative Science te pondría los pelos de punta porque básicamente toman un stream de datos y lo convierten en historias que se publican en medios como noticias en menos de 30 segundos de cargados los datos.
¿el mejor ejemplo? Noticias de deportes que se publican apenas termina un tiempo de algunos partidos sin importar el deporte que sea. Y aunque no parezcan frases de un poeta o escritor profesional saber que hay historias escritas por algoritmos y que pueden pasar por humanas hizo que ya logren una ronda de inversión de u$s6 millones.
Pero lo más interesante de todo ¿quienes son sus principales clientes? Granjas de contenido uno diría, pero la realidad es que son medios de comunicación gigantes que los usan para generar cantidades gigantescas de contenido que Google va a posicionar en su buscador como si fuera el contenido más relevante para historias importantes o del long-tail.
¿Y porque pasa eso? Porque es la forma más efectiva, en cuanto a costos, de generar notas rápidas sobre eventos que están desarrollandose y de cubrir eventos locales que implicarían tener humanos (oh, como se les ocurrió eso :P) cubriendo las noticias de lugares que, en general, no son mercados prioritarios o de alta concentración de gente.
Y es interesante ver como se genera un círculo vicioso, Google pide constante renovación de contenido, los medios necesitan tener cada vez contenido más fresco porque el “evergreen content” ya lo toman las granjas y eso implica tener más periodistas, con algoritmos que se activan con “alertas” los medios no dependen de sus plantillas editoriales y a Google le importa poco y nada si el contenido es humano o no (de hecho puede distinguir patrones en “automatic language understanding” pero no le importa porque son medios los que lo publican) y el spread entre crear una nota y los ingresos por publicidad que se logran es rentable cuando hay volúmenes gigantes… cosa que los algoritmos pueden crear pero los periodistas no.
Me sorprende ver como vamos evolucionando hacia contenidos cortos que le dan un universo de links, semántica y contexto a notas que luego hará un periodista… pero que será la única nota “humana” en un lugar donde nuestra capacidad de atención es cada día menor (10 notas chicas y rápidas “atraen” más que cualquier columna superior a 300 palabras) y de hecho el mejor ejemplo de este circulo de caída de calidad es:
“El otoño pasado, The Big Ten Network comenzó a utilizar Narrative Scienceen actualizaciones de los juegos de fútbol y baloncesto. Esos informes impulsaron un aumento en las visitas al sitio que vienen del algoritmo de búsqueda de Google, que cataloga muy bien al contenido nuevo de temas populares… El tráfico de la red Web para los partidos de fútbol la temporada pasada fue de 40 por ciento más que en 2009.”
Les recomiendo leer una breve reseña de Narrative Science en el NYT: In Case You Wondered, a Real Human Wrote This Column y me pregunto si, como dicen ellos, ¿ganará un robot un Pulitzer de acá a 5 años? ;)
5 respuestas en “En internet nadie sabe que sos un robot… ni Google”
Me parece un tema muy interesante, y no hace falta ser una gran compañia para aplicar esto, supongamos que tengo un sitio de celulares, para cada celular tengo una tabla llena de datos (tamaño de pantalla, peso, tamaño, etc, etc). Ahora supongamos que quiero generar contenido mas humano. Lo que podría hacer es generar automáticamente páginas de comparación de celulares, Modelo A vs. Modelo B.
Entonces lo que hago es (mediante un algoritmo muy muy simple) es decir: Mientras que Modelo A tiene una pantalla de x*y pixels, Modelo B posee una pantalla de s*t píxeles, esto es X veces más grande. Sin embargo Modelo A tiene WiFi, mientras que Modelo B tiene tan sólo conectividad Bluetooth.
Este algoritmo utilizado con una base de datos con miles de modelos de celulares puede generar millones de páginas con contenido “aceptable”. Toda una riqueza para Google.
Saludos
Luciano..decir que esto es “simple” es, al menos, despectivo y sin sentido.
Vengo soñando con un producto como NS hace años, qué genialidad el que se hayan dedicado al motor y ofrecerlo como un servicio… ya salió el clon en español? :P
Nunca dije que era simple, el ejemplo que yo di si es simple. A lo que me refiero es que para autogenerar contenido no siempre se necesita tanta tecnologia , todo depende de a quien se quiere engañar y sobre que tema generar contenido, no me imagino un articulo sobre politica escrito por algoritmos…
Pues yo creo que el ejemplo de luciano si es simple de programar.
De todos modos toda la información de un partido en tiempo real, para luego crear los textos, alguien (humano) tiene que introducirla no?