Desde los inicios de Internet y de la web, los buscadores han hecho grandes esfuerzos, en primer lugar, por hacer encontrables las innumerables páginas web, como era el caso de Altavista, o de catalogarlo, como hizo Yahoo en sus comienzos. Desde entonces, el esfuerzo apunta cada vez menos a encontrar la página justa y cada vez más a ofrecer conocimiento y contestar preguntas.
Google, Mahalo, Wolfram Alpha, y Aardvark son exponentes de distintas aproximaciones al mismo problema, ya sea extrayendo automáticamente el conocimiento de la web (Google), escribiendo manualmente las respuestas (Mahalo), destilando el conocimiento académico y haciendo cómputos sobre él (Wolfram Alpha), o conectando directamente al que pregunta con los expertos en el tema (Aardvark).
Google, por su parte, trata de extraer el sentido de las palabras buscadas, del contenido de las páginas de la web y de la forma en que están vinculadas. Es sorprendente su capacidad para descubrir lo que queremos encontrar incluso mientras estamos escribiendo las palabras a buscar. Alcanza con escribir “weather in new y” en la caja de búsqueda de google para obtener, sin siquiera haber completado la frase o haber dado “enter”, el pronóstico del tiempo para Nueva York. Pero aquí Google cuenta con la ayuda del usuario, quien hace un esfuerzo consciente por encontrar la mínima expresión de lo que quiere buscar, evitando ambigüedades y eliminando información irrelevante.
Distinto es el caso de encontrar el significado de una página web. Por ejemplo, en una página de un blog se junta el texto de una o más notas, el sistema de navegación del sitio, publicidades, comentarios de usuarios, etc. El lenguaje es ambiguo, cada autor tiene su estilo para escribir, cada programador tiene su estilo para estructurar las páginas. Aún así, Google logra extraer datos concretos y los muestra como respuesta a búsquedas como “capital city of argentina” o “release date of toy story 3”.
Pero aún aplicando todo su poder para tratar de detectar la señal dentro de tanto ruido, claramente hay un límite a lo que puede hacer. No tiene una respuesta para preguntas que involucran, por ejemplo, más de un concepto o condicionales. Si queremos obtener un listado de las ciudades de más de 5 millones de habitantes, todo lo que Google puede hacer, por ahora, es mostrarnos sitios que contienen esas palabras en su texto, sin garantía de que alguno contenga, efectivamente, dicho listado.
El objetivo de MetaWeb es el de estructurar el contenido de la red en entidades que representan conceptos y las relaciones entre ellas. Esto permite contestar justamente el tipo de preguntas para las que Google no tiene respuesta. MetaWeb trae consigo también su base de conocimientos libre y abierta, Freebase, una base de más de 12 millones de entidades, sus propiedades, categorías y relaciones, alimentada por los usuarios, al estilo de Wikipedia. En su anuncio de la adquisición, la compañía promete mantener Freebase abierto y libre, y contribuir y desarrollar la base para el beneficio de todos.
Esta adquisición, junto con la de otras empresas como Aardwark, que conecta a los que buscan con los que saben, e ITA, una base de conocimientos sobre viajes que también incluye un motor de búsqueda para verticales, muestra el interés de Google en ofrecer respuestas concretas además de páginas web, pone al alcance del público tecnologías sumamente interesantes pero relativamente poco conocidas, y eleva el estándar para el resto de los jugadores es ese espacio.
Por Jorge Handl: el arquitecto de software detrás de productos como Intextank y de Hounder, la solución de search open-source de Flaptor y que pueden probar en WordPress.com, Reddit.com o incluso en Trendistic.com :)
2 thoughts on “Google compra Metaweb”
Comments are closed.