Hace unos días Yahoo! daba un golpe de publicidad interesante en la guerra de los buscadores::
"Aunque tipicamente no damos el tamaño de nuestros Index (siempre dijimos que el tamaño es solo una dimension de la calidad) para aquellos que son curiosos este update incluye 19.200 millones de documentos web, 1.600 millones de imágenes y algo más de 50 millones de archivos de audio y video"
Y eso sorprendía a muchos porque, usualmente, se cree que Google tiene el buscador más grande de Internet. De hecho, y esto es interesante porque se hizo a través de un blogger, hubo una "respuesta oficial" en el Blog de John Battelle, una referencia del mercado:
"Nuestros científicos no están viendo el incremento declarado por Yahoo! en su Index. Los datos que tenemos no apoyan los 19.2 (miles de millones) y estamos confundidos por eso"
Esto arrojó un manto de sospecha sobre esos números, tal es así que tres científicos del National Center for Supercomputing Applications hicieron un "test" y al revisar los resultados, hubo una sorpresa:
".. opinión de este estudo que la declaración de Yahoo! de tener un index del doble que Google es sospechosa. A no ser que una gran parte de los documentos que han indexado no estén disponibles en su buscador, encontramos raro que los resultados de Yahoo! sean consistentemente menores a los resultados de Google."
¿Habrá ido esta "guerra de buscadores" lo suficientemente lejos como para inflar números? ¿El estudio no toma en cuenta que "usar un set de palabras" puede no ser tan imparcial como parece? ¿O simplemente pasa lo que dijo Yahoo! y "el cambio se verá en las próximas semanas"?
El estudio de la NCSA tiene demasiados problemas. Primero, se limitan sólo al idioma inglés. Segundo, miran sólo búsquedas con menos de mil resultados. Las búsquedas fueron generadas al azar con un script en perl, de modo tal de apuntar a encontrar páginas que son diccionarios de palabras.
Por otro lado, Yahoo muestra sólo un resultado por sitio y pone “more from this site” si hay más.
La forma correcta de encarar este estudio sería tomar un log de búsquedas reales (digamos un millón), ejecutarlas en ambos buscadores y comparar los resultados.
Yo creo en los números de páginas indexadas por Yahoo. Lo que es muy probable, conociendo cómo funciona(ba) su buscador, es que una buena cantidad de esas páginas sean mirrors y duplicados que son descartadas y nunca aparecen en los resultados. Tienen que haber sido indexadas para saber que eran duplicados, por lo tanto cuentan.
estaba esperando tu comentario :)