HISTORIA DE LOS BUSCADORES
Y
TIPOS DE BUSCADORES
Un buscador es un sistema informático que busca archivos almacenados en servidores web gracias a su Web crawler. Los Buscadores comenzaron a cumplir la función de clasificación de las páginas, documentos, sitios y servidores de la red. . El recorrido de las direcciones de Internet es realizado en forma automática por cada uno de los buscadores. Al no ser todos iguales -y tampoco lo son sus técnicas de búsqueda- cada uno tiene una visión de la red que difiere de las otras. Algunos de ellos de indización de la Web construyen una base de datos central de documentos la cual no es un buen modelo para el universo que es la Web con millones de documentos en millones de sitios. Cuando se pide información sobre algún tema, las búsquedas se hacen con palabras clave o con árboles jerárquicos por temas, el resultado de la búsqueda es un listado de direcciones Web en los que se mencionan temas relacionados con las palabras clave buscadas. Hoy en día Internet se ha convertido en una herramienta, para la búsqueda de información rápida, para ello han surgido los buscadores que son un motor de búsqueda que nos facilita encontrar información rápida de cualquier tema de interés, en cualquier área de las ciencias, y de cualquier parte del mundo.
TIPOS MOTORES DE BÚSQUEDA
Buscadores jerárquicos (Arañas o Spiders)
Recorren las páginas recopilando información sobre los contenidos de las páginas. Cuando se busca una información en los motores, ellos consultan su base de datos y presentan resultados clasificados por su relevancia. De las webs, los buscadores pueden almacenar desde la página de entrada, a todas las páginas que residan en el servidor. Si consideran que un sitio web es importante para el usuario, tienden a registrarlas todas. Si no la consideran importante, sólo almacenan una o más páginas. Cada cierto tiempo, los motores revisan los sitios, para actualizar los contenidos de su base de datos, por lo que no es infrecuente que los resultados de la búsqueda estén desactualizados. Los buscadores jerárquicos tienen una colección de programas simples y potentes con diferentes cometidos. Se suelen dividir en tres partes. Los programas que exploran la red -arañas (spiders)-, los que construyen la base de datos y los que utiliza el usuario, el programa que explota la base de datos. Si se paga, se puede aparecer en las primeras páginas de resultados, aunque los principales buscadores delimitan estos resultados e indican al usuario que se trata de resultados esponsorizados o patrocinados. Hasta el momento, aparentemente, esta forma de publicidad, es indicada explícitamente. Los buscadores jerárquicos se han visto obligados a este tipo de publicidad para poder seguir ofreciendo a los usuarios el servicio de forma gratuita.
Ejemplos de arañas: Google, Bing, Hotbot.
Directorios
Una tecnología barata y no se requieren muchos recursos de informática. En cambio, se requiere más soporte humano y mantenimiento. Los algoritmos son mucho más sencillos, presentando la información sobre los sitios registrados como una colección de directorios. No recorren los sitios web ni almacenan sus contenidos. Solo registran algunos de los datos de nuestra página, como el título y la descripción que se introduzcan al momento de registrar el sitio en el directorio. Los resultados de la búsqueda, estarán determinados por la información que se haya suministrado al directorio cuando se registra el sitio. En cambio, a diferencia de los motores, son revisadas por operadores humanos, y clasificadas según categorías, de forma que es más fácil encontrar páginas del tema de nuestro interés. Más que buscar información sobre contenidos de la página, los resultados serán presentados haciendo referencia a los contenidos y temática del sitio. Su tecnología es muy barata y sencilla.
Ejemplos de directorios: Antiguos directorios, Open Directory Project, Yahoo!, Terra. Ahora, ambos utilizan tecnología de búsqueda jerárquica, y Yahoo! conserva su directorio. Buscar Portal, es un directorio, y la mayoría de motores hispanos son directorios.
CRONOLOGÍA
1994 – WebCrawler
Nació como un proyecto universitario, en la Universidad de Washington (EE.UU.) Su creador, Brian Pinkerton vendió el Motor de Búsqueda a AOL a mediados de 1995 el cual a fines de 1996 fue adquirido por Excite!. Fue el primer Motor de Búsqueda en crear y utilizar el estándar de exclusión de Robots o Spiders. Actualmente pertenece a InfoSpace, una empresa de soluciones inalámbricas de Internet.
1994 – Lycos
Al igual que otros Motores de Búsqueda, Lycos nació como proyecto de Investigación de la Universidad de Carnegie Mellon por el Dr. Michael Mauldin. Lycos fue la primera empresa en Internet en basar su publicidad en CPM (costo por miles de visualizaciones) la cual es actualmente un estándar en la industria de Internet. En Abril de 1998, Lycos adquirió la corporación WiseWire la cual es destacada por su software de creación de directorios. Ahora, WiseWire respalda los Directorios Web de Lycos, las cuales son creadas automática y colaborativamente por los usuarios. También incluyó en su base al directorio ODP (Open Directory Project, el directorio de sitios del World Wide Web más grande, organizado en categorías y totalmente construido de forma manual, por usuarios de Internet. Más adelante se presenta al ODP con mayor detalle). Actualmente Lycos pertenece a la empresa española de contenidos de Internet Terra.
1994 – Excite!
Fundado por Mark Van Haren, Ryan McIntyre, Ben Lutch, Joe Kraus, Graham Spencer y Martin Reinfried. Estas personas (cinco hackers y un experto en ciencias políticas), investigaron para la Biblioteca de la Universidad de Stanford, cual sería la mejor forma de buscar y recuperar información para solucionar el problema de dicha biblioteca. En Diciembre de 1994, Kleiner, Perkins, Caulfield, Byers y una empresa constituida por capitales de riesgo invirtieron en Excite! USD 4000 para la compra de los primeros equipos. A mediados de 1996 adquieren al Motor de Búsqueda Magellan y a fines del mismo año adquieren también WebCrawler. Anteriormente denominado Architext, está siendo desarrollado y administrado en California y ofrece búsquedas basadas en palabras claves o basadas en conceptos (no sólo buscando los términos deseados por el usuario sino también los similares). También Excite! provee una interesante forma de alineación de páginas dinámicas para diferentes sistemas operativos.
1995 – AltaVista
Nació en los Laboratorios de Digital Equipment Corp. (DEC Research) en Palo Alto, California, EE.UU. Sus dueños actuales son COMPAQ y CMGI Inc. En primer término, los ingenieros de DEC Research, crearon un software llamado “Spider” o “Crawl” el cual rastreaba Internet, indizando y mostrando la información recolectada. La innovación más notable de este Motor de Búsqueda, fue la inclusión de búsqueda multi lengua en Internet, siendo el primero en soportar chino, japonés y coreano utilizando los servicios del traductor Babel Fish (Primer traductor en línea en Internet). Otra de las innovaciones presentadas por este Motor, fue la de permitir búsquedas multimedia, para explorar Internet por fotografías, videos y música, estimados en aquel momento en más de 90 millones de objetos. En abril de 2003 fue adquirido por Overture, empresa que luego fue adqurida por Yahoo! por su experiencia en el ramo de promocion web mediante pay per clic.
1995 – Yahoo!
Es un caso muy especial porque debe ser el portal de búsqueda de Internet, más viejo, conocido y visitado, pero la mayoría de sus usuarios no saben que Yahoo! es principalmente un directorio Web y no un verdadero Motor de Búsqueda. Por lo tanto, su estructura está basada en sitios Web propuestos por usuarios y no por los encontrados por un Robot o Spider. Creado por David Filo y Jerry Yang, Ingenieros Eléctricos de la Universidad de Stanford, comenzaron su catálogo en Abril de 1994, para mantener y rastrear los sitios de su propio interés. Yahoo! en sus inicios residía en la máquina de Yang, llamada, “akebono”, mientras que el Motor de Búsqueda se encontraba en la maquina de Filo llamada “konishiki” (ambos nombres en homenaje a los legendarios luchadores de sumo Hawaianos). Yahoo! es el portal favorito de muchos usuarios de Internet. A pesar de ello, en el último año, agregó servicios alternativos como chat, Correo Electrónico gratis, hosting y la posibilidad de crear comunidades virtuales. Contrariamente al favoritismo que tienen los usuarios, los administradores de sitios Web de todo el mundo deben lidiar con la ardua tarea de ser incluidos en dicho catálogo (se estima que solo un 4% de los sitios sugeridos son dados de alta en la base). El Motor de Búsqueda de Yahoo fue Google hasta Febero de 2004. Actualmente Yahoo usa su propio motor de búsqueda el cual esta basado en Inktomi (buscador que adquirió en Marzo de 2003) y basado también en Altavista y en AllTheWeb. Utiliza la tecnología de Overture para las campañas Pay Per Clic.
1996 – Inktomi
Inktomi deriva de un Motor de Búsqueda desarrollado por la Universidad de Berkeley, California, EE.UU. Fue fundado en 1996 por dos estudiantes de dicha Universidad, llamados Eric Brewer y Paul Gauthier. Su nombre deriva de una leyenda de los Indios Lakota, que trata de una araña tramposa. Inktomi, es conocido por su habilidad en derrotar a sus adversarios comerciales con ingenio y astucia. Provee servicio de búsqueda a una importante legión de empresas de la web como: HotBot, AOL, ICQ, GeoCities, Search MSN, GoTo, Canada.com, RadarUol, entre otros. Inktomi no sólo es conocido por su potente Motor de Búsqueda, sino también por lograr la confección de directorios utilizando las páginas obtenidas por su Spider. La tecnología llamada “Concept Induction™” automáticamente analiza y categoriza millones de documentos. Esta tecnología incorpora algoritmos, que tratan de modelar la concepción humana para comprender la información. En marzo de 2003 fue adquirido por Yahoo, para ser la base del nuevo motor de búsqueda de Yahoo!.
1996 – HotBot
Su diseño y operación estuvieron a cargo de la revista Wired, siendo vendida a Lycos. Actualmente los resultados de HotBot son provistos por otro Motor de Búsqueda: Inktomi u otros motores, el cual se vio anteriormente.
1997 – Google
Google al igual que la mayoría de los Motores de Búsqueda de Internet, nació como un proyecto de investigación universitaria de dos alumnos: Sergey Brin y Larry Page. Fue en la Universidad de Stanford, EE.UU. en 1997. En 1999, recibió más de 20 millones de dólares de capitales privados, lo cual le permitió estar ubicado dentro de los mejores Buscadores del Netscape Netcenter. A partir de Julio del 2000, paso a ser el principal Motor de Búsqueda de Yahoo!. En marzo del 2000, innovó el mercado de Motores de Búsqueda con su algoritmo PageRank, siendo usado por primera vez en el proyecto Open Directory. Dicho algoritmo, convirtió a Google en uno de los Buscadores más efectivos del mercado, utilizando dicho sistema. El sistema llamado PageRank, permite a Google filtrar una gran porción de resultados irrelevantes. Este sistema identifica cuántas páginas apuntan a una página en particular para poder así decidir cuáles son las páginas más relevantes. También su arquitectura innova el mercado diferenciando sitios Educativos y Gubernamentales de los sitios Comerciales, los cuales, tienden a utilizar spam contra los Motores de Búsqueda.
1997 – Fast
El Motor de Búsqueda Fast Search & Transfer, conocido como FAST o como AllTheWeb.com, fue creado en la Universidad de Ciencia y Tecnología de Noruega (NTNU) en Julio de 1997. Su dueño y administrador es Fast Search & Transfer ASA Technologies y fue lanzado a Internet a mediados de 1998; posee una de las bases de datos más grandes de la actualidad. Su sostén principal ha sido la búsqueda especifica de multimedia. A modo de ejemplo, el conjunto de direcciones de FTP para MP3, WAV, RA y otros tipos de archivos multimedia, es una de las colecciones más grandes de la Web. Fue addqurido por Yahoo.
1997 – Ask
Es parte de la compañía InterActive Corporation, fundada en 1996 por Garrett Gruener y David Warthen en Berkeley, California. El programa original fue implementado por Gary Chevsky basado en su propio diseño. Los primeros inversionistas fue el Grupo RODA. La idea que dio lugar a Ask.com fue la capacidad de responder preguntas realizadas en lenguaje natural. Ask.com fue el primer buscador comercial del tipo pregunta-respuesta desarrollado para WWW. Permite una amplia variedad de consultas realizadas en inglés, así como las tradicionales búsquedas con palabras clave, y pretende que las búsquedas sean más intuitivas que con los otros buscadores. Ask Jeeves vendió la misma tecnología que utiliza en el sitio Ask.com a distintas empresas como Dell, Toshiba e E*Trade. Parte de la empresa fue vendida a Kanisa en el año 2002. Desde la compra del motor de búsqueda Teoma por Ask.com en 2001, los buscadores de esta compañía utilizan una tecnología denominada ExpertRank. Al contrario de lo que ocurre con el PageRank que utiliza Google, con ExpertRank, los enlaces a un sitio web tienen más peso si proceden de otros sitios dedicados a un tema similar.
1998 – DirectHit
DirectHit fue creado en Marzo de 1998. Su trabajo consiste en monitorear los clics que realizan los usuarios en otros Motores de Búsqueda de los resultados que ven. Cuanto más veces se visita un sitio, mejor es su posición en la calificación. También reconoce frases directamente. Pero, por otro lado, tiene las desventajas que muestra sólo los primeros diez hipervínculos y es imposible buscar dentro de una categoría determinada. Adquirido posteriormente por Ask Jeeves, dueño de Teoma.
1998 – Teoma
Es uno de los últimos Motores de Búsqueda, el cual ha realizado su presentación pública (Versión Beta) a fines del mes de mayo de 1998. Utilizando tecnología desarrollada por una Fundación Federal de Proyectos de Investigación, se implementó en 1998 en los laboratorios de la Universidad de Rutgers. Teoma devuelve tres tipos diferentes de resultados. En la parte superior de la pantalla, se observan los tópicos relacionados con la palabra clave buscada agrupados en forma de carpetas. Esta estructura, facilita el refinamiento de la búsqueda con un simple clic en el tópico asociado a la palabra buscada. En la parte inferior, se agrupan los resultados recuperados, ordenados por relevancia que Teoma le ha asignado respecto a la palabra clave buscada. Teoma calcula la relevancia de una página, analizando los hipervínculos, para identificar “comunidades” en Internet, determinando luego cuales son las autoridades, encontrando así las mejores páginas. Su funcionamiento es similar a Google, pero con algunas diferencias importantes. En septiembre de 2001 fue adquirido por Ask Jeeves.
1998 – Open Directory Project (ODP)
Es el directorio más grande y fraternal de la Web, el cual es construido y mantenido por un gran número de voluntarios. Su principal misión es la de colaborar en forma constructiva en el crecimiento de Internet. El ODP provee los medios necesarios para una organización eficiente. Algunos de los usuarios de ODP (llamados editores), organizan pequeñas porciones de la red para descartar los sitios de pobre contenido y quedarse sólo con los más relevantes. Por esta razón es que el ODP podría llegar a convertirse en el directorio definitivo de la Web. Fue fundado bajo el espíritu del movimiento “Open Source”, siendo un directorio sin fines de lucro el cual es muy respetado. No hubo, ni habrá costo alguno para sugerir un sitio a este directorio, así como tampoco habrá costo alguno por su uso. El ODP provee de información a los Motores de Búsqueda y portales más populares de la Web, incluyendo Netscape Search, AOL Search, Google, Lycos, HotBot, DirectHit y muchos otros.
2009 – Bing
El buscador Bing tiene como meta organizar las búsquedas de tal manera que navegar sea muy fácil para el usuario. Comienza con el panel de exploración. Los enlaces profundos permiten a los usuarios tener una vista previa del sitio Web. Dependiendo de si se tiene suficiente informac
ión está disponible para crear una vista previa, puedes utilizar el ratón sobre un enlace sobre los resultados de búsquedas, lo cual te puede dar una idea de lo que puedes obtener si pinchas en dicho enlace. Para conseguir información rápida que no s interesa, como pueden ser resultados de deportes o el tiempo, existe una opción de respuestas rápidas, las cuales muestran información relevante basado en nuestra petición. Esto significa que si has preguntado algo sobre vacaciones en algún punto determinado, el buscador Bing se centrará en los datos más relevantes para intentar ahorrarte tiempo.
TIPOS DE BUSCADORES
ÍNDICES DE BÚSQUEDA: está organizado a partir de categorías, en función de las cuales se divide la información de las páginas web. La administración de los índices de búsqueda esta a cargo de un equipo humano, que se encarga de construir la base de datos del buscador. Yahoo es uno de los ejemplos mas conocidos de esta clase de buscador.
MOTOR DE BÚSQUEDA: aquí la recopilación de páginas web es realizada a través de un programa llamado araña, el cual recorre de forma permanente la web e introduce las direcciones en la base de datos. Éste vincula a la página con las primeras 100 palabras que se pueden leer en ella. Ejemplos son Google y Bing.
METABUSCADORES: la característica principal es que carecen de una base de datos propia. Sino que utilizan la de otros motores de búsqueda. Su objetivo principal es el de brindar eficiencia y facilidad en la búsqueda de información. Dos de los metabuscadores más conocidos son Metacrawler y Buscopio.