Powered By Blogger

BUSCADORES

BUSCADOR
Se definen, describen y caracterizan un grupo de los principales motores de búsqueda que operan en Internet. Se analizan los métodos reconocidos para su evaluación y selección, así como se ofrecen algunos consejos para perfeccionar el proceso de búsqueda con el fin de mejorar sus resultados. Se exponen, de forma general, sus semejanzas y diferencias, ventajas y desventajas y se analizan sus tendencias actuales de uso. 




BUSCADORES
Directorios temáticosMotores de búsquedaMetabuscadores
Bases de datos más pequeñas, menos actualizadas, y más elaboradas gracias a la presencia del factor humano.Bases de datos más amplias y actualizadas.No tiene bases de datos propias, sino que buscan automáticamente en las de otros buscadores.
Colocan la información por temas y categorías, una vez recopilada, de forma manual en sus índices.
Colocan la información, que sean capaces de recoger en la red, en sus índices sin ordenarlas por temas, de manera automática y periódica.
No almacenan información porque no dependen de bases de datos propias.
No realizan las búsquedas en Internet "en vivo", almacenan los datos de los sitios y ofrecen enlace a éstos.No realizan las búsquedas en Internet "en vivo", sino en las copias de las páginas que almacenan en sus índices.
Envían su búsqueda a varios motores, sus resultados dependen de que estos estén disponibles en el momento de la búsqueda, o se descarguen en el período de tiempo permisible.
Son fáciles de usar, permiten, en primer lugar, ubicar la búsqueda en un tema determinado.Son más difíciles, se requiere explotar al máximo las opciones de búsqueda porque contienen más información.Son difíciles de usar para búsquedas muy precisas, porque tienen menos control de la búsqueda al interrogar varias bases de datos con interfaces diferentes.
Son convenientes para buscar información general, institucional porque devuelve resultados a las páginas principales.Se utilizan para buscar información más escasa, especializada, actualizada o incluida en páginas personales.Se recomienda para temas "oscuros", difíciles de encontrar.
 Ejemplos 
LookSmart (http://www.looksmart.com)Open Directory (http://dmoz.org)Yahoo (http://www.yahoo.com)Altavista (http://www.altavista.com)Google (http://www.google.com)HotBot (http://hotbot.lycos.com)Metacrwler (http://metacrawler.com)NetLocator (http://nln.com)StartingPoint (http://www.sptp.com)


Mucho se ha debatido sobre la necesidad de conocer las herramientas con que se busca en la red, precisamente por la gran variedad que existe, donde unos suelen ser más eficientes que otros. Un aspecto importante a considerar para seleccionar los buscadores es la evaluación de sus bases de datos. Como se ha explicado anteriormente, los resultados de las búsquedas, obtenidos de cada buscador no son más que la "salida en pantalla" de la información de sus bases de datos, después que esta se localiza, procesa, evalúa y ordena. Por supuesto, no es comparable la evaluación de una base de datos en CD con otra en Internet, esta última es mucho más difícil. 
Notess13 expone, de manera muy sencilla, sus puntos de vista al respecto, plantea que el mayor problema para evaluar una base de datos en Internet es que sus registros nunca son estáticos, porque existen muchas páginas "efímeras" que se indizan en el tiempo en que se crea o actualiza la base de datos y poco tiempo después se mueven, cambian o rediseñan completamente; sin embargo, aun cuando el contenido de los registros es variable, plantea el autor, que las bases de datos en Internet pueden evaluarse en cuanto a alcance, estructura y actualidad. Se explica en este artículo, que para determinar el alcance de la base de datos se debe consultar la ayuda o las FAQs, se sugiere también, que el examen de la estructura es efectivo, por ejemplo, si el único acceso a los registros individuales es por una búsqueda de palabras claves, cabría entonces, pensar que es una base de datos que se genera automáticamente, mientras que, si tiene una estructura jerárquica de materias, debe construirse selectivamente. Ciertamente, estos son aspectos importantes, pero no se pueden obviar otros más elementales, sobre todo, para los buscadores de tipo directorio, como el título de la página, que se supone sea claro y refleje, con exactitud, el contenido del sitio y la consulta del "about" que ofrece información general. 
Wighton14 concede también, una especial importancia a la consulta de las FAQs de los buscadores, antes de formular una búsqueda, enfatiza, que esto permite saber cómo se puede buscar y hasta dónde se puede llegar y, a partir de aquí, elegir o desechar el buscador. 
Notess,13 explica que la estructura de los registros de la base de datos, que se muestra en los resultados, puede parecer un elemento difícil de evaluar, sobre todo, porque a diferencia de otras, en las bases de datos en Internet, los campos no aparecen explícitamente, sin embargo, generalmente son fáciles de identificar, incluso existen buscadores como Google que explican detalladamente en su ayuda, a qué se refiere cada dato expuesto en los resultados de la búsqueda, la mayoría de los buscadores entregan sus resultados con los siguientes campos: título, descripción del contenido, categoría de materia y URL. 
Realmente el navegante nunca podrá ver la estructura de la base de datos, por esto resulta un poco difícil saber cómo se maneja una búsqueda, una vez formulada la pregunta a la base de datos, pero conocer a qué se refiere cada elemento mostrado en los resultados puede ser un factor determinante a la hora de decidir cuáles son los registros más relevantes.
Otro aspecto enunciado por este autor para evaluar las bases de datos, es su modo de actualización, es difícil encontrar un motor que actualice constantemente cada uno de los sitios; para los grandes motores, porque tendrían una gran demanda en cuanto al ancho de banda y para los directorios, aunque más pequeños en volumen de información, porque exigiría una sobrexplotación del recurso humano. Plantea este autor, que es muy difícil determinar la frecuencia de actualización de una base de datos, pero el análisis de algunos de los resultados devueltos puede ser una vía para esto. Por ejemplo, en un intento de acceso a los enlaces que luego no se pueden alcanzar, o que te ofrecen un mensaje de que la página se ha movido a otra dirección sería conveniente fijarse en la fecha de la página si es posible, esto proporciona una medida del tiempo que lleva sin actualizarse; la última fecha de actualización de los sitios que forman parte de los resultados de la búsqueda muchas veces son de un año, 2 o más, ello indica que el creador del sitio cambió de empleo o sencillamente perdió el interés, un motor de búsqueda que se respete no debe incluir este tipo de sitios en sus índices.13 
Existen varios trabajos donde se exponen diversos análisis y comparaciones entre buscadores, estos pueden ayudar a una mejor comprensión de su funcionamiento.6,11,12,15-22
Internet es una gran biblioteca, solo que a diferencia de la biblioteca tradicional no tiene libros y revistas impresas, materiales audiovisuales o diapositivas sino que sus documentos son sitios web sin control bibliográfico, no disponen de un equivalente al ISBN, que identifica los libros, tampoco existen sistemas análogos para su catalogación y clasificación, como los establecidos por la Biblioteca del Congreso, mucho menos, existe un catálogo central que registre todas sus páginas y, ni siquiera lo más elemental, muchos de los documentos que se encuentran en Internet carecen de autor y fecha de publicación.11 
Evidentemente, como Internet es un medio libre para publicar, no existen normas estándares para hacerlo ni para indizar la información que fluye por ella. Las bases de datos de los buscadores no reconocen e indizan los mismos campos, y su funcionamiento para recuperar la información es diferente. De todo lo anterior, se infiere que para que los buscadores se conviertan en una herramienta eficaz es necesario que se conozcan muy bien. 
Como se ha explicado anteriormente, la tendencia inevitable es la especialización de las herramientas de búsqueda en el web. Esto ha provocado la aparición de una gran variedad de buscadores, que generalmente resultan difíciles de evaluar por el navegante; por otra parte, en muchos casos han devenido, incluso en portales, añaden entonces a su oferta, un conjunto más o menos homogéneo de servicios, como noticias, bolsas de vivienda, chats o correo electrónico. Son gratuitos y se financian mediante la publicidad, debido a esto, el acceso a sus páginas principales es, a veces, la primera causa para que el navegante se sienta perdido entre tantos efectos especiales, comerciales y propagandas. 
Muchos son los expertos que han sugerido los aspectos que deben considerar los navegantes para buscar en el web. En algunos casos, se apunta a que el navegante solo debe preocuparse por buscar la caja de diálogo, que permite introducir las palabras claves por las que pretende realizar la búsqueda, el cual tiene al lado un botón o un gráfico con las palabras "buscar", "search", "go", "go to get it", donde el navegante mediante un click inicia el proceso de búsqueda, es recomendable buscar, cerca de esta caja de diálogo, opciones para seleccionar el número de registros a mostrar por página, los dominios donde buscar, los tipos de recursos o el tipo de lógica a emplear.6 
Gresham23 opina que encontrar resultados relevantes en Internet es una mezcla de experiencia, técnicas, aptitudes, inventiva y buena suerte, todas combinadas con la habilidad de proceder en una dirección clara y metódica, en otras palabras, es simplemente "navegar con un propósito", apunta además que depende más de la estrategia de búsqueda que de la propia herramienta a utilizar. Sugiere la siguiente secuencia lógica de pasos: 
  • Determinar el tipo de información que se necesita (artículos científicos, estadísticas, documentos gubernamentales) y luego determinar qué tipo de organizaciones pueden ofrecer estos documentos. 
  • Crear una lista de todas las palabras claves posibles y de sus sinónimos. 
  • Determinar qué tipo de herramienta utilizar en la búsqueda (directorio, motor general o especializado, metabuscador) en dependencia de lo que se busca. 
  • Construir la estrategia de búsqueda y conducirla (en dependencia del buscador, se definirán las combinaciones de búsquedas, se debe ser lo más preciso posible y explotar las opciones disponibles).
  • Evaluar los resultados de la búsqueda (si los primeros 15 registros no se consideran relevantes debe considerarse replantear la estrategia varias veces o cambiar de buscador, si el resultado persiste, si los resultados son relevantes debe valorarse la actualidad de los registros y si el sitio proviene de una fuente confiable).
Flanagan,5 de manera más breve, apunta que para buscar en Internet existen 2 pasos claves a dar, en primer lugar, se ha de comprender correctamente qué se va a buscar, esto implica definir conceptos, determinar sinónimos, palabras relacionadas y, en segundo lugar, cómo usar las herramientas de búsqueda disponibles. 
Tyner11 señala también, aspectos que considera importantes, y al igual que Flanagan,5 se refiere a formular la búsqueda y su alcance, mediante la identificación de los conceptos que abordan la cuestión, las palabras claves, sus sinónimos y variaciones, así como la preparación de la estrategia de búsqueda, sin embargo, en esta reflexión no se considera la herramienta que se utilizará, sin la cual no queda bien expresada la estrategia (aunque más adelante hace alusión a ello), ni se trata la evaluación de los resultados. 
Realmente, el primer cuestionamiento del navegante debe ser siempre, ¿qué quiero buscar?, ¿cómo?, y ¿dónde puedo encontrarlo?. Los planteamientos anteriores, sobre todo de Gresham,23 constituyen una guía muy acertada de los pasos a seguir. 
Una vez elaborada esta guía, deben considerarse otros elementos para lograr mejores resultados, estos aspectos sugeridos por varios autores,3,6,11,13,15,24 se consideran aplicables a la mayoría de los buscadores: 
  • Escribir en minúsculas y sin acentos. 
  • No usar una sola palabra en su búsqueda porque se obtendrán demasiados resultados. 
  • Emplear varias palabras claves que definan o determinen específicamente lo que se busca. 
  • Encerrar "entre comillas" las palabras que se desean encontrar juntas (frases). 
  • Usar los operadores más comunes (and, or, not). 
  • Buscar en las horas de menos tráfico, en consideración a que la mayoría de los motores están ubicados en los Estados Unidos. 
  • Consultar siempre la información disponible de cada buscador para conocer qué opciones puede utilizar para interrogar sus bases de datos.
Uso de operadores lógicos y funciones especiales de búsqueda 
Como se expuso anteriormente, un buen planteamiento de la búsqueda es un factor decisivo para lograr resultados relevantes. La búsqueda por una sola palabra, o por un grupo de ellas escritas consecutivamente, sin una relación lógica sería un paso seguro a una búsqueda con bajísimos, casi nulos, índices de relevancia, pertinencia y precisión. Por eso, el uso de la lógica matemática es determinante para formular una búsqueda en la red, sea mediante signos matemáticos, símbolos o conjunciones en idioma inglés.6 
La mayoría de los buscadores reconocen el uso de los operadores lógicos AND, OR y AND NOT para combinar palabras, el uso de comillas o paréntesis para buscar frases completas, e incluyen también, lo que algunos llaman funciones especiales de búsqueda, limitadores, entre otras herramientas.2,5,6,11,25,26 Otros usan los operadores de exactitud, proximidad, truncado y los posicionales.4,11 A continuación, se ofrece una breve descripción de la naturaleza de cada uno, según los criterios presentes en los trabajos referidos anteriormente.
Operadores booleanos 
AND: indica que se recuperarán los documentos que contengan todas las palabras indicadas en la solicitud de búsqueda. Por esto, se considera muy útil para limitar una búsqueda y reducir el número de registros recuperados, mientras más términos se utilicen más específicos serán los resultados.
OR: ordena a la base de datos que devuelva todos los documentos que contengan, al menos, una de las palabras claves solicitadas. En este caso, el resultado puede ser: registros, con una, dos o todas las palabras incluidas en el planteamiento de la búsqueda. Es común utilizarlo cuando se puede buscar un término por sus sinónimos. En algunos buscadores se sustituye por el símbolo "|".
NOT o AND NOT: se utiliza entre 2 términos claves y se traduce por "no". Excluye de la búsqueda aquellos documentos que contengan la palabra clave a la que se refiere el operador. Es muy útil para eliminar los problemas causados por la polisemia; generalmente, se utiliza después de haber realizado una primera búsqueda, donde se obtengan resultados irrelevantes con las palabras solicitadas, que aparecen en un contexto diferente al que se busca. En algunos buscadores se sustituye por el símbolo "-" o "!".26
XOR: En la práctica no es un operador de uso muy frecuente, ni se conocen muchos buscadores que lo utilicen. Pide a la base de datos que devuelva todos los documentos que contengan una de las 2 palabras claves, pero excluye aquellos que contengan las 2 a la vez.26
Signos matemáticos: más y menos 
En algunos buscadores se utilizan en sustitución de los operadores AND (+) y AND NOT (-). Se colocan al igual que los operadores delante de las palabras a la que se refiera sin dejar espacios.
Operadores posicionales 
Los operadores posicionales definen, de alguna forma, cuál es la posición de las palabras claves dentro del documento y las interrelaciona entre ellas, según criterios de proximidad u orden.
NEAR: En español significa "cerca" y solicita los documentos que contengan ambas palabras claves, pero que no estén separadas por más de 10 palabras o 100 caracteres (aunque este número puede variar según el buscador). En algunos buscadores se puede sustituir por "~" o por "[]".26
FOLLOWED BY: En español significa "seguido de". Sus resultados son muy parecidos a los que produce Near, pero marca claramente cuál ha de ser el orden de las palabras claves. No es usado por muchos buscadores.26
Operadores de exactitud o truncado 
Estos operadores tratan a las palabras claves como cadenas de caracteres, no como palabras completas. El sistema devuelve aquellos documentos que contengan a la palabra clave, pero también aquellas en la que la palabra clave sea raíz o sufijo. Se indican con símbolos como: *, #, ?, aunque hay buscadores que emplean diferentes símbolos en dependencia de la cantidad de caracteres que estos representen, por ejemplo Northern Light utiliza el * para representar varios caracteres, mientras que usa el % para indicar un solo carácter. Aunque la mayoría de los buscadores permiten solo el truncamiento a la derecha, los símbolos se colocarán al inicio, en el medio o al final de la palabra clave en dependencia de las facilidades permisibles. A esta facilidad de hacer búsqueda por términos truncados, algunos autores la llaman "uso de comodín o wildcards". Tyner11 ofrece ejemplos muy concretos para el uso de estas herramientas en varios buscadores.
Búsqueda de frases 
En este caso, se considera a las palabras claves como si fueran una frase, es decir, deben aparecer en los registros recuperados como se introdujeron, una al lado de la otra, en el mismo orden. Es muy útil para hacer búsquedas muy concretas sobre un tema determinado, sobre todo cuando se considera una frase como una palabra y se combina con otras, a partir de los operadores lógicos, o los signos + y -.
Búsqueda por campos 
La búsqueda por campos es una herramienta tradicional en la búsqueda en bases de datos convencionales. Se considera, en Internet, una de las técnicas más efectivas para restringir los resultados de la búsqueda y aumentar la relevancia.
Por título 
Mediante cualquiera de las técnicas anteriores se indica a la base de datos que debe buscar solo en el campo título, como se muestra en el siguiente ejemplo: 
title:"Panamerican Health Organization", nótese que no se deben dejar espacios entre (:) y la palabra clave. En este caso, se devolverán todos los sitios que incluyan esta frase en el título.
Por dominio 
En este caso, se restringe la búsqueda a determinados dominios de países o tipo de instituciones (educacionales, no gubernamentales, militares, etc.). Por ejemplo: 
domain:cu +sld 
La base de datos devolverá los sitios sobre ciencias de la salud en Cuba. 
Por Host 
Generalmente cuando los sitios son muy grandes los buscadores no los rastrean completamente sino que se limitan a buscar en las bases de datos propias de éstos. Esta técnica se utiliza cuando se necesita encontrar información en un sitio muy grande que no tiene un motor de búsqueda interno. Con esta técnica, puede especificarse al motor que busque en todas las páginas de determinado sitio, las palabras claves de interés. Un ejemplo podría ser: host:www.fda.gov +"clinical guides". En este caso el motor de búsqueda rastreará el sitio de la FDA completo en busca de la frase "clinical guides".
Por URL 
Se limitan los resultados a páginas web donde las palabras claves se busquen en la URL. Por ejemplo, para conocer las páginas cuya dirección incluyen el término Infomed, se enuncia la búsqueda de la siguiente forma: 
url:infomed
Por enlaces 
Se utiliza para conocer las páginas que ofrecen enlaces a un sitio en particular. Por ejemplo, para conocer qué sitios tienen enlaces a Infomed, la búsqueda se formula de la siguiente forma: 
Link:www.infomed.sld.cu
Estas opciones de búsqueda constituyen las más comunes y pueden encontrarse indistintamente en uno u otro buscador, y aunque ninguno es capaz de conjugarlas todas, la combinación de búsqueda por diferentes campos, con la búsqueda de frases y el uso de los operadores lógicos puede ofrecer resultados muy precisos, por lo que es muy recomendable para restringir las búsquedas y obtener resultados más relevantes. 
Como se explicó anteriormente, se sugiere la consulta de la ayuda, las FAQs y el "about" al iniciar el trabajo con un buscador, además de la consulta de literatura que recoge estudios completos al respecto.
Ordenamiento de los resultados de las búsquedas: ¿Mito o realidad? 
Muchos navegantes se preguntan cómo es posible que en una búsqueda con miles de registros como resultado, estos puedan ordenarse por su grado de relevancia; los más incrédulos dudan, incluso, que los buscadores tengan esta capacidad. 
Realmente resulta asombroso, pero lo es mucho menos, si se piensa que detrás de esta función está el conocimiento humano, creador de un software, que puede basarse en diferentes algoritmos, lo suficientemente inteligente para que el motor de búsqueda sea capaz de realizar esta tarea. Conocer cuál es el algoritmo que utiliza cada buscador en particular es casi un secreto pero la gran mayoría se basan en mecanismos similares.27 
Chakrabarti,28 expone que el primer problema que enfrentan los buscadores para ordenar sus resultados es que no existe una fórmula matemáticamente precisa que permita el "mejor" ordenamiento. Señala además, que la cuestión más difícil es que tienen que asumir no solo el ordenamiento de una búsqueda muy precisa de 20 registros como resultado, lograda por una perfecta combinación de términos y frases, sino que también deben ser capaces de ordenar una búsqueda realizada por una sola palabra que arroje millones de registros. Entonces, ¿cómo se ordenan los resultados?. 
Muchos buscadores ordenan los resultados por la relación localización/frecuencia, es decir, por la cantidad de veces que aparece la palabra clave, el valor es mayor cuando estas aparecen al principio del texto, en los títulos o en los encabezamientos,27,28 sin embargo, este se considera un método no muy útil para algunos tipos de búsqueda, por ejemplo al buscar la palabra clave "hernia", tal vez uno de los registros más relevantes se refiera al libro Kandy-Kolored Tangerine-Flake Streamline Baby de Tom Wolfe, porque este repite la palabra una docena de veces al principio, cuando realmente no se corresponde con el tema buscado, en estos casos los problemas de sinonimia y polisemia atentan contra los resultados.28 
Desafortunadamente, hasta donde ha llegado la evolución de los buscadores, estos no conciben vocabularios controlados para considerar las relaciones de este tipo entre las palabras mediante referencias,20 es válido mencionar que se han registrado algunos intentos al respecto, como el proyecto Wordnet de la Universidad de Princeton y el proyecto Clever de IBM, pero sin resultados muy alentadores.8 
Otro método, para el ordenamiento de los resultados de las búsquedas en el web, es el análisis de los enlaces, se basa en la relación entre el registro y el resto de estos, con enlaces a él, se supone que los webs de mayor calidad se citan con mayor profusión, así el sistema muestra primero los que más veces aparecen en otras páginas.27 El algoritmo conocido comoGoogleRank, constituye una joya inapreciable, también el proyecto Clever mencionado anteriormente, propone un método sumamente interesante para el análisis de los enlaces. 
Verdaderamente, en la función de ordenar los resultados de las búsquedas es tal vez, donde los buscadores logran una menor eficiencia, y en ocasiones no es recomendable comparar los resultados entre uno y otro para determinar cuál los ordena mejor, sencillamente porque no indizan las mismas páginas, algunos indizan más que otros, con menor o mayor frecuencia, por esto, los resultados, aun sin ordenar, nunca serían los mismos.


No hay comentarios:

Publicar un comentario