Buscando los tesoros de la Web: septiembre 2016

Hola a todos muy buenos días; continuando con el curso de MIRIADA X "Encontrando tesoros en la red (4.ª edición)", veremos hoy el tema de "El arte de buscar en la Web".

En la antigua Grecia, el filósofo Platón les decía a sus discípulos (Entre los cuales se encontraba Aristóteles):

"Si bien buscas encontrarás"

Trasladando su consejo a el tema de buscar información en la Web, diríamos que para encontrar buenas respuestas hay que formular las preguntas correctas.

Antes de realizar una consulta pensemos qué es lo que deseamos encontrar y definir lo más concreto posible nuestro objetivo en una pregunta.

Pero para obtener la respuesta justa es fundamental formular nuestra pregunta en la forma más adecuada y para éso debemos ordenar los conocimientos previos que tenemos sobre el tema, aprovechar de manera eficaz esos “retazos” de información y formular una buena pregunta. Luego los diferentes elementos identificables deben ser traducidos a términos que puedan ser interpretados por un buscador. Estos términos son denominados palabras claves o descriptores.

Existen tres tipos de palabras claves:

Las palabras claves de campo temático:

Son los nombres de las disciplinas y los términos imprescindibles que no pueden dejar de estar mencionadas en un documento que habla del tema de nuestra pregunta.

Las palabras claves de problema específico:

Son frases breves que mencionan el asunto o su núcleo problemático más específico. En realidad, no son palabras claves, sino frases específicas o expresiones claves, segmentos de texto insertos en un contexto que intentamos rescatar. Por eso es aconsejable incluir expresiones “en uso” que tengan que ver con el lenguaje que utilizamos habitualmente.

Las palabras claves de referencias autorales:

Son nombres de autores que se encuentran directamente relacionados con el problema, y que son considerados clásicos o referentes importantes en la materia. Sirven para identificar apellidos en listas bibliográficas que no siempre incluyen el nombre del autor, por lo tanto, es conveniente incluir sólo apellidos.

Llevemos a la práctica lo anterior y hagamos una investigación sobre el desarrollo de aplicaciones con el framework PhoneGap.

Pregunta general: ¿Qué manuales del desarrollo de aplicaciones con el framework PhoneGap puedo encontrar en la Internet?

Campo temático: PhoneGap, desarrollo, aplicaciones, código, programación

Problema específico: Manual, tutorial, libro, pdf

Referencias autorales: Cualesquier autor

Para realizar la búsqueda de información utilizaremos el buscador académico de Google, a fin de enfocarnos en la información recopilada en sitios de expertos, profesores y estudiosos del tema.

El buscador académico de Google se puede accesar en el siguiente link: http://scholar.google.es/

Accediendo a sus opciones de búsqueda avanzada (Esto se hace dando click en el símbolo de flecha hacia abajo, ubicado en la caja de texto del buscador),

Veremos el siguiente formulario:

Llenando los campos correspondientes con las palabras claves (separadas por espacios en lugar de comas) que determinamos anteriormente veremos que obtenemos 252 resultados que cumplen con los requisitos de nuestra búsqueda.

Este número de resultados obtenidos es razonable si lo comparamos con el número de resultados que se suelen obtener en los buscadores convencionales, los cuales oscilan entre los 10,000 y 500,000.

Una regla en la búsqueda de información es que el número de resultados obtenidos debe oscilar entre los 10 y 150.

Si son menos de 10, se debe ampliar la consulta eliminando uno o más palabras claves.
Si son más de 150, se debe restringir la consulta agregando una o más palabras claves.

En nuestro caso vemos que debemos restringir la consulta agregando palabras claves; así que pediremos resultados que hayan sido publicados entre los años 2015 y 2016 para definir aún más lo que deseamos.

Y habiendo delimitado nuestra consulta obtenemos esta vez 105 resultados; un número menor al anterior y que cumple con el requisito del rango en la cantidad.

Y con ésto terminamos con el tema de hoy; espero que les haya resultado ilustrativo.
Que tengan un excelente día y aquí nos vemos en la próxima publicación.

Hola muy buen día a todos, continuando con el curso de MiriadaX "Encontrando tesoros en la web (4ta. edición)" el tema de hoy será la Web profunda.

Ya lo hemos mencionado antes, la Internet es como un enorme océano donde flotan icebergs inmensos repletos de información.

Y al igual que los icebergs la parte que sobresale del agua es la parte que podemos ver sin dificultad. Pero realmente representa un pequeño porcentaje del total de su tamaño.

Tomando en base ésta analogía, podemos decir que la web se divide en dos clases: Web superficial y Web profunda.

Web superficial

También se le llama Web visible y comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.

Características principales:

Su información no está contenida en bases de datos.

Es de libre acceso.

No se requiere la realización de un proceso de registro para acceder a la información.

Mayoritariamente está formada por páginas web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

Web Profunda

Manteniendo la analogía de ver a la Internet como un inmenso iceberg de información, en la imagen que se muestra a continuación podemos observar un ejemplo de lo que sería la Internet Profunda.

También se le conoce como Web invisible y se compone de toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos.

Su información es "invisible" a los robots de los buscadores convencionales porque su contenido de información se genera en base a consultas de páginas dinámicas (Aplicaciones desarrolladas en lenguajes de programación como ASP, PHP, C#, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales), desapareciendo una vez cerrada la consulta.

Opinión sobre el tema del estudioso Lluis Codina: “Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado”.

Habiendo establecido entonces, que la Web profunda se compone de información oculta o invisible a los buscadores convencionales, utilizaremos la clasificación en cuatro categorías de la Web profunda que realizan los estudiosos del tema Sherman y Pearce.

Web opaca

Se compone de archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:

Extensión de la indización: a veces, por economía, no todas las páginas de un sitio son indizadas en los buscadores.

Frecuencia de la indización: los buscadores no poseen la capacidad de indizar todas las páginas existentes; a diario se agregan y modifican muchas y la indización no se realiza al ritmo que permita incluirlas a todas.

Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados, generalmente limitan el número de documentos que se muestran (entre 200 y 1000).

URL desconectadas: las generaciones más recientes de buscadores, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados en otros. Si un documento no tiene un link a él, desde otro documento, será imposible que la página sea encontrada, pues no se encuentra indizada.

Web privada

Es el contenido web que podría estar enlistado en los buscadores pero es excluído deliberadamente por alguno de estos motivos:

Las páginas están protegidas por contraseñas.

Contienen un archivo “robots.txt” para evitar ser indizadas.

Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.

Web propietaria

Es el contenido web que incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.

Web realmente invisible

Se conforma de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas de manera dinámica, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

Recursos para la búsqueda de información en la Web profunda

Aunque se ha especulado mucho sobre lo que contiene la llamada Web invisible; pues se rumorea que hay desde venta de productos y servicios ilegales hasta documentos clasificados cuya lectura o mera descarga acarrea penas de prisión u algo peor.

La verdad es que lo que contiene va más allá de lo que uno se pueda imaginar; y sí, es territorio de mercados negros donde se ofrecen productos y servicios prohibidos como drogas, hackers a la orden y software sin licencia; entre otros.

Aunque claro, también está toda la información inofensiva (Si lo vemos desde un punto de vista general) que sus creadores simple y sencillamente decidieron no dejar con acceso público; y que en realidad no es ultra secreta ni cambiará el futuro de la humanidad si cae en malas manos pero que, repitiendo; no se desea esté al alcance de cualesquiera.

The WWW Virtual Library (http://vlib.org/) Se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web.

Academia.edu (https://www.academia.edu) Es una red social 2.0 para investigadores que cuenta con un directorio de más de 12.000 publicaciones científicas de todo el mundo.

Reefseek.com (http://www.refseek.com/) Es un motor de búsqueda en Internet para estudiantes e investigadores que tiene como objetivo hacer que la información académica sea de fácil acceso para todos. Busca en más de un billón de documentos, incluyendo páginas web, libros, enciclopedias, revistas y periódicos, intentando eliminar cualquier resultado no relativo a ciencia e investigación.

Jurn (http://www.jurn.org) Es otro motor de búsqueda que permite buscar en millones de artículos libres académicos, capítulos y tesis de múltiples disciplinas (Artes, Historia, Humanidades, Negocios, Economía, Ecología, Ciencia y más).

Microsoft Academic Search (http://academic.research.microsoft.com/) Es el buscador académico de Microsoft.

TechXtra (http://techxtra.tradepub.com/) Centra su búsqueda de información en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas y podcasts.

Ciencia (http://ciencia.science.gov/) Es la versión en español del portal Science.gov (http://www.science.gov/ ) para la búsqueda de información científica e investigación del gobierno de los Estados Unidos de América. Puede indexar más de 60 bases de datos y 200 millones de páginas con información científica para mostrar los resultados por subtemas, autores o fechas. También ofrece la posibilidad de búsqueda avanzada y búsqueda de imágenes.

Existen otros recursos como los mencionados arriba, pero que cuentan a su vez con su propia aura de misterio y leyenda como :

Tor (https://www.torproject.org/)
PirateBrowser (http://151.80.2.54/)
Privoxy (http://www.privoxy.org/)
Freenet (http://www.freenetproject.org/)

Estos últimos recursos, mencionan quienes los han usado, resultan herramientas indispensables para investigar en las profundidades del abismo que es la Web profunda sin peligro de ser detectado o identificado; dicho ésto y bajo la consigna de "No me hago responsable de su uso o abuso", valga la advertencia: "Utilícese bajo su propio riesgo".

Con ésto me despido, hasta la próxima; que tengan un excelente día.

Buscando los tesoros de la Web

miércoles, 14 de septiembre de 2016

EL ARTE DE BUSCAR EN LA WEB

martes, 13 de septiembre de 2016

OBSERVANDO LAS INMENSIDADES DE LA WEB PROFUNDA

Archivo del Blog