Buscando los tesoros de la Web: OBSERVANDO LAS INMENSIDADES DE LA WEB PROFUNDA

Hola muy buen día a todos, continuando con el curso de MiriadaX "Encontrando tesoros en la web (4ta. edición)" el tema de hoy será la Web profunda.

Ya lo hemos mencionado antes, la Internet es como un enorme océano donde flotan icebergs inmensos repletos de información.

Y al igual que los icebergs la parte que sobresale del agua es la parte que podemos ver sin dificultad. Pero realmente representa un pequeño porcentaje del total de su tamaño.

Tomando en base ésta analogía, podemos decir que la web se divide en dos clases: Web superficial y Web profunda.

Web superficial

También se le llama Web visible y comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.

Características principales:

Su información no está contenida en bases de datos.

Es de libre acceso.

No se requiere la realización de un proceso de registro para acceder a la información.

Mayoritariamente está formada por páginas web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

Web Profunda

Manteniendo la analogía de ver a la Internet como un inmenso iceberg de información, en la imagen que se muestra a continuación podemos observar un ejemplo de lo que sería la Internet Profunda.

También se le conoce como Web invisible y se compone de toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos.

Su información es "invisible" a los robots de los buscadores convencionales porque su contenido de información se genera en base a consultas de páginas dinámicas (Aplicaciones desarrolladas en lenguajes de programación como ASP, PHP, C#, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales), desapareciendo una vez cerrada la consulta.

Opinión sobre el tema del estudioso Lluis Codina: “Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado”.

Habiendo establecido entonces, que la Web profunda se compone de información oculta o invisible a los buscadores convencionales, utilizaremos la clasificación en cuatro categorías de la Web profunda que realizan los estudiosos del tema Sherman y Pearce.

Web opaca

Se compone de archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:

Extensión de la indización: a veces, por economía, no todas las páginas de un sitio son indizadas en los buscadores.

Frecuencia de la indización: los buscadores no poseen la capacidad de indizar todas las páginas existentes; a diario se agregan y modifican muchas y la indización no se realiza al ritmo que permita incluirlas a todas.

Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados, generalmente limitan el número de documentos que se muestran (entre 200 y 1000).

URL desconectadas: las generaciones más recientes de buscadores, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados en otros. Si un documento no tiene un link a él, desde otro documento, será imposible que la página sea encontrada, pues no se encuentra indizada.

Web privada

Es el contenido web que podría estar enlistado en los buscadores pero es excluído deliberadamente por alguno de estos motivos:

Las páginas están protegidas por contraseñas.

Contienen un archivo “robots.txt” para evitar ser indizadas.

Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.

Web propietaria

Es el contenido web que incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.

Web realmente invisible

Se conforma de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas de manera dinámica, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

Recursos para la búsqueda de información en la Web profunda

Aunque se ha especulado mucho sobre lo que contiene la llamada Web invisible; pues se rumorea que hay desde venta de productos y servicios ilegales hasta documentos clasificados cuya lectura o mera descarga acarrea penas de prisión u algo peor.

La verdad es que lo que contiene va más allá de lo que uno se pueda imaginar; y sí, es territorio de mercados negros donde se ofrecen productos y servicios prohibidos como drogas, hackers a la orden y software sin licencia; entre otros.

Aunque claro, también está toda la información inofensiva (Si lo vemos desde un punto de vista general) que sus creadores simple y sencillamente decidieron no dejar con acceso público; y que en realidad no es ultra secreta ni cambiará el futuro de la humanidad si cae en malas manos pero que, repitiendo; no se desea esté al alcance de cualesquiera.

The WWW Virtual Library (http://vlib.org/) Se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web.

Academia.edu (https://www.academia.edu) Es una red social 2.0 para investigadores que cuenta con un directorio de más de 12.000 publicaciones científicas de todo el mundo.

Reefseek.com (http://www.refseek.com/) Es un motor de búsqueda en Internet para estudiantes e investigadores que tiene como objetivo hacer que la información académica sea de fácil acceso para todos. Busca en más de un billón de documentos, incluyendo páginas web, libros, enciclopedias, revistas y periódicos, intentando eliminar cualquier resultado no relativo a ciencia e investigación.

Jurn (http://www.jurn.org) Es otro motor de búsqueda que permite buscar en millones de artículos libres académicos, capítulos y tesis de múltiples disciplinas (Artes, Historia, Humanidades, Negocios, Economía, Ecología, Ciencia y más).

Microsoft Academic Search (http://academic.research.microsoft.com/) Es el buscador académico de Microsoft.

TechXtra (http://techxtra.tradepub.com/) Centra su búsqueda de información en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas y podcasts.

Ciencia (http://ciencia.science.gov/) Es la versión en español del portal Science.gov (http://www.science.gov/ ) para la búsqueda de información científica e investigación del gobierno de los Estados Unidos de América. Puede indexar más de 60 bases de datos y 200 millones de páginas con información científica para mostrar los resultados por subtemas, autores o fechas. También ofrece la posibilidad de búsqueda avanzada y búsqueda de imágenes.

Existen otros recursos como los mencionados arriba, pero que cuentan a su vez con su propia aura de misterio y leyenda como :

Tor (https://www.torproject.org/)
PirateBrowser (http://151.80.2.54/)
Privoxy (http://www.privoxy.org/)
Freenet (http://www.freenetproject.org/)

Estos últimos recursos, mencionan quienes los han usado, resultan herramientas indispensables para investigar en las profundidades del abismo que es la Web profunda sin peligro de ser detectado o identificado; dicho ésto y bajo la consigna de "No me hago responsable de su uso o abuso", valga la advertencia: "Utilícese bajo su propio riesgo".

Con ésto me despido, hasta la próxima; que tengan un excelente día.

Buscando los tesoros de la Web

martes, 13 de septiembre de 2016

OBSERVANDO LAS INMENSIDADES DE LA WEB PROFUNDA

1 comentario:

Archivo del Blog