Buscando los tesoros de la Web

miércoles, 14 de septiembre de 2016

EL ARTE DE BUSCAR EN LA WEB

Hola a todos muy buenos días; continuando con el curso de MIRIADA X "Encontrando tesoros en la red (4.ª edición)", veremos hoy el tema de "El arte de buscar en la Web".

En la antigua Grecia, el filósofo Platón les decía a sus discípulos (Entre los cuales se encontraba Aristóteles):

"Si bien buscas encontrarás"

Trasladando su consejo a el tema de buscar información en la Web, diríamos que para encontrar buenas respuestas hay que formular las preguntas correctas.

Antes de realizar una consulta pensemos qué es lo que deseamos encontrar y definir lo más concreto posible nuestro objetivo en una pregunta.

Pero para obtener la respuesta justa es fundamental formular nuestra pregunta en la forma más adecuada y para éso debemos ordenar los conocimientos previos que tenemos sobre el tema, aprovechar de manera eficaz esos “retazos” de información y formular una buena pregunta. Luego los diferentes elementos identificables deben ser traducidos a términos que puedan ser interpretados por un buscador. Estos términos son denominados palabras claves o descriptores.

Existen tres tipos de palabras claves:

Las palabras claves de campo temático:

Son los nombres de las disciplinas y los términos imprescindibles que no pueden dejar de estar mencionadas en un documento que habla del tema de nuestra pregunta.

Las palabras claves de problema específico:

Son frases breves que mencionan el asunto o su núcleo problemático más específico. En realidad, no son palabras claves, sino frases específicas o expresiones claves, segmentos de texto insertos en un contexto que intentamos rescatar. Por eso es aconsejable incluir expresiones “en uso” que tengan que ver con el lenguaje que utilizamos habitualmente.

Las palabras claves de referencias autorales:

Son nombres de autores que se encuentran directamente relacionados con el problema, y que son considerados clásicos o referentes importantes en la materia. Sirven para identificar apellidos en listas bibliográficas que no siempre incluyen el nombre del autor, por lo tanto, es conveniente incluir sólo apellidos.

Llevemos a la práctica lo anterior y hagamos una investigación sobre el desarrollo de aplicaciones con el framework PhoneGap.

Pregunta general: ¿Qué manuales del desarrollo de aplicaciones con el framework PhoneGap puedo encontrar en la Internet?

Campo temático: PhoneGap, desarrollo, aplicaciones, código, programación

Problema específico: Manual, tutorial, libro, pdf

Referencias autorales: Cualesquier autor

Para realizar la búsqueda de información utilizaremos el buscador académico de Google, a fin de enfocarnos en la información recopilada en sitios de expertos, profesores y estudiosos del tema.

El buscador académico de Google se puede accesar en el siguiente link: http://scholar.google.es/

Accediendo a sus opciones de búsqueda avanzada (Esto se hace dando click en el símbolo de flecha hacia abajo, ubicado en la caja de texto del buscador),

Veremos el siguiente formulario:

Llenando los campos correspondientes con las palabras claves (separadas por espacios en lugar de comas) que determinamos anteriormente veremos que obtenemos 252 resultados que cumplen con los requisitos de nuestra búsqueda.

Este número de resultados obtenidos es razonable si lo comparamos con el número de resultados que se suelen obtener en los buscadores convencionales, los cuales oscilan entre los 10,000 y 500,000.

Una regla en la búsqueda de información es que el número de resultados obtenidos debe oscilar entre los 10 y 150.

Si son menos de 10, se debe ampliar la consulta eliminando uno o más palabras claves.
Si son más de 150, se debe restringir la consulta agregando una o más palabras claves.

En nuestro caso vemos que debemos restringir la consulta agregando palabras claves; así que pediremos resultados que hayan sido publicados entre los años 2015 y 2016 para definir aún más lo que deseamos.

Y habiendo delimitado nuestra consulta obtenemos esta vez 105 resultados; un número menor al anterior y que cumple con el requisito del rango en la cantidad.

Y con ésto terminamos con el tema de hoy; espero que les haya resultado ilustrativo.
Que tengan un excelente día y aquí nos vemos en la próxima publicación.

martes, 13 de septiembre de 2016

OBSERVANDO LAS INMENSIDADES DE LA WEB PROFUNDA

Hola muy buen día a todos, continuando con el curso de MiriadaX "Encontrando tesoros en la web (4ta. edición)" el tema de hoy será la Web profunda.

Ya lo hemos mencionado antes, la Internet es como un enorme océano donde flotan icebergs inmensos repletos de información.

Y al igual que los icebergs la parte que sobresale del agua es la parte que podemos ver sin dificultad. Pero realmente representa un pequeño porcentaje del total de su tamaño.

Tomando en base ésta analogía, podemos decir que la web se divide en dos clases: Web superficial y Web profunda.

Web superficial

También se le llama Web visible y comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.

Características principales:

Su información no está contenida en bases de datos.

Es de libre acceso.

No se requiere la realización de un proceso de registro para acceder a la información.

Mayoritariamente está formada por páginas web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

Web Profunda

Manteniendo la analogía de ver a la Internet como un inmenso iceberg de información, en la imagen que se muestra a continuación podemos observar un ejemplo de lo que sería la Internet Profunda.

También se le conoce como Web invisible y se compone de toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos.

Su información es "invisible" a los robots de los buscadores convencionales porque su contenido de información se genera en base a consultas de páginas dinámicas (Aplicaciones desarrolladas en lenguajes de programación como ASP, PHP, C#, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales), desapareciendo una vez cerrada la consulta.

Opinión sobre el tema del estudioso Lluis Codina: “Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado”.

Habiendo establecido entonces, que la Web profunda se compone de información oculta o invisible a los buscadores convencionales, utilizaremos la clasificación en cuatro categorías de la Web profunda que realizan los estudiosos del tema Sherman y Pearce.

Web opaca

Se compone de archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:

Extensión de la indización: a veces, por economía, no todas las páginas de un sitio son indizadas en los buscadores.

Frecuencia de la indización: los buscadores no poseen la capacidad de indizar todas las páginas existentes; a diario se agregan y modifican muchas y la indización no se realiza al ritmo que permita incluirlas a todas.

Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados, generalmente limitan el número de documentos que se muestran (entre 200 y 1000).

URL desconectadas: las generaciones más recientes de buscadores, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados en otros. Si un documento no tiene un link a él, desde otro documento, será imposible que la página sea encontrada, pues no se encuentra indizada.

Web privada

Es el contenido web que podría estar enlistado en los buscadores pero es excluído deliberadamente por alguno de estos motivos:

Las páginas están protegidas por contraseñas.

Contienen un archivo “robots.txt” para evitar ser indizadas.

Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.

Web propietaria

Es el contenido web que incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.

Web realmente invisible

Se conforma de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas de manera dinámica, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

Recursos para la búsqueda de información en la Web profunda

Aunque se ha especulado mucho sobre lo que contiene la llamada Web invisible; pues se rumorea que hay desde venta de productos y servicios ilegales hasta documentos clasificados cuya lectura o mera descarga acarrea penas de prisión u algo peor.

La verdad es que lo que contiene va más allá de lo que uno se pueda imaginar; y sí, es territorio de mercados negros donde se ofrecen productos y servicios prohibidos como drogas, hackers a la orden y software sin licencia; entre otros.

Aunque claro, también está toda la información inofensiva (Si lo vemos desde un punto de vista general) que sus creadores simple y sencillamente decidieron no dejar con acceso público; y que en realidad no es ultra secreta ni cambiará el futuro de la humanidad si cae en malas manos pero que, repitiendo; no se desea esté al alcance de cualesquiera.

The WWW Virtual Library (http://vlib.org/) Se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web.

Academia.edu (https://www.academia.edu) Es una red social 2.0 para investigadores que cuenta con un directorio de más de 12.000 publicaciones científicas de todo el mundo.

Reefseek.com (http://www.refseek.com/) Es un motor de búsqueda en Internet para estudiantes e investigadores que tiene como objetivo hacer que la información académica sea de fácil acceso para todos. Busca en más de un billón de documentos, incluyendo páginas web, libros, enciclopedias, revistas y periódicos, intentando eliminar cualquier resultado no relativo a ciencia e investigación.

Jurn (http://www.jurn.org) Es otro motor de búsqueda que permite buscar en millones de artículos libres académicos, capítulos y tesis de múltiples disciplinas (Artes, Historia, Humanidades, Negocios, Economía, Ecología, Ciencia y más).

Microsoft Academic Search (http://academic.research.microsoft.com/) Es el buscador académico de Microsoft.

TechXtra (http://techxtra.tradepub.com/) Centra su búsqueda de información en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas y podcasts.

Ciencia (http://ciencia.science.gov/) Es la versión en español del portal Science.gov (http://www.science.gov/ ) para la búsqueda de información científica e investigación del gobierno de los Estados Unidos de América. Puede indexar más de 60 bases de datos y 200 millones de páginas con información científica para mostrar los resultados por subtemas, autores o fechas. También ofrece la posibilidad de búsqueda avanzada y búsqueda de imágenes.

Existen otros recursos como los mencionados arriba, pero que cuentan a su vez con su propia aura de misterio y leyenda como :

Tor (https://www.torproject.org/)
PirateBrowser (http://151.80.2.54/)
Privoxy (http://www.privoxy.org/)
Freenet (http://www.freenetproject.org/)

Estos últimos recursos, mencionan quienes los han usado, resultan herramientas indispensables para investigar en las profundidades del abismo que es la Web profunda sin peligro de ser detectado o identificado; dicho ésto y bajo la consigna de "No me hago responsable de su uso o abuso", valga la advertencia: "Utilícese bajo su propio riesgo".

Con ésto me despido, hasta la próxima; que tengan un excelente día.

martes, 16 de agosto de 2016

BUSQUEDAS AVANZADAS EN LA WEB

Buen día, hoy continuaremos con un módulo más del curso "Encontrando tesoros en la red (4ta Edición" de Miriada X.

El tema de hoy es la búsqueda avanzada de información, porque como sabemos; a veces no es fácil encontrar la información que deseamos en medio del océano de datos que es la web.

Por fortuna existen herramientas que nos ayudan a facilitar la tarea como son:

Las palabras clave: Son palabras que nos ayudan a definir con mayor precision la informacion que estamos buscando.
Operadores lógicos: Son operadores de tipo booleano como AND, OR o NOT que nos permiten afinar la precisión en nuestras búsquedas
Símbolos especiales: Son símbolos como el asterisco '*', la interrogación '?', la arroba '@', el numeral '#' o los dos puntos consecutivos '..' que se utilizan para buscar datos de cadena, tendencias, etiquetas sociales o rangos.
Formularios de búsqueda avanzada: Algunos buscadores web ofrecen formularios para facilitar la búsqueda de información, ahorrándonos tiempo al ayudar a definir el tipo de datos que deseamos. Por ejemplo Google, que en su sitio https://www.google.es/advanced_search nos ofrece este tipo de herramienta.

Para complementar el tema, los invito a visitar una presentación especial que elaboré para todos ustedes.

Se ubica en : Presentación de herramientas de búsqueda avanzada en la Web

Por hoy es todo, espero verlos en la próxima; que tengan todos un excelente día.

miércoles, 3 de agosto de 2016

¿CON QUE HERRAMIENTAS CONTAMOS PARA LA BUSQUEDA DE INFORMACION EN LA WEB?

Hola muy buenos días a todos.

Continuando con el curso de Miriada X "Encontrando tesoros en la red (4.ª edición)", veremos a continuación el tema de las cinco herramientas básicas para la búsqueda de información en la web con las que contamos.
Para el desarrollo del tema se realizó un muro interactivo en el cuál se muestran los conceptos, características y ejemplos de cada una de las herramientas mencionadas.

Espero les sea de su agrado y lo encuentren informativo, estoy a la orden para cualesquier comentario o sugerencia.
Nos veremos en la próxima publicación, saludos a todos, que siga siendo éste, un excelente día.

Created with Padlet

martes, 26 de julio de 2016

LA ERA DE LA "INFOXICACION"

Dentro de las comodidades de la era moderna tenemos el acceso a la web.

Se dice que en la actualidad con la simple lectura de la primera plana de cualesquier diario de noticias, obtenemos más información que la que recibían en su vida nuestros antepasados que vivieron en el siglo XV.

Y es que el acceso a la Internet nos ha ahorrado mucho tiempo en la búsqueda y obtención de información. Antes se solía adquirir una enciclopedia bellamente empastada para realizar nuestros trabajos escolares, hoy basta con teclear algunas palabras en algún buscador como Bing, Google, Yahoo, etc; y tenemos en un instante la información que necesitábamos.

Pero, recordando las palabras de un sabio y conocido personaje de las historietas:

"Un gran poder conlleva una gran responsabilidad."

El tío Ben (Spiderman)

El fácil acceso a la información nos ha provocado una sobrecarga de datos; así pues si deseo conocer la respuesta a una pregunta, por ejemplo; ¿COMO SABER QUIEN SOY?.

El buscador me proporciona cincuenta millones quinientos mil posibles respuestas a mi pregunta. Si me pusiera a leer una por una y suponiendo me lleve leer cada una en promedio medio minuto... me ocuparía más de 48 años dedicado sin parar a esa única actividad.

Entonces, retomando el tema; el acceso a la información disponible en la Internet nos provoca que seamos bombardeados por una gran cantidad de datos que no podemos manejar, lo que conlleva a diversos síntomas como parálisis para la toma de decisiones, confusión, angustia, cambios fisiológicos como aumento del ritmo cardíaco, mareo, euforia, depresión, problemas gástricos u intestinales; los mismos de una intoxicación.

Sólo que ésta intoxicación no es provocada por la inhalación, la ingestión o la exposición a algún elemento físico; sino a la información en exceso.

No solamente cuando buscamos respuestas, sino también cuando nos comunicamos por medio de twitter, facebook, snapchat, messenger, etc, etc. Porque además de buscadores somos creadores de información, y le avisamos al mundo entero de nuestras penas, alegrías, fracasos y victorias; y claro, de nuestro conocimiento y aprendizaje como en éste bonito blog que llega a ustedes por cortesía de Blogger.

Ya desde hace mucho tiempo, aún antes del libre acceso a la web; se hablaba del problema de contar con demasiada información. Alvin Toffler en su libro "El shock del futuro" (1970) (Puedes leerlo en línea aquí) crea el término “sobrecarga informativa” (information overload) para hacer referencia al estado de contar con demasiada información para tomar una decisión o permanecer informado sobre un determinado tema. A éste mismo estado - Hace 20 años.- Alfons Cornella lo denominó "Infoxicación"; la cual nace de unir la palabra "Información" con "Intoxicación".

Otras opiniones sobre el tema:

"Asistimos, sin duda, a una hiperconexión compulsiva y una sobreinformación global, a una obsesión por la comunicación perpetua vacía de contenidos… La infoxicación, la infopolución… se ha hecho realidad en nuestras vidas". José Ignacio Aguaded Gómez

"Internet es todavía un mundo salvaje y peligroso. Todo llega allí sin jerarquía. La inmensa cantidad de cosas que circula es peor que la falta de información. El exceso de información provoca amnesia. El exceso de información es malo". Humberto Eco

“El problema no es la sobrecarga de información, es que el filtro no funciona”. Clay Shirky

La recomendación para evitar la "infoxicación" es dividir la información que recibimos en tres categorías :

Información fatal: Es toda aquella que no necesitamos conocer para nuestro trabajo o vida diaria. Ejemplos: El color de uñas de Kylie Jenner, la primera palabra del bebé de la princesa Kate, la marca de calcetines de Donald Trump.
Información interesante: Es toda aquella que actualmente no necesitamos pero en un momento dado puede sernos útil. Ejemplos: Las requisitos para la obtención de licencia de manejo, las noticias sobre economía, política internacional, tecnología o clima.
Información crítica: Es toda aquella que requerimos conocer para nuestro trabajo, vida diaria o salud. Ejemplos: Nuevas disposiciones de la gerencia en la empresa, información didáctica sobre nuestro oficio, resultado de nuestros análisis clínicos.

Y sobre nuestra área de trabajo o de productividad personal, se recomienda identificar:

Los cinco temas fundamentales.
Los cinco temas secundarios.
La información crítica para cada uno de éstos temas.

Muchas gracias por leerme, espero les haya resultado de interés.

Nos veremos en el próximo post, que tengan un excelente día saludos.

Para conocer un poco más:

"Desde la infoxicación al derecho a la comunicación" - José Ignacio Aguaded Gómez (Enlace al artículo)

“Como sobrevivir a la infoxicación”- Alfons Cornella. Trascripción de la conferencia del acto de entrega de títulos de los programas de Formación de Posgrado del año académico 1999-2000 (Enlace al artículo)

“Infoxicación: cuando la respuesta no es tecnológica, sino cultural”- Javier Velilla. (Enlace al artículo)

“El problema no es la sobrecarga de información, es que el filtro no funciona”. Clay Shirky en la Web 2.0 Expo de 2010 (Ver video)

PRESENTACION

Hola muy buen día a todos.

Les presento mi blog personal para el curso de Miriada X "Encontrando tesoros en la red (4.ª edición)"

Mi nombre es Aldo Rodríguez, nativo de México solía dedicarme al área de sistemas de manera profesional. Ahora sigo realizando proyectos por mi cuenta en ésta y otras áreas.

Mis expectativas sobre el curso son aprender y conocer más sobre las herramientas de búsqueda de información en la web, filtros de la información disponible y cómo sacar el mayor provecho de la información recolectada.

Sean todos bienvenidos y comencemos.