Causas

INTERNET INVISIBLE


¿Qué es Internet Invisible? | Causas | Enlaces | Contacto


Causas de la existencia de Internet Invisible

Iceberg

El origen de esta Internet Invisible o Profunda se debe a la forma en que los buscadores,como Google o Yahoo,indizan las páginas web. El programa que emplean son los llamados "spider" que recorren las páginas de la red siguiendo los enlaces que presentan o se dirigen hacia ellas. De esta forma se va creando una base de datos propia de los metabuscadores. Esto significa que a la hora de buscar una página no se hace en toda la red sino en estas bases de datos.

Otra de las causas consiste en que las páginas dinámicas no son indizadas, por ello deben ser estáticas y tener enlaces hacia otras páginas o ser referida por alguna.

Otro problema es el formato en que el que está contenida la información. Los motores de búsqueda fueron creados para descargar, leer e indizar páginas HTML, por ello cual otro formato se vuelve invisible para ellos, como son: imágenes, audio, video, archivos PDF, postcript, ejecutables. Muchos buscadores son incapaces de recuperarlos aunque hoy en día Altavista y Google están ofreciendo algunas posibilidades en la búsqueda de estos formatos. Esto supone un auténtico problema, porque muchos informes y estudios que contienen información valiosa están publicados y disponibles en la web de forma pública y abierta; sin embargo, si no son indizados de forma adecuada, son inaccesibles a casi todo el mundo a casi todos los efectos prácticos.

Con respecto a las bases de datos, podemos acceder a sus páginas principales porque son páginas HTML convencionales, pero no podemos acceder al resto del sitio a través del motor de búsqueda; y el resto del sitio puede ser (en ocasiones) una enorme base de datos. La solución consistiría en generar interfases de consulta unificadas que enviaran una misma consulta a diferentes bases de datos desde una misma página web. El modelo en este caso son los multibuscadores o metabuscadores.

Algunos servidores excluyen a los motores de búsqueda de todos o de parte de sus carpetas y directorios mediante el uso de un protocolo de exclusión que respetan los programas rastreadores (spiders o crawlers).Tal protocolo consiste en un pequeño número de valores que puede adquirir el atributo content como parte de una etiqueta meta cuyo otro atributo, name, obtiene el valor "robots". Estas indicaciones se guardan en un simple archivo de texto de nombre robots.txt que se sitúa en el servidor de página web y que se supone que leen y respetan los rastreadores (robots).

arriba