| Artículos | 01 ABR 2002

La Internet oscura

Tags: Histórico
Eva Martín y Juan F. Marcelo.
Una gran parte de Internet queda totalmente fuera de nuestro alcance. No hay manera de acceder a ella, y los medios para consultarla son casi desconocidos. Es lo que se conoce como la Internet oscura, invisible o profunda. Como no aparece en los buscadores generalistas, difícilmente podremos entrar en ella.

La parte de Internet a la que no tenemos acceso varía según las diversas fuentes. Uno de los estudios más recientes, apenas tiene un año, llevado a cabo por la compañía BrightPlanet, resulta descorazonador. Estima que la parte desconocida de la Red ocupa aproximadamente quinientas veces más que la parte visitada o visible. Unos 7.500 terabytes ocultos frente a tan sólo 19 accesibles. No les ha costado demasiado llegar a esta conclusión. El buscador Google afirma tener indexadas en torno a los 2.000 millones de páginas web. De hecho, es el buscador que permite bucear en un mayor número de páginas, con permiso de Northern Light. Si lo tomamos como límite superior, y consideramos que muchos expertos estiman que la Red ha superado hace tiempo el billón de páginas, lo cierto es que los buscadores se dejan fuera del carro una parte de Internet quinientas veces superior a la parte que permiten acceder. Esto puede sonar terrible, porque significa que gran parte del conocimiento humano está aparentemente fuera de nuestro alcance.
En parte el problema deriva del rapidísimo crecimiento de Internet. La Red crece con mayor rapidez que la que ponen aquellos que pretenden indexarla. Es uno de los más graves problemas que presentan los motores de búsqueda actuales, y algo de lo que poca gente es consciente. Este problema tiene muy difícil solución mientras se sigan utilizando los actuales robots de búsqueda. Los motores de búsqueda, o buscadores, utilizan pequeños programas automáticos llamados arañas (spiders) para escarbar en la red y descubrir páginas. Las arañas funcionan como un navegador de ritmo frenético que rastrea los distintos web para examinarlos rápidamente página a página. Es una operación intensiva que lleva tiempo y además ocupa parte de los recursos de la página web que está siendo examinada. Muchas arañas limitan con frecuencia el número de páginas a examinar en un determinado web. Sin embargo, estas páginas “olvidadas” no forman parte de la Internet oscura o invisible. Se trata de páginas visibles y clasificables, pero los robots de búsqueda toman la decisión de no tenerlas en cuenta. Los últimos doce meses han representado un cambio en la manera de estudiar estas páginas que son “olvidadas”. Los buscadores intentan por todos los medios ser lo más completos posible. También han podido descubrir que gran parte del material de la Red está constituido por spam y material duplicado. Muchos buscadores afirman que han excavado en 15.000 ó 20.000 millones de páginas, que una vez depuradas se pueden convertir en apenas 1.000 ó 1.500 millones de páginas útiles. Esta cifra no incluye, ni mucho menos, lo que conocemos como la Internet profunda o Internet invisible.

Páginas virtuales
Hay mucha información en la red situada en bases de datos. Muchos sitios web construyen páginas específicas para cada cliente como parte de un modelo personalizado de presentación de datos. Estas páginas virtuales personalizadas tienen una existencia efímera y desaparecen cuando el usuario finaliza la consulta. Un ejemplo de este tipo de página de existencia limitada es una búsqueda en la librería en línea Amazon. Si realizamos una búsqueda del último libro de Tom Clancy, o por su bibliografía completa, recibimos en nuestro monitor una elegante página donde aparece la lista completa de libros de dicho autor a la venta. Esta página sigue una estructura fija basada en un formulario que incluye elementos tales como la foto de la portada de cada libro, el precio, la editorial, y hasta, en ocasiones, un pequeño resumen, o la opinión de los lectores. Incluso alguna recomendación basada en nuestras compras anteriores. Esta página no está esperando en el servidor a que nosotros la consultemos. Se construye en el momento sobre una plantilla prefijada extrayendo los diversos elementos desde una base de datos. El problema con la información que está enterrada en las bases de datos en línea, es que exige una búsqueda individualizada y personalizada para cada base de datos y para cada elemento informativo. Por eso las arañas de búsqueda tradicionales tampoco pueden ver esa información. Por otro lado, realizar una búsqueda exhaustiva en la red sería demasiado caro, en un momento en que los buscadores intentan localizar nuevas fuentes de financiación.
Visto así, probablemente hay millones de bases de datos de todo tipo, universitarias, científicas, médicas, del espectáculos... conectadas a la Red pero que nunca aparecerán en un buscador. Aparte de bases de datos, en la Internet invisible hay páginas hacia las que no apunta ningún enlace, o contenidos que resultan difíciles de listar para un buscador generalista, como archivos PDF, de Macromedia Flash o gráficos. Gran parte de estos contenidos invisibles, bien por su propia naturaleza o por estar situados en bases de datos, son difíciles de buscar. Están diseñados para ser consultados desde una página web específica con herramientas específicas y personalizadas de búsqueda. El resultado es una página con contenidos dinámicos, en muchos casos fruto de la fiebre actual por la personalización de los contenidos. ¿Cómo acceder pues a ese océano de contenidos y conocimientos que se ocultan en la Internet invisible? La respuesta es bien sencilla. Debemos utilizar páginas web especiales y herramientas específicas de búsqueda.

Recursos ocultos
Uno de los primeros lugares que habría que visitar es la página de Gary Price. Price es uno de los bibliotecarios especializados en referencias de la Biblioteca Gelman de la Universidad George Washington. Esta página es una colección masiva de enlaces a recursos de la Internet oscura. La página se llama Direct Search. Para Price la búsqueda de datos es una especie de juego en el que la lógica está directamente implicada. Recientemente ha declarado que “para encontrar un número de teléfono, no acude uno a la enciclopedia, sino a la guía telefónica”. Para realizar búsquedas específicas, no hay que acudir a herramientas de búsqueda genérica. Lo ideal es emplear herramientas especializadas, esto es, buscadores especializados. Entre sus herramientas favoritas se encuentra EDGAR, que contiene mucha información económica y financiera de los mercados estadounidenses, pero difícil de buscar. Para ello se vale de 10k Wizard, un diseño de buscador original del especialista en data mining Martin Zacarias. En muy poco tiempo ha llegado a ser considerada una de las mejores herramientas de búsqueda financiera, y ahora además se está aplicando otros campos. Claro que la mayoría de los servicios son de pago.
Una de las entradas más eficaces para navegar por la Internet oscura es la web Invisibleweb de Intelliseek. Una de las grandes ventajas de este buscador es que proporciona información, y no simplemente enlaces a páginas de texto o de código HTML. En el fondo es una colección de bastante buena calidad, de bases de datos muy específicas, que contienen respuestas

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información