Deep Web: ecco il web nascosto da oltre 500 miliardi di documenti

 

L'indice di ricerca di Google, uno dei più forniti online, conta oggi circa 20 miliardi di pagine e documenti scansionati per circa 8 miliardi di pagine web effettive

Scritto da Redazione il 18/06/14 | Pubblicata in Operatori | Archivio 2014

 

Deep Web: ecco il web nascosto da oltre 500 miliardi di documenti

L'indice di ricerca di Google, uno dei più forniti online, conta oggi circa 20 miliardi di pagine e documenti scansionati per circa 8 miliardi di pagine web effettive. Un numero davvero enorme ma che rappresenta una piccola porzione di quanto realmente esistente online, appena il 4%.

Secondo gli studi più autorevoli, l'intero ecostistema online vale circa 450-550 miliardi di contenuti di vario genere, dei quali gran parte nascosti nelle pieghe del web, accessibili solo con strumenti particolari o protette da password.

Infografica Deep Web

Attenzione: non confondiamo il deep web con il cosidetto dark web. Gran parte dei contenuti del deep web sono pagine e documenti perfettamente legali dove troviamo anche sistemi universitari, piattaforme sfruttate dai dissidenti o nei paesi ad elevata censura, subreti protette da password o sistemi non indicizzabili per vari motivi.

Una confusione frequentemente fatta da molti giornalisti che immaginano una rete oscura piena zeppa di attività illegali, dalla droga alla pedopornografia, dal contrabbando al terrorismo. Niente di tutto questo: come vedremo sucessivamente, gran parte di questa rete è composta da un web tradizionale ma con regole di accesso differente.

Tralasciando le tante leggende metropolitane, possiamo classificare il deep web secondo queste tipologie di contenuti:

Contenuti dinamici: sono pagine che si generano all'istante in base alla compilazione di uno o pià campi da parte degli utenti. Si tratta di una quota piuttosto grande del deep web, in quanto molte di queste pagine non esistono finchè non è l'utente a richiederle. Inoltre, per diversi motivi, tali pagine sono solitamente scarsamente indicizzate.

Contenuti non linkati: si tratta di pagine e siti web non connessi ad altri documenti. Il link è il principale strumento utilizzato dai web crawler per scansionare la rete. Il web crawler, una sorta di programma scout che ha il compito di esplorare la rete, non può accedere a documenti non direttamente linkati da almeno una pagina web.

Web privato: si tratta di sistemi protetti da password per varie ragioni.

Web contestuale: si tratta di pagine web che presentano un contenuto diverso a seconda dell'utente

Web con accesso limitato: si tratta di pagine con accesso difficoltoso da parte del motore di ricerca, perchè escluse dagli indici volontariamente o protette da sistemi antibot.

Documenti non Html: si tratta di foto e video non accessibili o individuabili da parte dei motori di ricerca oppure file di tipo bittorrent o simili.

All'interno di questi filoni, cosi come il normale web, si trovano anche contenuti illegali ma rappresentano probabilmente una piccola parte di tutto il sistema.

Immaginate un sito web di un qualunque quotidiano: oltre alla parte visibile ai lettori, esiste poi una parte di archivio storico che, per varie ragioni, potrebbe non essere indicizzato perchè finito in qualche piega del sito web non linkata. Esiste poi una parte di backoffice, più o meno grande, che consente ai giornalisti di lavorare. Alcuni quotidiani presentano poi aree protette da password, disponibili per esempio solo dagli abbonati. Altri subsistemi, poi, vengono utilizzati per le attività di statitica e monitoraggio.

Come vedete, anche un quotidiano online, incorpora nella sua natura una piccola parte di questo deep web.
 

Ultime notizie

 
 

Notizie per Categoria

 
 

Seguici

 

Promozioni Consigliate

 
Vuoi restare aggiornato ?