Logo LineeguidaLinee guida per siti ed applicazioni web della Regione Emilia-Romagna

linee guida per siti ed applicazioni web Logo - Regione Emilia-Romagna
Linee Guida» Per Tutti» Statistiche di accesso ai siti»

Glossario dei termini tecnici di riferimento

[I contenuti di questa pagina sono tratti dal sito Diodati.org e sono stati rielaborati in funzione delle linee adottate dalla Regione Emilia Romagna]

Caching

è l´operazione eseguita da un server (un proxy, ad esempio) o da un computer cliente, consistente nel memorizzare una copia locale di una risorsa recuperata da Internet, con lo scopo di servire all´utente che ne fa richiesta quella copia locale, in luogo del documento originale presente su Internet. L´attività di caching, se da un lato aumenta le prestazioni di una rete in termini di risparmio di tempo e banda di connessione ai siti internet, dall'altro può contribuire a falsare in notevole misura la veridicità dei dati di traffico rilevati dai log file di un server web. E' possibile però prevenire questa perdita di traffico, inserendo nel codice delle pagine del sito sottoposto a rilevazione statistica un comando che, definendo la scadenza immediata della validità di ogni pagina, costringa l'utente interessato a collegarsi effettivamente alla risorsa richiesta, non potendola più recuperare dalla cache. Questa soluzione ha però degli svantaggi: in primo luogo una maggiore occupazione di banda, in secondo luogo un´attesa più lunga per il caricamento delle pagine (rispetto all´attesa per quelle recuperate direttamente dalla memoria del proxy) da parte dell´utente, il quale potrebbe essere negativamente influenzato - per quanto riguarda future visite - da un simile inconveniente.

Cookie

Letteralmente "biscotto". Si tratta di un file di testo che viene generato dal browser dell´utente in seguito ad un messaggio inviato dal server web in risposta alla richiesta di collegamento ricevuta. Il cookie viene memorizzato sul computer cliente. Esso contiene delle informazioni che identificano univocamente quell´utente rispetto al sito Internet che lo ha generato. Ad ogni successiva connessione, il server web richiederà al browser il cookie precedentemente memorizzato. Se questo viene trovato, il server potrà utilizzare le informazioni in esso contenute per vari scopi:

Tutte le rilevazioni statistiche di traffico-web originate dall´uso di cookie sono soggette principalmente a due variabili: a) che l´utente collegato abbia abilitato nel proprio browser il supporto per i cookie; b) che effettui i successivi collegamenti per mezzo dello stesso browser.

DHCP, Dynamic Host Configuration Protocol

è un protocollo di comunicazione che, installato su un server di rete, consente di governare automaticamente e centralmente l´assegnazione degli indirizzi IP a ciascuna macchina connessa ad Internet all´interno della rete. DHCP è in grado sia di assegnare IP statici, cioè indirizzi sempre uguali nel tempo, sia IP dinamici, cioè indirizzi con scadenza a breve termine (generalmente la durata di una sessione di connessione ad Internet). Il fatto che moltissimi utenti si colleghino alla Rete per mezzo di IP dinamici ricevuti automaticamente via server DHCP è un´ulteriore fonte di incertezza per le rilevazioni statistiche del traffico generato da un sito. Infatti l´indirizzo IP soggetto ad assegnazione dinamica è un´informazione insufficiente per identificare nel tempo in modo non ambiguo un singolo visitatore del sito (lo stesso IP potrebbe essere assegnato in successione ad x utenti di una stessa rete).

DNS, domain name system

è il sistema che traduce i nomi di dominio in indirizzi IP. Un nome di dominio è un nome letterale, associato in modo univoco ad un indirizzo IP numerico, per identificare una risorsa su Internet. Ogni volta che un utente invia tramite il proprio browser una richiesta di collegamento specificando un nome di dominio (ad es.: www.regione.emilia-romagna.it), il server DNS competente intercetta la richiesta e trasforma la stringa letterale nel corrispondente indirizzo IP. Se quest´ultimo non è contenuto nella propria tabella di corrispondenze, la richiesta viene inoltrata ad un altro server DNS, e così via finché il nome letterale non viene risolto nella stringa numerica corrispondente. A questo punto, tutti i DNS interpellati si aggiornano automaticamente, inserendo nei rispettivi database la nuova corrispondenza trovata. Questo sistema di chiamate e aggiornamenti incrociati tra una serie di server DNS decentrati è più veloce, pratico e sicuro di un sistema basato su un unico server DNS centralizzato.

IP address (indirizzo IP)

La sigla IP sta per Internet Protocol. è un numero di 32 bit che rappresenta univocamente ogni mittente o ricevente di pacchetti di dati attraverso Internet. Nella sua forma più comune l´IP address è espresso come una serie di quattro numeri, separati tra loro da un punto. Ognuno dei quattro numeri può variare (con alcune limitazioni) tra 0 e 255. Qualsiasi comunicazione che avviene su reti appartenenti ad Internet deve comprendere necessariamente l´indirizzo IP del mittente e quello del destinatario, allo scopo di poter essere istradata correttamente.

NAT, Network Address Translation

Letteralmente: traslazione dell´indirizzo di rete. è un meccanismo che consente, tramite appositi sistemi hardware e software, di far corrispondere una serie di indirizzi IP usati solo in rete locale ad una serie, generalmente meno numerosa, di indirizzi IP pubblici. Si ottengono così molteplici vantaggi:

L´uso di questa traslazione degli indirizzi IP da parte di molte reti rappresenta una perdita d´informazioni per la rilevazione statistica degli accessi ad un sito. Se, infatti, non si dispone della tabella di traduzione usata da un server NAT, non è possibile sapere se le richieste giunte da un certo IP fanno capo ad una o più macchine, né tantomeno a quali.

Proxy server

è un server che agisce da filtro tra le richieste di connessione a siti Internet, provenienti in genere dall´interno della rete LAN o WAN a cui il proxy appartiene, ed i siti stessi. La richiesta di accedere ad una risorsa su Internet, proveniente da un computer appartenente ad una LAN o ad una WAN, viene intercettata dal proxy di rete in modo del tutto trasparente per l´utente. Se la pagina richiesta non è presente nella cache (= memoria tampone) del proxy, la richiesta viene inoltrata al sito che ospita la risorsa, così da recuperare la pagina ed inviarla all´utente. Se, viceversa, la pagina è già presente nella cache del proxy, questa viene inoltrata direttamente all´utente, senza che occorra inviare alcuna richiesta al sito Internet che ospita la risorsa. L´uso di un proxy server fornisce essenzialmente due vantaggi:

Come si può comprendere, il fatto che molti accessi ad un sito provengano da proxy di reti più o meno ampie può falsare grandemente la valutazione del numero di pagine effettivamente viste (page views), numero che potrebbe essere ben superiore a quello rilevato tramite l´analisi dei file di log. Si pensi ad esempio a quanti utenti potrebbero essere serviti da un´unica pagina prelevata da un proxy di America On Line e conservata nella sua cache.

Redirect (reindirizzamento)

è un meccanismo per mezzo del quale un utente che ha richiesto di collegarsi ad un certo indirizzo Internet viene reindirizzato automaticamente ad un indirizzo differente. Capita spesso, così, che una medesima pagina web possa essere raggiunta, in virtù di appositi reindirizzamenti, da un certo numero di indirizzi diversi. Ai fini della rilevazione del numero effettivo di page view ottenuto in un certo periodo, occorre perciò tenere conto di tutti i redirect effettuati dal web server nel periodo considerato.

Reverse DNS lookup

Mentre la trasformazione da un indirizzo letterale al corrispondente indirizzo numerico è detta forward DNS lookup, l´operazione contraria - cioè il risalire da un indirizzo IP noto al corrispondente nome di dominio - è detta reverse DNS lookup. Appositi software sono in grado, interrogando dei server DNS, di ottenere il nome di dominio a partire dall´IP numerico. Un sistema di rilevazione dei dati di traffico ha più valore se è in grado di effettuare il reverse DNS lookup, dal momento che per l´interprete umano la lettura di una serie di IP numerici dice poco o nulla, mentre molto più utile risulta la corrispondente serie di indirizzi letterali: solo questa è in grado, infatti, di informare effettivamente gli amministratori di un sito sulla provenienza degli accessi registrati.

Spider, o crawler o web bot

Si tratta di programmi che automaticamente effettuano, in base a determinati criteri, una serie di richieste di file ad un server web, allo scopo di indicizzare i contenuti di quel sito per conto di un motore di ricerca. Le richieste provenienti da spider possono incidere fortemente sulla rilevazione del traffico generato da un sito. Per tale motivo, gli accessi prodotti da spider vengono in genere evidenziati dai sistemi di misurazione statistica, in modo che se ne possa tener conto e non risultino così falsati i valori relativi alle visite ricevute da parte di utenti umani, oppure possono essere filtrati in modo da non venire conteggiati i loro accessi. 

Session timeout

è la durata massima predefinita di una visita ad un sito da parte di un utente unico. Non esiste uno standard per questa durata e neppure un consistente accordo in proposito. La lunghezza di una sessione può variare da un minimo di 10-15 minuti ad un massimo di un´ora. Nella maggior parte dei casi essa è impostata su 20 o 30 minuti. Se dura 20 minuti, ciò significa che ad un utente unico - riconosciuto come tale perché ha il medesimo indirizzo IP - vengono attribuite due visite al sito, nel caso in cui una sua richiesta di pagina giunga oltre 20 minuti dopo la precedente richiesta registrata. Viceversa, se l´intervallo trascorso tra questi due eventi è inferiore a 20 minuti, allora viene conteggiata per quell´utente un´unica visita. Come è facile comprendere, la durata di sessione è un parametro del tutto arbitrario, che nulla ha a che vedere con l´effettivo comportamento degli utenti collegati ad un sito e che può tuttavia influenzare le valutazioni del settore commerciale di un´azienda, circa la misura della fedeltà degli utenti ai siti presi in considerazione. Poniamo ad esempio che un sito, avendo un timeout di sessione impostato su 20 minuti, registri molte visite di utenti unici nell´arco di un mese di rilevazione: se ne potrebbe ricavare l´idea che dietro quelle visite ripetute si celino utenti fidelizzati. Basterebbe però probabilmente aumentare di soli dieci minuti il timeout di sessione, per scoprire che il numero di visite al sito da parte di utenti unici è nettamente diminuito! Ancora una volta è la conoscenza del significato e della reale portata dei numeri offerti dalle statistiche di traffico che aiuta a non commettere pericolosi errori di valutazione.

URL, Uniform Resource Locator

è l´indirizzo, unico e inequivocabile, di una risorsa su Internet. Qualsiasi documento - sia esso un file immagine, un file di testo, una risorsa multimediale, ecc. - è localizzabile precisamente per mezzo della URL. Questa comprende: