Le principali tecniche di anonimizzazione e di pseudonimizzazione del dato

Le principali tecniche di anonimizzazione e di pseudonimizzazione del dato

Sommario: 1. Introduzione – 2. La tecnica di anonimizzazione per distorsione (o randomizzazione) e per generalizzazione – 3. La tecnica di pseudonimizzazione – 4. Conclusioni

 

1. Introduzione

Tra i molteplici aspetti caratterizzanti la disciplina comunitaria e nazionale in materia di protezione dei dati personali riveste peculiare importanza il tema delle misure di sicurezza e degli oneri posti in capo al Titolare o al Responsabile del relativo trattamento.

Sebbene il Regolamento UE n. 2016/679 (GDPR) abbia declinato tale responsabilità in termini dinamici e flessibili – da parametrarsi, dunque, di volta in volta, sulle modalità di trattamento e sui relativi rischi, finendo, quindi, per imporre necessariamente una costante attività di controllo in ordine all’efficienza delle misure di sicurezza da predisporre nel rispetto del principio di cd. accountability ex art. 24 del GDPR – le soluzioni tecniche dell’anonimizzazione e della pseudonimizzazione sono in grado di definire, seppur in modo non esaustivo, il contesto entro cui districarsi per una adeguata (e concreta) protezione dei dati personali.

Occorre, dunque, illustrare, qui di seguito, le principali (e maggiormente utilizzate) tecniche di anonimizzazione e di pseudonimizzazione cui è possibile ricorrere, onde così assicurare una tutela adeguata ai dati personali oggetto di trattamento.

 2. La tecnica di anonimizzazione per distorsione (o randomizzazione) e per generalizzazione

La tecnica dell’anonimizzazione consiste in un trattamento successivo dei dati personali[1] finalizzato ad ottenerne una de-identificazione irreversibile[2], a condizione, tuttavia, che i dati personali medesimi siano stati preliminarmente raccolti, trattati e conservati in conformità alla normativa vigente[3].

A tal proposito, il Gruppo di Lavoro Articolo 29 (ora, EDPB) ha precisato, in modo unanime, all’interno del proprio Parere n. 5 del 10.4.2014 (che, ad oggi, costituisce il punto di riferimento tecnico-giuridico sulla materia) che un efficace processo di anonimizzazione è idoneo a scongiurare impatti (negativi) su un soggetto interessato laddove sia in grado di impedire a chiunque impieghi un insieme di dati anonimizzati, in combinazione con i mezzi ragionevolmente utilizzabili ex Considerando n. 26 del GDPR[4], di isolare una persona all’interno di un gruppo, di collegare un dato anonimizzato a dati riferibili ad una persona in un gruppo ed, infine, di dedurre da un dato anonimizzato nuove informazioni riferibili ad una persona.

Come poc’anzi anticipato, la valutazione dell’efficacia del processo di anonimizzazione deve considerare anche i mezzi di cui un soggetto può razionalmente avvalersi[5], i quali, benché non possano essere predeterminati giacché soggetti ad una valutazione da effettuarsi caso per caso, possono comunque essere raggruppati, seppur in modo parzialmente esaustivo, nei seguenti fattori cd. chiave meritevoli di attenzione: a) natura dei dati personali originali e della relativa riferibilità a specifiche categorie di soggetti interessati, i quali, per tal caratteristica, possono essere più facilmente identificabili; b) applicazione, da parte del Titolare (o Responsabile) del trattamento che effettua l’anonimizzazione, di idonee misure di sicurezza o di vincoli contrattuali che possano limitare la visibilità dei dati anonimizzati (es. ai soli utilizzatori in possesso di specifiche credenziali di accesso e sulla base di riconosciute esigenze di conoscere il dato anonimizzato); c) il Titolare (o Responsabile) del trattamento dovrebbe concentrarsi sui mezzi concreti per invertire il processo di anonimizzazione, con specifico riguardo ai costi ed alle competenze necessarie a mettere in atto tali sistemi e la conseguente valutazione della loro gravità e probabilità.

Tanto premesso, si rileva che, da un punto di vista operativo, questo obiettivo può essere perseguito mediante l’applicazione, anche congiunta, dei due differenti approcci tecnici all’anonimizzazione (la prima si basa sulla distorsione o randomizzazione, mentre la seconda si fonda sulla generalizzazione), ciascuno di essi tesi ad eliminare i tre relativi, consueti e connessi rischi, consistenti nell’individuazione (la quale corrisponde alla possibilità di isolare alcuni o tutti i dati che identificano una persona all’interno di un insieme di dati), nella correlabilità (vale a dire la possibilità di collegare almeno due dati concernenti la medesima persona interessata o un gruppo di persone interessate: es. se un intruso riesce a determinare che due dati sono assegnati allo stesso gruppo di persone, ma non è in grado di identificare alcuna persona del gruppo, la tecnica fornisce una protezione contro l’individuazione, ma non contro la correlabilità) e, da ultimo, nella deduzione (ossia, la possibilità di desumere, con un altro grado di probabilità, il valore di un attributo dai valori di un insieme di altri attribuiti).

Ciò detto, giova ora occuparsi della distorsione o randomizzazione, la quale è una delle famiglie di tecniche di anonimizzazione che modifica, mediante l’inserimento di un elemento casuale, la veridicità dei dati al fine di eliminare, ove possibile, la forte correlazione che esiste tra il dato (puntuale) e la persona; infatti, se i dati sono sufficientemente incerti non possono più essere riferiti ad una persona specifica.

All’interno di essa, si registra, tra le varie, la (sotto) categoria della tecnica dell’aggiunta del rumore statistico che consiste nel modificare gli attributi contenuti nell’insieme di dati in modo tale da renderli meno accurati mantenendo, al contempo, la distribuzione generale[6]; nel caso in cui tale tecnica venga applicata in maniera efficace, eventuali terzi non riusciranno ad identificare una persona né, tantomeno, potranno riparare i dati o altrimenti desumere in che modo gli stessi siano stati modificati.

Oltre a ciò, si registra una ulteriore forma speciale di aggiunta del rumore statistico ossia la permutazione, la quale mescola i valori degli attributi all’interno di una tabella in modo tale che alcuni di essi risultino artificialmente collegati a diverse persone interessate; tale tecnica è, infatti, utile quando è importante mantenere l’esatta distribuzione di ciascun attributo all’interno dell’insieme di dati[7].

Dopo aver descritto, nel dettaglio, le differenti sfumature che compongono la tecnica di anonimizzazione per distorsione, occorre ora occuparsi del secondo e differente approccio in materia di anonimizzazione, costituito dalla generalizzazione la quale consiste nel rendere meno dettagliati ovvero diluire gli attributi delle persone interessate presenti all’interno di una tabella, modificando, a tal uopo, la rispettiva scala o ordine di grandezza (vale a dire, una regione anziché una città, un mese anziché una settimana).

Nello specifico, all’interno di essa vengono classificate, in modo particolare, le tecniche di aggregazione e di k-anonimato, volte ad impedire l’individuazione di persone interessate mediante il loro raggruppamento con almeno “k” altre persone: a tale scopo, i valori degli attributi sono sottoposti ad una generalizzazione tale da attribuire a ciascuna persona il medesimo valore (es. riducendo il grado di dettaglio di una località da città a stato, si include un numero maggiormente elevato di persone interessate; altri attributi numerici (es. retribuzione, peso, altezza) possono essere generalizzati mediante il ricorso ad intervalli di valori).

Infine, occorre precisare che, in linea di principio, la disposizione di un dato anonimizzato non scongiura, in modo totale, il rischio che esso sia arbitrariamente associato ad una persona; tuttavia, se il processo di anonimizzazione è correttamente applicato, la verosimiglianza di tale attribuzione è assimilabile a quella di un collegamento casuale effettuabile anche in assenza del dato anonimizzato, e se una decisione viene presa su quella persona in base a tale attribuzione, quest’ultima dovrà essere considerata alla stregua di un evento in alcun modo riconducibile alle caratteristiche del dato ottenuto tramite il processo di anonimizzazione.

In conclusione, per l’impiego di entrambe le descritte tecniche si pone un problema di utilità del dato all’esito del processo di anonimizzazione: nel caso della tecnica di distorsione, se il rumore prevale rispetto al dato utile, questo diventa, oltre che incerto (ossia, non riferibile ad alcuno), inaccurato ed inidoneo a qualsiasi tipo di analisi; viceversa, nel caso del ricorso alla tecnica di generalizzazione, se la scala è troppo ampia il dato rischia di perdere ogni valenza semantica, diventando inidoneo ad esprimere qualsiasi nesso di correlazione utile a descrivere un fenomeno.

3. La tecnica di pseudonimizzazione

Un’ulteriore e distinta opzione di tutela integrata nel trattamento è offerta dal processo di pseudonimizzazione del dato ex art. 4 n. 5 del GDPR[8], il quale consiste nel trattamento di dati personali effettuato in modo tale che gli stessi non possano essere attribuiti ad un interessato specifico senza l’utilizzo di informazioni aggiuntive, a condizione che esse siano conservate separatamente – ma pur sempre all’interno di un singolo Titolare del trattamento, senza comunicazione a terzi – ed a condizione che, infine, siano soggette a misure tecniche ed organizzative intese a garantire la non attribuzione a una persona fisica identificata o identificabile[9].

Questo accorgimento – teso ad offrire la confidenzialità del dato – può rendere maggiormente complessa l’identificazione, richiedendo mezzi (talvolta onerosi) per la riferibilità del dato alla persona, mantenendo tuttavia inalterato il quadro di certezze nella concatenazione dei passaggi necessari per l’attribuzione del dato pseudonimo alla persona.

In altri termini, l’associazione biunivoca tra il dato e la persona non è modificata, in alcun modo, dalla pseudonimizzazione e il dato pseudonimo, una volta impiegato in combinazione con tutti i mezzi necessari per effettuare la sostituzione di attributi a ritroso, è inequivocabilmente riferibile alla persona; infatti, all’esito di un processo di pseudonimizzazione, la persona potrebbe essere ancora identificata in maniera indiretta e, di conseguenza, la pseudonimizzazione, riducendo l’intellegibilità di un insieme di dati relativi comunque ad una persona interessata, rappresenta, se ben realizzata, unicamente una misura di sicurezza utile, ma non di certo un metodo di anonimizzazione[10].

Da ultimo, occorre osservare che l’applicabilità della pseudonimizzazione è inevitabilmente connessa al principio di finalità del trattamento: è necessario, infatti, che il Titolare del trattamento si assicuri che le modalità di pseudonimizzazione adottate non rendano particolarmente difficile o, addirittura, ostacolino oltre misura il raggiungimento delle finalità del trattamento medesimo.

4. Conclusioni

In chiusura, giova ricordare che le poc’anzi descritte tecniche di anonimizzazione non soddisfano, con certezza, i criteri di una effettiva ed irreversibile de-identificazione. Nonostante ciò, dato che alcuni dei relativi e sopra descritti rischi possono essere evitati, in tutto o in parte, applicando una determinata tecnica, occorre prestare particolare attenzione nella scelta cercando di individuare quella che maggiormente si dimostra ideona rispetto alla specifica situazione, onde così accrescere l’affidabilità dell’esito perseguito, in considerazione peraltro della complessa realtà del trattamento dei dati personali in cui per ogni questione che viene risolta se ne registrano di nuove, in un contesto tanto ricco di promesse quanto intriso di problematiche (e sfide) tecnico-giuridiche stimolanti.

 


[1] Considerata la finalità ulteriore perseguita dal processo di anonimizzazione, ossia di impedire la re-identificazione della persona mediante l’uso di ogni mezzo ragionevole, essa diventa non incompatibile con qualsiasi finalità iniziale originariamente e legittimamente perseguita dal Titolare del trattamento, prestandosi così a promuovere un riuso dei dati ampio e trasversale, com’è nella ratio del modello “big data”.
[2] Una volta che un insieme di dati viene reso effettivamente anonimo e le persone non sono più identificabili, le norme in materia di protezione dei dati personali non sono più applicabili (infatti, i dati anonimizzati sono compresi tra gli esempi specifici dei “dati non personali”, così come definito dal Considerando n. 9 del Regolamento UE n. 2018/1807); tuttavia, dagli studi di casi e dalle pubblicazioni di ricerca emerge, con chiarezza, che non è così semplice creare un insieme di dati effettivamente anonimo a partire da un ampio insieme di dati personali, mantenendo, al contempo, tutte le informazioni sottostanti necessarie per espletare l’attività richiesta.
[3] In merito, si rammenta che l’anonimizzazione viene definita anche all’interno di norme internazionali, quali l’ISO 29100:2011, come un processo nel quale le informazioni personali identificabili sono modificate irreversibilmente in modo tale che un soggetto interessato non possa più essere identificato direttamente o indirettamente. In aggiunta, si osserva che il fondamento logico della tecnica in questione dovrebbe essere, allo stato attuale della tecnologia, permanente come una cancellazione, vale a dire dovrebbe rendere impossibile il trattamento dei dati personali.
[4] Cfr. Considerando n. 26 del GDPR “…Per stabilire l’identificabilità di una persona è opportuno considerare tutti i mezzi, come l’individuazione, di cui il titolare del trattamento o un terzo può ragionevolmente avvalersi per identificare detta persona fisica direttamente o indirettamente. Per accertare la ragionevole probabilità di utilizzo dei mezzi per identificare la persona fisica si dovrebbe prendere in considerazione l’insieme dei fattori obiettivi, tra cui i costi e il tempo necessario per l’identificazione, tenendo conto sia delle tecnologie disponibili al momento del trattamento, sia degli sviluppi tecnologici…”.
[5] La considerazione sui mezzi non deve essere vista come una valutazione una tantum, ma come un’operazione che deve essere oggetto di un riesame periodico in ragione dei nuovi rischi connessi alla crescente disponibilità di mezzi (tecnici) a basso costo (es. cloud computing), all’accessibilità pubblica sempre maggiore di banche dati e, infine, alle competenze tecniche utilizzabili.
[6] Per esempio, supponiamo che il database che vogliamo anonimizzare contenga le altezze di un certo numero di individui, e che l’altezza vera del sig. Rossi, contenuta nel database, sia di 1,78 m; se il generatore di numeri pseudocasuali ci fornisce il valore – 0,08, l’altezza modificata del sig. Rossi risulterà 1,78 – 0,08 = 1,70 m. A tal proposito, si aggiunge, altresì, che un tipico (e comune) errore consiste nell’aggiungere un rumore statistico incoerente: infatti, se il rumore statistico non è semanticamente plausibile (vale a dire, è “fuori scala”), un intruso che acceda alla banca dati potrebbe filtrare il rumore statistico e, in alcuni casi, rigenerare le voci mancanti.
[7] Per esempio, supponiamo di avere a disposizione una tabella in cui sono indicati, per gli impiegati di un azienda, la data di nascita, il sesso, il codice di avviamento postale, il loro indirizzo di residenza ed il loro stipendio: i primi tre (data di nascita; sesso; cap) sono dei quasi-identificatori, mentre lo stipendio è un attributo privato molto personale. In forza dell’applicazione della permutazione, ad ogni persona viene attribuito lo stipendio di un’altra, e così via per tutte le altre persone (es. viene attribuito alla persona di sesso maschile nata il 28.2.1976 lo stipendio di euro 65 mila (che è, invece, lo stipendio della persona di sesso maschile nata il 21.1.1976 e con cap 53703). In forza di ciò, non è più possibile risalire dai quasi identificatori di ogni persona al vero valore dello stipendio, cioè dell’attributo che si vuole proteggere.
[8] Cfr. testo dell’art. 4 n. 5) del GDPR: “il trattamento dei dati personali in modo tale che i dati personali non possano più essere attribuiti a un interessato specifico senza l’utilizzo di informazioni aggiuntive, a condizione che tali informazioni aggiuntive siano conservate separatamente e soggette a misure tecniche ed organizzative intese a garantire che tali dati personali non siano attribuiti a una persona fisica identificata o identificabile”. In buona sostanza, la pseudonimizzazione è una metodologia di privacy by design che si pone l’obiettivo di “allontanare” il dato dalla persona, rendendo complessa (talora molto complessa) la riferibilità del dato alla persona stessa, senza tuttavia “rompere” il legame che esiste tra il dato e la persona, com’è invece nell’obiettivo delle tecniche di anonimizzazione.
[9] La sostituzione di un attributo di un dato con un altro fa sì che l’identità del soggetto venga mascherata (soggetto non identificato direttamente) ma che permanga comunque la possibilità di identificarlo (soggetto indirettamente identificabile). Questa circostanza si rivela particolarmente utile nel momento in cui sia necessario raccogliere dati diversi ma relativi allo stesso soggetto senza che di esso si conosca l’identità, potendo comunque risalire ad essa e garantire che l’insieme delle informazioni possedute siano a lui attribuibili.
[10] In passato, i ricercatori del MIT hanno analizzato un insieme di dati pseudonimizzato contenente 15 mesi di coordinate di mobilità spazio-temporale di 1,5 milioni di persone in un territorio compreso in un raggio di 100 km; essi hanno dimostrato che il 95% delle persone poteva essere identificato mediante 4 luoghi, e che bastavano 2 luoghi per identificare più del 50% delle persone interessate, con un margine molto ridotto di protezione della sfera privata, benché le identità delle persone fossero state pseudonimizzate sostituendo i loro attributi reali con altre etichette.

Salvis Juribus – Rivista di informazione giuridica
Direttore responsabile Avv. Giacomo Romano
Listed in ROAD, con patrocinio UNESCO
Copyrights © 2015 - ISSN 2464-9775
Ufficio Redazione: redazione@salvisjuribus.it
Ufficio Risorse Umane: recruitment@salvisjuribus.it
Ufficio Commerciale: info@salvisjuribus.it
***
Metti una stella e seguici anche su Google News

Articoli inerenti