Dati aperti: movente, opportunità e metodo

Da dati.parlamento.

Obiettivi tradizionali…

I dati aperti come opportunità

Viviamo oggi nella società dell’informazione, in cui la conoscenza e la comunicazione sono risorse e fattori strategici. Assumendo una dimensione economica, la produzione intellettuale predomina sulla produzione materiale, la diffusione del web potenzia la diffusione della conoscenza e ne abilita la globalizzazione. Chiunque è potenziale produttore di informazione (e quindi di valore), tanto in ambito privato quanto in ambito pubblico. D’altro canto, chiunque, nella logica egualitaria e cooperativa dell’”open”, deve poter essere messo in condizione di usufruirne. Non basta pertanto mettere a disposizione del web le informazioni attraverso la loro pubblicazione: occorre che queste informazioni siano rese disponibili come dati aperti, perché costituiscano una opportunità per chi può trarne utilità dall’accesso e dal riuso. Questo è il principio sotteso agli Open Data.

In questo scenario diventa cruciale la posizione delle Pubbliche Amministrazioni (PA) e delle istituzioni, le quali - tutte - accumulano dati. Li accumulano per poter funzionare e per dimostrare di aver funzionato correttamente. Negli ultimi decenni, tuttavia, qualcosa è cambiato nella natura di questa prodigiosa mole di informazione: si tratta, sempre più spesso, di informazioni in formato digitale (e, come vedremo, questa peculiare caratteristica determina conseguenze dirompenti, perché rende i dati più facilmente distribuibili e riutilizzabili); si tratta – talvolta – di informazioni pubblicate sulle pagine dei siti web degli stessi enti.

A volte tali informazioni sono generate direttamente come risultato primario dell'attività di un’amministrazione: pensiamo ai dati cartografici, al catasto, alle informazioni meteorologiche, o all'archivio delle emittenti radio-televisive pubbliche. In altri casi, invece, i dati sono acquisiti, organizzati e impiegati dall'amministrazione nell'adempimento dei propri obiettivi istituzionali, ma rappresentano un mezzo rispetto all'output principale – prodotto o servizio che sia. Questo è il caso, per esempio, della base di dati dei tempi medi di percorrenza dei mezzi pubblici in una grande città o della mappa geografica dei codici di avviamento postale.

Le potenzialità dell'Informazione del Settore Pubblico

Tali dati – espliciti e visibili nella prima tipologia di casi sopra delineata (catasto, meteo), e perlopiù invisibili al pubblico nella seconda (perché ad uso interno) – sono nel loro complesso denominati “informazioni del settore pubblico” o, in inglese, “public sector information” (da cui l'acronimo “PSI”). Si noti che la PSI viene generata o raccolta dalle pubbliche amministrazioni in senso stretto, nello svolgimento dei loro compiti istituzionali, ma anche da molti enti pubblici o finanziati da risorse pubbliche. Considerando che, in Italia, le entrate dello Stato sfiorano il 50% del PIL, è ragionevole stimare che anche la proporzione di informazione pubblica rispetto al totale dell'informazione rappresenti una percentuale considerevole.

Bus Trento

L’app Bus Trento è stata realizzata grazie ai dati rilasciati dalla Provincia Autonoma di Trento e da Trentino Trasporti, l’azienda dei trasporti locali.

Il processo di liberazione del dataset non è stato semplice in quanto il dato era detenuto in comproprietà dai due enti. Una volta risolta la problematica giuridica tramite un accordo, il dato ha seguito la normale procedura interna per il controllo giuridico e tecnico. Sistemati questi accorgimenti ed applicata la licenza, il dato è stato pubblicato e metadatato nel Catalogo dei dati aperti del Trentino. Da qui, il riutilizzatore del dato ha scaricato e rimodellato il dataset per renderlo più utile ai suoi fini. Il dato, espresso in formato CSV secondo lo standard de facto GTFS, definisce le linee degli autobus e delle funivie locali, gli orari, e i calendari.

Alla mera visualizzazione del dato sono stati aggiunti altri servizi come il monitoraggio del bus preferito, gli hotel, i ristoranti nelle vicinanze e i parcheggi: i dati relativi a questi servizi sono ugualmente disponibili nel Catalogo dei dati aperti del Trentino.

Tutti questi dati, detenuti dal settore pubblico, hanno anche un valore particolare, che normalmente manca ai dati raccolti dal settore privato: si tratta di dati raccolti nell’arco di molti anni e di regola sottoposti a verifiche (ad esempio nel corso dell’attività che essi supportano), ma soprattutto si tratta di dati di interesse generale per la collettività e di dati tendenzialmente “neutrali” o comunque relativamente affidabili, in quanto meno soggetti a distorsioni generate da interessi particolari o commerciali diretti.

Spesso, la singola informazione presenta un'utilità limitata, ma la raccolta organizzata e la combinazione di più informazioni provenienti da fonti differenti è in grado di generare un valore aggiunto notevole. Così, le informazioni geografiche sono alla base di cartine e mappe, le quali possono servire a fornire servizi online; mentre i dati catastali possono servire a operatori immobiliari e istituti di credito per fare incontrare la domanda e l’offerta di alloggi e per proporre soluzioni di finanziamento. I metadati relativi a musei e archivi locali, così come le immagini delle opere in essi disponibili, possono stimolare il turismo. O, ancora, i dati meteorologici possono essere utilizzati sia per servizi a valore aggiunto in tempo reale (ad esempio messaggi inviati sul cellulare dell’abbonato con previsioni selettive del tempo), sia per arricchire il dibattito pubblico sul cambiamento climatico.

Come si può immaginare, la PSI è varia quanto e più delle stesse pubbliche amministrazioni che la producono e detengono: questi dati vanno dalle immatricolazioni delle automobili agli orari delle farmacie, dai piani regolatori alle mappe della protezione civile, dalle rilevazioni meteo dell'Aeronautica Militare agli orari di passaggio in fermata dei mezzi pubblici. Ovviamente, esiste una parte di dati pubblici che devono rimanere riservati o addirittura segreti (per ragioni di sicurezza nazionale o di privacy, ad esempio); non pochi dati, però, sono già teoricamente accessibili a chiunque e moltissimi altri potrebbero esserlo. Aprire effettivamente questi dati e chiarire che essi sono liberamente riutilizzabili da chiunque è l'obiettivo dell'approccio (e del “movimento”) Open (Government) Data.

Dati aperti: una definizione

Con il termine dati aperti (Open Data) si fa riferimento ad un approccio o "movimento" volto a promuovere l'accessibilità e il libero riutilizzo dei dati; in particolare, di quei dati che sono creati e detenuti dagli enti pubblici e dalla pubblica amministrazione nel suo complesso.

Riutilizzo

Chi si occupa di informazione del settore pubblico parla spesso di “riutilizzo” (o “riuso”), anziché di “utilizzo” (o “uso”). La scelta del termine riutilizzo sottolinea il fatto che stiamo parlando di usi diversi e ulteriori, rispetto all'uso istituzionale, per cui il dato è stato raccolto o generato dalla PA.

Il riutilizzo va anche chiaramente distinto dal mero accesso. Ciò che interessa non è solo la possibilità di accedere ai dati; approcci tipo “guardare, ma non toccare”, infatti, non facilitano la vita degli sviluppatori e la creazione di servizi utili ai cittadini. Poter vedere i dati è solo il primo passo per poterli acquisire e poi finalmente riutilizzare, cioè modificare, mescolare e/o trasformare per renderli più utili ed interessanti (per alcuni specifici scopi, senza togliere ad altri la possibilità di fare altrettanto, in modo diverso, per i loro differenti obiettivi).

La Direttiva 2013/37/UE definisce il riutilizzo come l'uso di documenti in possesso di enti pubblici da parte di persone fisiche o giuridiche a fini commerciali o non commerciali diversi dallo scopo iniziale nell'ambito dei compiti di servizio pubblico per i quali i documenti sono stati prodotti. Lo scambio di documenti tra enti pubblici esclusivamente in adempimento dei loro compiti di servizio pubblico non costituisce riutilizzo.


L'Open Definition

La definizione standard oggi generalmente riconosciuta, che si è largamente affermata presso le communities promotrici del modello Open Data, è quella contenuta nell'Open Definition, aggiornata a Settembre 2014, secondo la quale sono aperti quei dati "a cui è liberamente possibile accedere, e che possono essere liberamente utilizzati, modificati e ridistribuiti da chiunque, per qualunque scopo", rispettando, al più, requisiti che preservino l'origine del dato e la sua apertura. La precedente versione della Open Definition faceva riferimento, al più, al requisito di attribuzione e condivisione allo stesso modo".

Da questa definizione discende che i dati sono aperti solo se si applica una delle seguenti condizioni: sono automaticamente liberi da qualsiasi tipo di diritto di proprietà intellettuale (ovvero sono in "pubblico dominio" per legge); vengono messi a disposizione sotto licenze/liberatorie, che escludono qualsiasi limitazione (ovvero vengono posti contrattualmente in una situazione equivalente al pubblico dominio); vengono licenziati a condizioni molto permissive, che richiedano solo l'attribuzione/citazione della fonte; eventualmente, vengono sottoposti a clausole c.d. share-alike (condividi-allo-stesso-modo). Per ulteriori approfondimenti circa il licenziamento dei dati, rimandiamo al paragrafo Licenziare i dati.

La Direttiva 2013/37/UE definisce il riutilizzo come l'uso di documenti in possesso di enti pubblici da parte di persone fisiche o giuridiche a fini commerciali o non commerciali diversi dallo scopo iniziale nell'ambito dei compiti di servizio pubblico per i quali i documenti sono stati prodotti. Lo scambio di documenti tra enti pubblici esclusivamente in adempimento dei loro compiti di servizio pubblico non costituisce riutilizzo.

Dati aperti secondo la legge italiana

In Italia, alla luce della definizione di “dati di tipo aperto” fornita dall’art. 68 del Codice dell’Amministrazione Digitale (CAD), sono oggi definiti come tali i dati accessibili e disponibili gratuitamente (o comunque non oltre i costi marginali) attraverso le tecnologie dell'informazione e della comunicazione in formati aperti, ivi comprese le reti telematiche pubbliche e private, quando sussiste una licenza che ne permetta l'utilizzo da parte di chiunque, anche per finalità commerciali. L’art. 7 del c.d. Decreto Trasparenza (richiamando a sua volta l’art. 68 del CAD) stabilisce che i dati oggetto di pubblicazione obbligatoria ai sensi della normativa vigente siano riutilizzabili senza ulteriori restrizioni diverse dall'obbligo di citare la fonte e di rispettarne l'integrità. Maggiori dettagli sulle normative citate sono reperibili all'interno del paragrafo Contesto normativo.

Dal momento che, come accennato sopra, l'effettivo valore degli Open Data si sprigiona nel momento in cui dati di diversa provenienza - e quindi messi a disposizione da soggetti differenti - vengono combinati tra loro, affinché sia possibile effettuare tale combinazione è necessario che i dati presentino un attributo-chiave che si esprime convenzionalmente mediante il termine di interoperabilità: con esso si esprime la capacità di diversi sistemi e organizzazioni di lavorare insieme (appunto, Inter-Operare) e che nel contesto di cui ci stiamo occupando può riassumersi nella capacità di combinare una base di dati con una o più basi di dati differenti.

Interoperabilità

Tipicamente, l'interoperabilità può declinarsi secondo diverse direttrici, ognuna delle quali tese a rimuovere gli ostacoli che rendono piena ed efficace l’interazione e la fruizione delle differenti sorgenti informative. In questo contesto sono sicuramente di rilievo gli ostacoli di tipo tecnico (interoperabilità tecnica) e di tipo giuridico (interoperabilità giuridica) che determinano difficoltà pratiche nel maneggiare i dati mediante le tecnologie dell'informazione e della comunicazione (ICT). Non meno importante rispetto a queste due forme di ostacolo va altresì menzionata quella difficoltà che le organizzazioni affrontano quando producono dati che non hanno un chiaro e ben definito significato condiviso. Si parla in questo caso di interoperabilità semantica intendendo con essa l’insieme delle misure adottate affinché sia adeguatamente esplicitato e rappresentato il significato dei dati posseduti. L'interoperabilità tecnica riguarda solamente il formato ottimale con cui i dati aperti andrebbero forniti mentre l'interoperabilità giuridica riguarda invece quelle modalità attraverso le quali gestire i diritti eventualmente presenti su una banca dati (in primis, adottando una licenza di diritto d'autore), in modo che qualsiasi riutilizzatore possa lecitamente disporne, che non risultino giuridicamente incompatibili con analoghe o affini modalità scelte per altre banche dati da soggetti diversi. Torneremo sui due concetti in seguito, all'interno dei paragrafi Formati e formalismi e Licenziare i dati.

L'attributo dell'interoperabiltà è stato espressamente enucleato - nella sua duplice veste tecnico-giuridica - all'interno dell'art. 68 del CAD, laddove stabilisce le caratteristiche essenziali dei dati aperti e rimarca gli speculari requisiti di apertura tecnica e semantica (dati forniti in formati aperti e machine-readable) e di apertura giuridica (dati forniti secondo i termini di una licenza che ne consenta l'utilizzo da parte di chiunque anche per finalità commerciali).

Come si sarà probabilmente già intuito, il punto chiave consite nel fatto che l'Open Data riguarda la messa a disposizione dei dati, perché altri possano riusarli. Open Data, quindi, non significa spingere la pubblica amministrazione a sviluppare nuovi servizi a partire dai dati. Il servizio che la pubblica amministrazione deve sviluppare è “semplicemente” un modo pratico ed efficace per pubblicare i dati in proprio possesso, preceduto da un razionale processo per scegliere quali dati possano essere messi a disposizione di tutti e corredato da una chiara affermazione relativa al fatto che il riutilizzo dei dati è libero. Il raggiungimento di questi scopi richiede una buona capacità di modellazione del proprio dominio informativo che consenta di esplicitare al meglio la semantica dei dati in esso presenti. I vocabolari comuni, le ontologie condivise e costruite utilizzando metodologie definite nonché il ricorso a schemi affermati aiutano ad ottenere quel livello di qualità del dato tale da produrre una loro efficace condivisione che consenta di realizzare servizi di qualità.

I molteplici dataset prodotti da differenti organizzazioni, la presenza di ontologie che ne descrive adeguatamente la semantica insieme con l’assunzione di mondo aperto (OWA – Open World Assumption) che scaturisce dalla integrazione di tutte queste sorgenti informative permette di realizzare dei servizi che sono di ausilio alla scoperta di conoscenza non esplicitamente affermata all’interno dei singoli dataset.

L'esperienza mostra che i cittadini riceveranno nuovi servizi, sia gratuiti che a pagamento; ma saranno i singoli sviluppatori, gli imprenditori, le aziende e la società civile a produrre questi servizi. E il processo di apertura dei dati avrà successo se la pubblica amministrazione potrà concentrarsi a far meglio le attività essenziali che è suo compito istituzionale svolgere.

La PSI può essere riutilizzata in molte prospettive:

  1. nell’ambito di mercati già esistenti o nuovi, per creare servizi a valore aggiunto, con benefici di tipo economico. Tornando all'esempio dei dati meteorologici pubblici, non si pensi solo alle classiche previsioni del tempo, ma anche a servizi specializzati, ad esempio per l'agricoltura o il turismo invernale. In alcuni casi, gli introiti fiscali indiretti generati da tali attività possono essere pari o superiori a quelli che la PA otterrebbe facendo direttamente pagare per l’utilizzo dei dati;
  2. per contribuire ad un miglioramento delle scelte pubbliche, in un quadro di Open Government e trasparenza. Ad esempio, il semplice fatto di mettere a disposizione e permettere la rielaborazione di dati quali il numero, il salario o i giorni di assenza degli amministratori e dei dipendenti pubblici può stimolare l'efficienza della PA. In altre parole, condividendo informazioni su sé stessa, la PA è spinta a migliorarsi;
  3. per consentire forme più sofisticate di partecipazione dei cittadini alle scelte pubbliche (e-democracy). Ad esempio, la combinazione di dati sanitari e ambientali può permettere a gruppi di persone di valutare l'impatto di diverse scelte politiche e può avere ricadute sulla partecipazione dei cittadini alla vita pubblica. Inoltre, la partecipazione della popolazione può anche passare per la creazione di servizi, simili a quelli che potrebbe offrire lo stato o il mercato, ma su base volontaria e/o associativa.

Quanto valgono i dati aperti?

Il valore degli open data

A livello macroeconomico, gli studi internazionali compiuti in questo campo concordano nell'affermare che il valore indotto da dati pubblici riutilizzabili, per un paese simile all'Italia, sia nell'ordine delle centinaia di milioni di Euro. Di contro, il costo dell'apertura dei dati è minore per diversi ordini di grandezza. Si può stimare il costo di realizzare un progetto e un portale per la condivisione di dati aperti tra qualche decina ad alcune centinaia di migliaia di Euro (con 200-300.000 Euro si può far partire un rispettabile progetto di livello nazionale; sul finire del 2011 la Commissione Europea ha aperto un bando per realizzare il suo portare open data a un costo massimo di 800.000 Euro). Esistono poi communities online, enti non governativi e centri di ricerca ben disposti ad aiutare chi voglia aprire i propri dati; inoltre, avendo molte amministrazioni locali già intrapreso il processo di apertura dei propri dati possono mettere a disposizione le loro soluzioni per il riutilizzo. Con determinazione e passione, è addirittura possibile avviare un progetto open data a costo praticamente nullo (in termini di specifici stanziamenti di budget e abbastanza contenuto anche in termini di ore/uomo).

Vi sono buone ragioni per non lasciarsi sfuggire le opportunità offerte dal riutilizzo dell’informazione del settore pubblico (non ultima è la circostanza che i cittadini hanno già pagato, attraverso il prelievo fiscale, per ottenere quello stesso servizio mediante il quale si seleziona, raccoglie o genera il dato). Una delle ragioni più significative per rendere disponibili e liberamente riutilizzabili le informazioni detenute dalle PA risiede nella fantasia dei cittadini e degli imprenditori. Le PA hanno infatti la disponibilità di enormi quantità di dati, ma hanno anche molti compiti e risorse limitate e spesso gli incentivi e gli strumenti per la creazione o il miglioramento di servizi risultanti dall'elaborazione o aggregazione dei dati disponibili scarseggiano. Per questo, è fondamentale permettere ad altri di riusare l’informazione del settore pubblico.

In quest'ottica, l'informazione del settore pubblico dovrebbe essere vista come una piattaforma, le cui applicazioni sono ancora quasi tutte da scrivere. L'analogia con Internet come piattaforma di innovazione è calzante. Internet, di per sé, è “solo” una piattaforma, ma ha reso possibile la posta elettronica, il Web e Skype, lo streaming video e centinaia di altre applicazioni, declinate in migliaia di modi differenti. In modo simile, l’iPhone di Apple ha rapidamente catalizzato le capacità creative di migliaia di sviluppatori, i quali lo hanno dotato di innumerevoli applicazioni, molte più di quante Apple avrebbe potuto sviluppare senza aprire (almeno in parte) la propria piattaforma alla creatività del resto del mondo.

...e nuove opportunità

L'apertura dei dati pubblici ha elementi intrinseci di valore, che prescindono dal contesto tecnologico. Tuttavia, le potenzialità offerte dalla tecnologia tendono a moltiplicare questo valore, riducendo i costi tecnici dell'apertura e aumentando le possibilità di diffusione e riutilizzo dei dati.

I dati aperti come piattaforma di innovazione tecnologica e sociale

Open Government Data

Se l'e-government si propone di generare miglioramenti per i cittadini tramite l'introduzione di strumenti digitali, spesso informatizzando i tradizionali schemi di interazione tra amministrazioni e cittadini (ed il c.d. government 2.0 innova questo schema sottolineando il ruolo centrale dell'interazione coi cittadini/utenti e degli strumenti di social networking), si può dire che l'open government riguarda meno la tecnologia e molto di più il rapporto tra governanti e governati, amministratori e cittadini. In particolare, anziché focalizzarsi sull'offerta di specifici servizi, si mettono i cittadini in grado di capire e partecipare, dotandosi essi stessi di nuovi strumenti. Segnatamente al tema open (government) data (che non coincide con l'open government, ma che ne è un aspetto caratterizzante), la rivoluzione copernicana consiste nel fornire al cittadino non un nuovo mezzo tecnologico per accedere ai servizi pubblici, ma i dati necessari a supportare, affiancare o criticare l'operato dell'amministrazione pubblica stessa. Al limite anche fornendo un servizio concorrente, se – con gli stessi dati – qualcuno pensa di poter far meglio della pubblica amministrazione (a scanso di equivoci, in un caso del genere, non è detto che la pubblica amministrazione debba far venir meno il proprio servizio — sono molti i campi in cui la coesistenza di un servizio pubblico e di più servizi privati, alcuni dei quali imprenditoriali e altri non-profit, risulta socialmente desiderabile, poiché ciascuno ha i propri pregi e i propri difetti, spesso mitigati dalla presenza di alternative. Ad esempio, un'azienda municipalizzata vorrà mettere a disposizione sul proprio sito un servizio accessibile via Web per calcolare percorsi urbani coi mezzi pubblici, ma sarà opportuno facilitare il lavoro di chi voglia realizzare un'App per l'iPhone o per telefoni Android che faccia la stessa cosa, in modo ottimizzato per queste piattaforme software). La PSI diventa così una piattaforma informativa, fertile rispetto a qualsiasi tipo di innovazioni. Uno dei principali vantaggi di questo modello è che più approcci alternativi diventano possibili, perché i cittadini (e le loro associazioni) e gli imprenditori possono sperimentare. Ed è più difficile sbagliare strada e, ad esempio, investire risorse pubbliche in un servizio, che potrebbe essere molto utile, ma che nessuno è ancora pronto ad utilizzare.

Alcuni esempi concreti

Esempi di riutilizzo dei dati

I dati detenuti dalle amministrazioni possono, molto semplicemente, essere utili in modo diretto ai cittadini, se qualcuno si fa carico di renderli più accessibili e user friendly: ad esempio, una donna danese ha realizzato http://findtoilet.dk, un servizio per individuare bagni pubblici, prendendo spunto dalle necessità di suoi conoscenti con problemi di incontinenza.

Un campo complesso è quello della trasparenza. Un possibile scopo della trasparenza è il controllo dell'operato della PA. Maggiore trasparenza, però, può anche voler dire maggior coinvolgimento e maggiore partecipazione: sapere dove finiscono i soldi delle mie tasse, per esempio, può renderle il pagarle più accettabile. In questo senso, è interessante il progetto britannico http://wheredoesmymoneygo.org (“dove finiscono i miei soldi”). Secondo gli sviluppatori del servizio, molti utilizzatori sono rimasti favorevolmente sorpresi dall'importanza della macro voce di spesa “aiutare gli altri”, che raccoglie ad esempio le spese di assistenza ai soggetti più deboli della società. Allo stesso modo, alcuni sono rimasti stupiti dalla relativa esiguità di voci di spesa spesso criticate, come quelle militari.

Naturalmente, mescolando più fonti di informazioni differenti si possono aiutare i cittadini a prendere decisioni più complesse. Ad esempio, Mapumental (relativo al Regno Unito) e Mapnificent (creato in Germania, ma che fa uso di dati da tutto il mondo) aiutano i cittadini a scegliere l’area in cui stabilirsi, considerando il tempo necessario a raggiungere il proprio luogo di lavoro con i mezzi pubblici, il prezzo delle case e altri indicatori relativi alla qualità della vita nella zona in questione.

Mapumental

Mapumental è una applicazione web che offre agli utenti una mappa interattiva, combinando tra loro dati geografici, dati catastali, dati dei servizi di trasporto pubblico e dati generati dagli utenti del Web.

Sviluppato da mySociety congiuntamente a Channel 4's 4IP, questo strumento permette di individuare il luogo ideale della Gran Bretagna in cui stabilirsi, in base alle proprie esigenze di tempo negli spostamenti, possibilità economiche e aspettative circa la gradevolezza urbanistica (“scenograficità”).

Selezionando un codice di avviamento postale corrispondente ad una destinazione di riferimento (ad esempio, il proprio luogo di lavoro abituale), e scorrendo le barre relative al tempo che si è disposti ad impiegare per raggiungerla entro le ore 9:00, al costo degli immobili e alla scenograficità del quartiere, è possibile circoscrivere e visualizzare le zone corrispondenti ai parametri scelti, individuando la propria dimora ideale.

Mapumental si basa, incrociandoli tra loro, su una serie di dati di provenienza diversa. Le mappe di sfondo sono generate sfruttando OpenStreetMap, che a sua volta riusa informazioni geografiche pubbliche, oltre a quelle generate dagli utenti. I dati del trasporto pubblico provengono dalla banca dati National Public Transport Data Repository (NPTDR). I prezzi degli immobili sono stati ricavati acquistando una lista di tutte le vendite di proprietà immobiliari ad uso abitativo registrate presso il Land Registry di Inghilterra e Galles tra gennaio 2008 e marzo 2009 (i dati relativi alla Scozia non sono stati inclusi perché troppo costosi). La “scenograficità” è stata stimata sfruttando le valutazioni sulla gradevolezza estetica di diverse aree delll'Inghilterra, della Scozia e del Galles, espresse dagli utenti del sito ScenicOrNot, creato appositamente per accumulare i dati necessari per Mapumental. Le foto presenti su ScenicOrNot provengono dal sito Geograph.


Le ragioni che rendono opportuno aprire e condividere i dati – proprio adesso – sono fondamentalmente legate a sviluppi tecnologici. Oggi, infatti, condividere dati digitali costa poco, quasi nulla. Ed elaborarli è facile e veloce. In questo scenario, diventano possibili – anche solo nella logica del “Perché no?” – cose che negli ultimi anni erano semplicemente infattibili o così costose da essere proibitive. Un'argomentazione forte a favore dell'apertura dei dati pubblici è proprio quella del “Perché no?”. Perché, infatti, si dovrebbe sottrarre alla creatività, alla passione, allo spirito d'iniziativa, alla fantasia e alle tante altre risorse dei cittadini e degli imprenditori una ricca dote, che la PA ha comunque a propria disposizione, per svolgere alcune sue funzioni necessarie, ma che non riesce a riutilizzare produttivamente, se non in minima parte. Perché no, se il costo è ridotto? Perché no, se l'esperienza insegna che gli utenti della Rete riescono a portare avanti progetti ambiziosi del calibro di un'enciclopedia online come Wikipedia? La tecnologia, infatti, non ha solo ridotto i costi per distribuire e processare i dati, ma è uno strumento con cui sviluppare piattaforme adatte ad esercitare forme di collaborazione di massa, capaci di generare una sorta di intelligenza collettiva. Uno dei principi fondamentali della new economy, che sembra applicarsi bene anche all'approccio open data è, appunto, che “l'intelligenza è là fuori”: ci sarà sempre (o quasi) qualcuno capace di usare i dati custoditi dalla PA in modi che queste non avrebbe potuto immaginare. E questo non perché la PA non abbia persone capaci e volenterose al proprio interno, ma semplicemente perché le persone all'esterno di ogni organizzazione – dal Comune di Moncenisio a Google – sono sempre molte di più, hanno interessi disparati e punti di vista differenti. E possono collaborare tra loro utilizzando le piattaforme più varie.

Il ruolo della società civile

La tecnologia abilita nuove forme di organizzazione di gruppi con interessi omogenei o comunque convergenti… Le norme aiutano a sentirsi nel giusto ed a superare ostacoli e reticenze (in buona fede).

Una rivoluzione digitale
Un mondo di dati

La valorizzazione del patrimonio informativo pubblico, attraverso il modello open data, è il frutto di condizioni socio-economiche, politiche e tecnologiche tipicamente contemporanee che riguardano la digitalizzazione della realtà, fisica e sociale, e la pervasiva disintermediazione delle attività umane. Viviamo in sistemi socio-tecnici complessi, ambienti ibridi in cui territori fisici e digitali convergono per costituire una realtà specchio dove il digitale descrive il fisico fino a determinarne o meno l’esistenza. Evolve il rapporto tra pubblico e privato e la tecnologia abilita nuove forme di organizzazione di gruppi con interessi omogenei o convergenti. L’utilizzo, diffuso ormai da più di 20 anni, dei navigatori satellitari è un esempio semplice ma efficace di come la tecnologia stia diventando la porta del reale, lo strumento principale di navigazione, così pervasivo da determinare in autonomia l’esistenza o meno degli elementi fisici. Quando visitiamo una nuova città, ad esempio, se un ristorante, un museo o una piazza non esistono sulle mappe digitali scompaiono dal nostro itinerario, diventano razionalmente introvabili e in ultima istanza svaniscono. Allo stesso modo un governo che non sia presente in rete scompare o meglio perde di verità, sembra finto perché non è presente in una parte importante delle nostre vite, quella digitale. È perciò naturale per la società civile contemporanea richiedere con fermezza che le amministrazioni pubbliche, ma anche le organizzazioni private, abbiano una presenza in rete, si descrivano con la disponibilità dei loro dati e si mettano in discussione anche online, secondo una nuova dialettica. La richiesta di dati è espressione dell’esigenza di avere nuovi canali digitali, o meglio nuovi media digitali per conoscere la realtà, comprenderne le dinamiche e decidere come gestire la cosa pubblica. I dati diventano elemento essenziale di cittadinanza e la società civile non può che esserne il primo utente e beneficiario.

Cittadini protagonisti
Il ruolo attivo dei cittadini

La società civile ha avuto ed ha un ruolo primario nell’idea e nella pratica del modello open data nel mondo, i singoli cittadini, le associazioni e le reti d’interesse contribuiscono ogni giorno a dare significato al processo in continua evoluzione di liberazione dei dati pubblici, costruendo progetti e valutando l’efficacia o meno delle soluzioni adottate dalle amministrazioni. L’attività di promozione svolta dell’Open Knowledge Foundation in Europa, che sviluppa strumenti e modelli di valorizzazione dei dati pubblici facendo lobby a livello nazionale e comunitario, o dal programma Code For America negli Stati Uniti, che aiuta direttamente le amministrazioni americane a sviluppare progetti open data, sono solo due esempi di come le associazioni di cittadini siano a tutti gli effetti protagoniste, anche più di governi e aziende, del movimento open data. Ancor più rilevante e caratteristico è l’apporto delle reti di esperti, ovvero delle mailing list e dei forum che aggregano competenze e buone pratiche in modo libero e informale e che hanno creato in tutte le nazioni un network di promotori delle tecnologie e dei processi open data. Molto interessante è il caso italiano della comunità Spaghetti Open Data che è a tutti gli effetti uno dei centri nazionali più importanti per discutere e progettare iniziative open data; essa è diventata il nodo centrale di una rete che comprende semplici cittadini, imprenditori e amministratori pubblici. Merita un approfondimento, all’interno delle pratiche della società civile, il caso di Monithon: progetto collegato all’iniziativa open data forse più famosa e meglio riuscita in Italia, Open Coesione. L’idea di Monithon nasce da un gruppo di cittadini interessanti a rendere più efficace e partecipato il processo di messa a disposizione dei dati di opencoesione.it volto a raccogliere le informazioni sugli interventi finanziati con fondi europei. Il progetto colleziona delle piccole inchieste sulle attività finanziate nei vari territori, es. la costruzione di una strada, la creazione di un laboratorio, ecc. che comprendono delle visite ai siti, la raccolta di documenti, foto e filmati e la realizzazione di interviste con l’obiettivo di rendere i cittadini attivi. In questo caso possiamo dire che l’iniziativa della società civile diventa quasi più rilevante di quelle dell’amministrazione, o meglio, che le due si alimentano vicendevolmente, costruendo quel circolo virtuoso tra informazione e partecipazione che costituisce il vero valore del modello open data.

Verso una nuova dialettica
Conoscenza, collaborazione, partecipazione

In particolare, il ruolo della società civile si può comprendere a partire da due istanze chiare e molto forti: la prima è l’esigenza di conoscere sempre meglio - e con strumenti e linguaggi sempre più precisi e attendibili - i dati che riguardano il funzionamento dello stato, la seconda è la necessità di attivare piattaforme di collaborazione e partecipazione che coinvolgano i cittadini nella definizione dei problemi rilevanti e delle possibili soluzioni.

Informare il dibattito è la prima domanda che i cittadini rivolgono alle istituzioni quando chiedono i dati pubblici. Essi vogliono conoscere lo stato del sistema, i dati puntuali sulle politiche e l’evoluzione, possibilmente in tempo reale, degli interventi. Abituati alle metriche digitali - pensiamo ai siti e alle app sul meteo che forniscono una descrizione numerica dei fenomeni fisici – sempre più i cittadini chiedono una nuova dialettica pubblica fatta di numeri, prove, documenti. In questo senso, il ruolo della società civile è dunque quello di esprimere una nuova domanda che richiede un’offerta informativa tecnologicamente avanzata e capace di utilizzare interfacce adeguate all’esperienza dei cittadini con i più diffusi servizi digitali, dalle mappe alle applicazioni meteo agli strumenti di finanza personale.

Il secondo elemento da considerare nell’analisi dell’apporto della società civile alla diffusione del modello open data è la necessità dei cittadini di essere protagonisti, di partecipare alle decisioni pubbliche o meglio alla gestione dei beni pubblici. Questo deriva da due cause diremo endogene ossia caratteristiche del sistema; la prima è legata al concetto di cittadinanza digitale mentre la seconda alla naturale e ineliminabile complessità dei sistemi socio-tecnici. L’esempio più chiaro è forse quello delle Comunità Intelligenti, le cosiddette Smart City. Da un lato il cittadino di una smart city vuole accedere ai dati del suo territorio, a quel cruscotto intelligente di cui normalmente sono in possesso i politici di professione e che oggi può essere a disposizione per tutti. Lo chiede perché è necessario a costruire una sua nuova cittadinanza digitale ed è essenziale per rendere realmente produttive, o meglio per dare un senso alle tecnologie che stanno popolando le città. Dall’altro lato, condividere le informazioni e trovare delle piattaforme inclusive di discussione è necessario per migliorare la capacità di prendere decisioni in un ambiente complesso; collaborare e partecipare con i cittadini si rivela perciò una metodologia di lavoro necessaria e utile a limitare le possibilità di errori. I dati diventano uno strumento necessario per creare identità e la società civile ha il ruolo di protagonista perché formula le richieste e definisce le aspettative a cui le istituzioni sono tenute a rispondere. Se e quando un’amministrazione decide di adottare il modello open data è necessario coinvolgere i cittadini o, meglio, è indispensabile considerare la società civile un partner di lavoro; un collaboratore con cui l’amministrazione deve lavorare per indirizzare il suo operato nel modo più efficace ed efficiente.


Il contesto normativo

Il contesto normativo dell'apertura dei dati pubblici è oggi particolarmente ricco, a tutti i livelli normativi. Se, da un punto di vista strettamente giuridico, le norme risultanti possono a volte apparire ridondanti, da una prospettiva sociologica e organizzativa questa ridondanza è spesso utile a rassicurare i funzionari pubblici rispetto alla coerenza tra l'apertura dei dati e le politiche dell'amministrazione di cui sono al servizio.

In Europa

A livello comunitario, il tema dell'accesso e riutilizzo delle informazione del settore pubblico è stato oggetto di specifiche iniziative di studio e discussione già a partire dalla seconda metà degli anni novanta. In particolare, con la pubblicazione, nel 1999, del Libro verde sull’informazione del settore pubblico nella società dell’informazione della Commissione Europea - a sua volta frutto dei risultati di un processo di consultazione preliminare avviato nel giungo 1996 assieme ai rappresentanti degli Stati membri, di operatori dell'industria dell'informazione e di utenti e cittadini - sono stati evidenziati per la prima volta, all'interno di un unico documento, i principali profili giuridici, economici e tecnici connessi alla fruizione di dati prodotti dal settore pubblico. La riflessione su tali profili è stata in seguito ulteriormente stimolata attraverso una consultazione pubblica aperta a tutti gli operatori interessati, volta ad ampliare il dibattito sulle questioni problematiche coinvolte (profili di diritto d'autore; tutela della sfera privata; politiche sul prezzo e relativo impatto su accessiblità ed uso dell'informazione pubblica; profili di concorrenza sleale connessi all'attività degli enti pubblici sul mercato dell'informazione; impiego di metadati per facilitare l'acceso all'informazione).

La direttiva PSI

Il confronto politico generato dalle iniziative descritte ha portato, qualche anno più tardi, all'adozione della Direttiva 2003/98/CE del Parlamento europeo e del Consiglio, approvata il 17 novembre 2003 e pubblicata nella GUCE n. L 345 del 31 dicembre 2003 (c.d. Direttiva PSI), la quale rappresenta a tutt’oggi il testo normativo di riferimento in tema di riutilizzo dell'informazione del settore pubblico nell’Unione Europea. Questa Direttiva si pone l’obiettivo di agevolare la “creazione di prodotti e servizi a contenuto informativo, basati su documenti del settore pubblico, estesi all'intera Comunità, nel promuovere un effettivo uso, oltre i confini nazionali, dei documenti del settore pubblico da parte delle imprese private, al fine di ricavarne prodotti e servizi a contenuto informativo a valore aggiunto e nel limitare le distorsioni della concorrenza sul mercato comunitario” (Considerando #25).

Naturalmente, la Direttiva non si applica indiscriminatamente a ogni dato detenuto dalle pubbliche amministrazioni, evitando dunque di pregiudicare diritti di terzi, tutela della sicurezza nazionale, segreto statistico o tutela della privacy.

La Direttiva PSI del 2003 è stata successivamente modificata dalla Direttiva 2013/37/UE del Parlamento Europeo e del Consiglio, del 26 giugno 2013: come recita il suo Considerando #5, dal 2003 ad oggi si è assistito ad una crescita esponenziale della quantità di dati nel mondo e, soprattutto, ad un’evoluzione costante delle tecnologie per lo sfruttamento dei dati stessi. Un’evoluzione tale da rendere non più attuali, a distanza di dieci anni, le norme del 2003. Alla luce delle sue modifiche, la nuova direttiva dispone, come principio generale, che gli Stati membri provve­dano affinché i documenti ai quali si applica la diret­tiva stessa siano riutilizzabili a fini commerciali o non commerciali.

Le linee guida della Commissione

Al fine di fornire alcuni principii guida unitari nella gestione di specifici aspetti inerenti al riutilizzo dell'informazione del settore pubblico (impiego di licenze, tariffazione e dataset di rilevanza prioritaria), la Commissione Europea ha inoltre pubblicato - nel 2014 - una Notice composta da un set di Guidelines on recommended standard licences, datasets and charging for the re-use of documents. I contenuti delle linee guida sono stati realizzati anche attraverso gli spunti raccolti mediante una propedeutica consultazione pubblica lanciata nel 2013.


In Italia
Recepimento della Direttiva PSI

L'attuazione italiana della direttiva comunitaria è avvenuta con il Decreto legislativo 24 gennaio 2006, n. 36, pubblicato nella G.U. del 14 febbraio 2006, n. 37. Il Decreto Legislativo 36/2006 è stato successivamente modificato dalla L. 96/2010 (art. 44) a seguito di una procedura di infrazione avviata dalla Commissione europea nei confronti dell'Italia per incompleto e scorretto recepimento della Direttiva. In particolare, la normativa italiana faceva salve vecchie norme sui dati catastali e ipotecari; non prevedeva un’informazione su mezzi di ricorso contro il mancato consenso alla riutilizzazione; ammetteva tariffe di riutilizzo determinate con criteri di dubbia compatibilità rispetto al dettato comunitario; non prevedeva un vero e proprio obbligo per le pubbliche amministrazioni di consentire il riutilizzo dei dati, né garantiva che questi venissero resi disponibili in formati aperti e realmente riutilizzabili.

Formati aperti
CAD e Decreto Trasparenza

Più recentemente, in Italia sono stati emanati diversi atti normativi, volti a riconoscere ed ufficializzare il ruolo dei dati aperti. Tra queste, la Legge di semplificazione (Legge 4 aprile 2012, n. 35) introduce l’Agenda Digitale Italiana (art. 47) e promuove il paradigma dei dati aperti quale modello di valorizzazione del patrimonio informativo pubblico (art. 47, comma 2-bis lett. b). Il Decreto Legge 18 ottobre 2012, n. 179 recante “Ulteriori misure urgenti per la crescita del Paese” (c.d. Decreto Sviluppo bis) introduce il concetto di “open by default” per tutte le informazioni pubblicate dalla PA (art. 9), promuove l’adozione di software libero e prescrive l’impiego di formati aperti nella pubblicazione dei dati da parte della pubblica amministrazione (art. 9-bis); il Decreto Legge porta queste misure nel Codice per l’Amministrazione Digitale (CAD, Decreto Legislativo, 7 marzo 2005, n. 82), modificandone gli artt. 52 e 68. Il Decreto Legislativo, 14 marzo 2013, n. 33 (c.d. Decreto Trasparenza), riorganizza la disciplina riguardante gli obblighi di pubblicità, trasparenza e diffusione di informazioni da parte delle pubbliche amministrazioni, introducendo per dette informazioni, soggette a pubblicazione obbligatoria, il diritto d’accesso civico (art. 5) e la conseguente messa a disposizione in formato aperto, senza “ulteriori restrizioni diverse dall'obbligo di citare la fonte e di rispettarne l'integrità” (art. 7). Il Decreto Legislativo n. 90/2014 convertito con modificazioni in Legge n. 114/2014, individua - all'art. 24-quater, comma 2 - l’obbligo per tutte le pubbliche amministrazioni e società partecipate in modo totalitario o prevalente dalle pubbliche amministrazioni “di comunicare all'Agenzia per l'Italia digitale, esclusivamente per via telematica, l'elenco delle basi di dati in loro gestione e degli applicativi che le utilizzano”. Per agevolare questi adempimenti, l’Agenzia per l’Italia Digitale (ex CNIPA e DigitPA) ha reso disponibile sul proprio sito una procedura on line per consentire ai soggetti interessati di trasmettere il catalogo delle basi dati e degli applicativi che le utilizzano ed una sezione di FAQ contenenti chiarimenti sugli adempimenti e sulla procedura d’invio.

Le linee guida dell'AgID

Si segnalano inoltre le misure per l’applicazione concreta dell’Agenda Digitale Italiana - individuate nel già citato Decreto Sviluppo Bis e trasfuse all'interno dell'art. 52, comma 6 e 7, del CAD - che contemplano l'Agenda nazionale per la valorizzazione del patrimonio informativo pubblico da aggiornarsi all’inizio di ogni anno, le complementari Linee guida nazionali per la valorizzazione del patrimonio informativo pubblico (che estendono le precedenti Linee guida per l’interoperabilità semantica attraverso i Linked Open Data della Commissione di Coordinamento SPC - Sistema Pubblico di Connettività) ed il Rapporto sullo stato di avanzamento del processo di valorizzazione del patrimonio pubblico, predisposti dall’Agenzia per l’Italia Digitale.


A livello regionale
Leggi regionali open data

Una forte sensibilità verso la valorizzazione del patrimonio di dati pubblici quale strumento per l'esercizio dei diritti all'informazione e di partecipazione democratica traspare dalle leggi promulgate dalla Regione Emilia Romagna e dalla Regione Toscana già nel 2004; prima ancora, cioè, che in Italia venisse recepita la direttiva PSI. Successivamente, la Regione Piemonte è stata la prima ad aver predisposto strumenti normativi per agevolare il riutilizzo dell'informazione pubblica. A seguire, numerose altre amministrazioni regionali si sono dotate di strumenti simili: così, ad esempio, la Legge regionale 14 luglio 2011, n. 9 della Regione Friuli Venezia Giulia fa della promozione della trasparenza secondo il paradigma open data uno dei suoi principali obiettivi. In altre Regioni sono state approvate o sono in corso di approvazione, sotto forma di disegno o proposta di legge, prescrizioni normative sul tema degli open data: è il caso delle amministrazioni regionali di Lazio, Basilicata, Umbria, Lombardia, Sicilia, Puglia, Toscana, Campania, e della Provincia Autonoma di Trento.

Un elenco delle principali leggi regionali in materia di open data è stata contenuto nelle Linee guida nazionali per la valorizzazione del patrimonio informativo pubblico (pagg. 24 e ss.); inoltre, Regolamenti e Direttive Locali sono oggetto di uno specifico approfondimento contenuto nelle Linee guida nazionali per la valorizzazione del patrimonio informativo pubblico, curato da Regioni-Cisis. Una sintesi interessante emerge anche dalle infografiche del sito web dati.gov.it, in particolare quelle relative alla distribuzione geografica delle pubbliche amministrazioni che rilasciano dati aperti e al numero di dataset pubblicati.


A livello comunale
A livello locale

Dato il crescente interesse per le politiche open data, è difficile fornire un quadro esaustivo di tutte le iniziative a livello cittadino: le giunte e i consigli comunali che hanno adottato delibere per avviare il processo di apertura dei dati sono moltissime. Per ottenere un quadro delle amministrazioni comunali attualmente impegnate nel rilascio di dati aperti si può ricorrere, anche in questo caso, all'infografica 'Dove sono i data store italiani?' del sito web dati.gov.it, la quale, opportunamente settata sulla sola dimensione comunale, restituisce una mappa delle amministrazioni che pubblicano dati a livello cittadino.

Un approccio interessante, come quello piemontese, abilita i vari comuni (per altro stimolati da un progetto sostenuto dall’ANCI) ad aderire alle iniziative portate avanti dalla propria regione: in questo modo, le infrastrutture come i portali open data regionali vengono messe a disposizione di soggetti pubblici per i quali sarebbe stato inefficiente creare una propria autonoma piattaforma di pubblicazione dei dati.



La pratica dell’apertura dei dati: strumenti e processi

Fare open data nella pratica

L'esperienza maturata all'interno dei progetti sui dati aperti di maggiore successo, dagli USA alla Nuova Zelanda, passando per il Regno Unito e certamente anche in Italia, ha portato nel tempo ad individuare alcune buone pratiche e raccomandazioni.

Le fasi di apertura dei dati

Come indica l’”Open Data Handbook”, il manuale predisposto dalla Open Knowledge Foundation sul tema Open Data, autorevole risorsa informativa per il vasto pubblico interessato al tema, di cui sono disponibili traduzioni in varie lingue tra cui l’italiano, il processo di apertura dei dati si articola in una serie di passi che consistono in:

  1. Individuare i dati da aprire. Analizzare i passi successivi in astratto è difficile o impossibile, per questo motivo è utile poter discutere sempre di dati abbastanza ben determinati, di cui sia possibile mostrare un campione ai vari possibili interlocutori (giuristi, dirigenti, amministratori, potenziali riutilizzatori). La scelta non è necessariamente esaustiva e globale, in quanto l’apertura dei dati va considerata un processo continuo e perpetuo, in cui si può procedere con un iniziale set di dati, operando successive integrazioni e approfondimenti, anche in base ai feedback dei potenziali utilizzatori. E’ fondamentale, in questa fase di determinazione dei dati, trovare i modi per verificare l’effettivo interesse della comunità rispetta alla apertura dei dati individuati. Una valida soluzione potrebbe essere quella di analizzare il traffico sul sito istituzionale o coinvolgere la cittadinanza per capire quali siano i dati più richiesti e quindi i primi a dover essere aperti. Tra i fattori da considerare in questa fase ci sono anche i costi da sostenere nell’apertura, bilanciandoli rispetto al valore che l’apertura comporterebbe, nonché l’osservazione di chi – organizzazioni o enti – ha già affrontato la produzione di dati aperti .
  2. Individuare quali diritti esistano sui dati. Un passo legato alla fase di individuazione dei dati da aprire attiene alla considerazione del regime giuridico dei dati. Da dove vengono i dati? Chi li ha raccolti? Con quali risorse? Ci sono (stati) contratti di qualche tipo che regola(va)no l'attività di raccolta e/o l'uso dei dati stessi? Parte di questi dati sono personali? O addirittura sensibili? Ci possono essere diritti di proprietà (ad esempio informazioni commerciali segrete)? Se troppe di queste domande sembrano difficili o impossibili da rispondere, anche con l'aiuto dell'ufficio legale del proprio ente, si può prendere in considerazione l'idea di scegliere un altro dataset, in particolare se ci si trova all'inizio dell'attività di apertura dei dati.
  3. Applicare una licenza aperta. Una volta individuati i dati da aprire, va determinato il livello di apertura giuridica da operare. Quali diritti si vogliono concedere ai riutilizzatori? A che condizioni? Chi è titolato a rilasciare la licenza in questione? In generale, è opportuno che esista un documento, condiviso e formalmente approvato, che legittimi la procedura di licenza dei dati. Può essere uno dei passaggi istituzionali più utili nell'evoluzione da sporadici progetti pilota Open Data ad una vera politica dei dati aperti. Peraltro, si tenga presente che, laddove i dati venissero pubblicati senza adottare alcuna licenza, si applicherebbe il principio dell'”open by default”, disposto dalll'art. 52, comma 3 del CAD, il quale prevede che “I dati e i documenti che le amministrazioni titolari pubblicano, con qualsiasi modalità, senza l'espressa adozione di una licenza di cui all'articolo 2, comma 1, lettera h), del decreto legislativo 24 gennaio 2006, n. 36, si intendono rilasciati come dati di tipo aperto”. Riguardo la procedura necessaria alla concessione di una licenza, è possibile che – nelle prime fasi di un progetto Open Data – trovare una risposta condivisa non sia banale. Alcuni enti riterranno che un qualche tipo di determina dirigenziale o ordine di servizio sia più che sufficiente (in particolare nel caso di progetti pilota su specifici insiemi di dati), altri vorranno portare l'iniziativa a conoscenza dei massimi organismi rappresentativi che governano l'ente stesso (il che è probabilmente una buona idea nel lungo periodo, al fine di dare la massima legittimità e stabilità all'iniziativa Open Data, dandole anche una specifica valenza democratica). Una via di mezzo, rappresentata da una delibera di un organo di governo, quale la giunta comunale o regionale, può essere uno strumento operativamente efficace per far partire la prima fase di un progetto strutturato (e ci sono molti precedenti in questo senso).
  4. Mettere i dati a disposizione online. Oltre agli aspetti giuridici dell’apertura, vanno definiti gli aspetti tecnici, individuando sia i formati machine-readable con cui rendere disponibili i dati, sia le modalità tecniche per metterli a disposizione online. Per quanto riguarda i formati, entrano in gioco le opzioni definite nel sistema di rating di Tim Berners-Lee. Per quanto attiene invece alle modalità di distribuzione online, le alternative sono molteplici. La scelta ottimale sarebbe pubblicare sul web i dati, istituendo un sito ad hoc oppure attraverso pagine del proprio sito pre-esistente. Una variante possibile è utilizzare a tale scopo siti di terze parti: Talis.com e Infochimps.com ne sono due esempi. Tuttavia, per cominciare, si possono predisporre modalità più semplici, che contemplino possibilità di scarico dei dati da parte della collettività. In questi casi è opportuno predisporre semplici archivi compressi (per i file di una certa dimensione), in cui i dati siano disponibili, in blocco e in un formato il più possibile diffuso. Questo passo è normalmente banale. Infatti, quasi solo i progetti di grande successo possono permettersi il lusso di porsi problemi relativi ad un eccessivo carico dei loro server causato dal download dei dati. Inoltre, qualora succeda, poter dire che l'eccessiva domanda ha messo in ginocchio i propri server è spesso una pubblicità più positiva che negativa (a condizione di non utilizzare per la distribuzione server che ospitino servizi critici o importanti per i cittadini). Se si ritiene che l'eccessiva domanda sia comunque una criticità da prevedersi, si possono prendere in considerazione strumenti distribuiti (come reti di file sharing).
  5. Far trovare i dati. Se nascosti, anche quei dati che hanno grandi potenzialità resteranno inutilizzati perché nessuno saprà che esistono e dove si trovano. Qualche energia va dunque spesa anche per rendere i propri dati facilmente individuabili sul Web. Volendo, si può creare un proprio sito/catalogo o portale apposito (a volte detto anche Information Asset Register). Oppure si può verificare se ne esiste uno, ad esempio, nella propria regione (http://dati.piemonte.it è un caso di portale regionale aperto a varie pubbliche amministrazioni e istituzioni piemontesi). In Italia, il 18 ottobre 2011 è stato inaugurato il portale http://www.dati.gov.it, un catalogo pubblico nazionale dedicato ai dati aperti; accanto a dati.gov.it, esiste anche un portale gestito da una comunità di utenti: IT.CKAN.NET (sezione italiana dell'internazionale CKAN.NET). Chiunque può inserire su CKAN le informazioni relative a database aperti, rendendoli così più facili da scoprire. Inoltre, un fattore che contribuisce efficacemente alla trovabilità dei dati è l’alto livello e la qualità dei formati adottati. Infatti l’adozione del paradigma Linked Open Data (di cui si parlerà successivamente) e il riferimento espresso alle entità del mondo reale a cui i dati si riferiscono migliora l’indicizzazione dei dati aperti sul web da parte dei motori di ricerca, oltre che consentire di arrivare ai dati attraverso i link presenti in altre risorse esterne.


Costi, profitti e tariffe

Recupero dei soli costi marginali


Sistema Informativo Territoriale della Regione Piemonte

Il Sistema Informativo Territoriale della Regione Piemonte comprende una serie articolata di repertori cartografici, aggiornati nel tempo. Si tratta di un insieme di dati geografici, rappresentati nella forma di mappe che riportano informazioni geometriche, topologiche e descrittive del territorio regionale. Questi dati – che rappresentano un’istantanea del territorio regionale e degli oggetti, naturali e artificiali, che lo compongono – si prestano a svariate forme di riutilizzo di particolare importanza, dalla creazione di nuove mappe (con l’aggiunta di ulteriori informazioni) alla georeferenziazione dei servizi digitali. L’aggiornamento dei dati cartografici, pur facendo parte del mandato pubblico, comporta per l’amministrazione regionale un ingente costo. Per dare una misura concreta, la realizzazione della carta di un grande centro urbano (a scala 1:2000, con un aggiornamento tendenzialmente necessario ogni due anni) comporta una spesa di circa 50 euro all’ettaro.

Prima dell’approvazione delle Linee Guida relative al riutilizzo e all’interscambio del patrimonio informativo regionale del novembre 2010 (abrogate dalla Legge Regionale n° 24 del 23/12/2011, che ha riorganizzato le disposizioni circa la pubblicazione e il riutilizzo di documenti e dati dell’amministrazione regionale, ma che già prevedevano il rilascio libero e gratuito dei dati dell’amministrazione pubblica piemontese), parte dei repertori geografici veniva rilasciata a titolo oneroso, secondo uno specifico tariffario e, naturalmente, condizioni di rilascio compatibili con quanto prescritto dalla direttiva europea INSPIRE (relativa appunto ai dati geografici). I ricavi netti annui stimati erano compresi tra i 10mila e i 20mila euro. I costi cagionati dalla natura onerosa e manuale delle transazioni (prive di un canale di distribuzione digitale) – ossia le risorse umane dedicate, nonché le spese di fatturazione e altre spese accessorie – assommavano invece a circa 50mila euro all’anno, rendendo dunque, di fatto, antieconomica l'offerta di dati a titolo oneroso e incentivando un rilascio libero attraverso la rete.

La scarsità di risorse non consente peraltro di effettuare gli aggiornamenti dei database geografici con la frequenza che sarebbe desiderabile: per questo, meccanismi virtuosi di collaborazione con i riutilizzatori delle mappe potrebbero rappresentare un'opportunità molto più interessante della “vendita” del dato stesso.

Come si è accennato, la migliore politica per massimizzare le opportunità del riutilizzo dei dati consiste nel mettere a disposizione i dati gratuitamente, richiedendo altrimenti il mero costo marginale di messa a disposizione dei dati stessi. Ai fini del presente lavoro, mutuando dalla definizione generale, con "costo marginale" si intende la variazione nei costi totali di messa a disposizione del dato che si verifica quando viene riprodotta e distribuita ("scaricata") un'unità in più del dato. Tale costo, in ambito digitale, è in sostanza pari a zero. Questo approccio, che permette la massima diffusione dei dati e, di conseguenza, degli effetti positivi generati, è stato precisamente recepito dall'Unione Europea: a seguito delle modifiche alla Direttiva PSI, infatti (e salvo che per alcune limitate tipologie di enti pubblici e documenti), l’eventuale tariffa non può più prevedere l'apposizione di un congruo utile sugli investimenti, impedendo così alle Amministrazioni di “fare cassa” scoraggiando al tempo stesso il riutilizzo. È dunque possibile considerare, ad esempio la (minima) quota di ulteriore banda necessaria, o analoghi costi di natura tecnica, ma certamente non i costi fissi di realizzazione del servizio. Senza dimenticare che ogni pagamento implica non solo introiti, ma nuovi costi per la PA (legati alla gestione delle transazioni), costi che in alcuni casi possono rendere addirittura antieconomico il rilascio dei dati a titolo oneroso (come nel caso del Sistema Informativo Territoriale della Regione Piemonte).


Dati aperti e concorrenza


GoogleTranslate

Nel Maggio 2010, la parlamentare europea Evelyn Regner ha indirizzato alla Commissione Europea un'interrogazione riguardante l'utilizzo di documenti tradotti dell'UE da parte di Google, per lo sviluppo del suo software di traduzione.

Come noto, Google ha sviluppato il servizio di traduzione GoogleTranslate, liberamente disponibile online. Evelyn Regner chiedeva dunque: “È la Commissione a conoscenza del fatto che l'azienda statunitense Google Inc. utilizza i documenti dell'UE tradotti in 23 lingue quale base per un servizio gratuito, perseguendo tuttavia un interesse economico? Un siffatto servizio gratuito induce un numero sempre maggiore di utenti Internet in tutto il mondo a consultare la homepage di Google. Qual è la posizione della Commissione rispetto a tale riguardo?” Continuando poi: “Come giustifica la Commissione ai contribuenti europei il fatto che per i servizi di traduzione siano stanziati milioni di euro e un'azienda privata statunitense ne tragga indirettamente beneficio?”

Il Commissario Kroes ha risposto a nome della Commissione, confermando una piena consapevolezza dei fatti descritti. Nella risposta, il Commissario ha fatto addirittura riferimento ad altri usi, commerciali e non-commerciali, di altri documenti pubblicati in più lingue dalla Commissione, dal Parlamento e da varie istituzioni europee.

Il riutilizzo descritto è stato posto nel contesto della Direttiva PSI (2003/98/EC), che ha precisamente lo scopo di incoraggiare questo tipo di attività e le loro ricadute (economiche e non), normalmente positive per la società. Rispetto al caso specifico, poi, la Commissione ha ricordato che Google, pur essendo un operatore basato negli Stati Uniti, ha affiliate in più di una dozzina di paesi europei (inclusa l'Italia). Inoltre – e soprattutto – la Commissaria ha fatto osservare che l'informazione in esame è disponibile a qualsiasi compagnia alle medesime condizioni e che i costi di traduzione, lungi dall'essere un aiuto a Google, sono spese inevitabili e connesse ai compiti delle istituzioni europee. In conclusione, la Commissione non ha preso in considerazione l'imposizione di alcun limite aggiuntivo all'accesso e al riutilizzo dei documenti in questione.

Un aspetto economico relativo a riutilizzo merita un commento specifico: la possibilità che il riutilizzo favorisca un determinato soggetto commerciale, apparentemente a spese dei contribuenti, come nel caso del servizio di traduzione GoogleTranslate. La risposta, qui, è dunque del tipo “sì al riutilizzo commerciale, purché aperto a tutti”. Ciò, val la pena esplicitarlo, è garantito dal fatto che le licenze standard largamente consigliate per la messa a disposizione dei dati non sono mai esclusive; inoltre, le licenze esclusive sono esplicitamente scoraggiate (e normalmente vietate) dalla Direttiva PSI (e suo recepimento nazionale). Eventuali casi particolari, in cui malgrado l'assenza di licenze esclusive alcuni soggetti economici rafforzeranno la loro posizione dominante grazie alla PSI, saranno poi da gestirsi in via successiva, ad esempio tramite l'intervento dell'autorità antitrust.

Trattando di concorrenza, un altro caso merita una menzione. Immaginiamo che qualche riutilizzatore “consolidato” si lamenti di un'eventuale riduzione delle tariffe o in generale di una maggiore apertura (che faciliti l'ingresso di nuovi entranti, nonché suoi concorrenti), sostenendo magari che la sua possibilità di stare sul mercato potrebbe a quel punto essere minacciata. Se così accadesse, si avrebbe un netto indizio del fatto che quell'operatore basava la propria attività su un posizionamento (quasi) monopolistico (o comunque da rendita di posizione), più che sulla creazione di servizi realmente innovativi. Altrimenti non avrebbe di che preoccuparsi. Di conseguenza, perché una PA dovrebbe farsi scrupoli ad aprire i dati, malgrado queste obiezioni?

Le possibilità di riutilizzo e la tutela dei dati personali

Un bilanciamento di interessi

La disciplina del riutilizzo dell’informazione pubblica e la necessità di tutelare i dati personali pongono le amministrazioni pubbliche, e in generale i soggetti che intendano sviluppare e diffondere open data, di fronte a una sfida complessa e non priva di rischi: sebbene i dataset contenenti dati personali siano tra quelli con maggior valore, infatti, la decisione da parte di un soggetto pubblico di mettere a disposizione alcuni dataset non può mettere in discussione il diritto dei cittadini alla tutela dei loro dati personali e della loro riservatezza.

Con questa consapevolezza, la normativa sul riutilizzo dei dati fa completamente salva la normativa sui dati personali (art.4, c.1, lett. a), D. Lgs. 36/2006; art. 1 Direttiva 2003/98/CE).

Pertanto, in base all’attuale normativa europea ed italiana, il riutilizzo di dati personali non è escluso a priori, ma implica un giudizio di bilanciamento tra i diversi diritti e interessi coinvolti “caso per caso”, considerando che la tutela della privacy e dei dati personali prevale sugli altri interessi in gioco.

Cosa sono i dati personali?

I dati personali sono una classe molto ampia: comprendono qualsiasi informazione concernente una persona fisica identificata o identificabile. Il nome e cognome, l’indirizzo di residenza, il codice fiscale, l'indirizzo mail, ma anche l'immagine fotografica di una persona e la registrazione della sua voce sono alcuni tipici esempi di dati personali. Inoltre, quando si parla di persona identificabile, lo si fa in senso abbastanza ampio e anche indiretto, ad esempio mediante riferimento ad un numero di identificazione o ad uno o più elementi specifici caratteristici della sua identità fisica, fisiologica, psichica, economica, culturale o sociale.

I dati personali sensibili, invece, sono quei dati personali che si riferiscono alla sfera più intima del soggetto, “idonei a rivelare l'origine razziale ed etnica, le convinzioni religiose, filosofiche o di altro genere, le opinioni politiche, l'adesione a partiti, sindacati, associazioni od organizzazioni a carattere religioso, filosofico, politico o sindacale, nonché i dati personali idonei a rivelare lo stato di salute e la vita sessuale”. Questi godono di una protezione maggiore. Alcuni esempi comprendono l'elenco dei titoli relativi alle condizioni di salute nei concorsi pubblici (es. i dati che permettono di individuare soggetti diversamente abili); l’iscrizione ad un partito politico e ad un’associazione sindacale, l’elenco degli studenti che seguono o non seguono le ore di religione a scuola o i file di log di navigazione Internet su siti erotici, politici, sindacali. Si noti pure che in taluni casi un dato che può sembrare semplicemente personale — ad esempio l'indirizzo mail — è in realtà un dato sensibile, poiché rivela l'adesione ad una determinata associazione, sindacato o partito, p. es. alberto.rossi@cgil.it o mario.verdi@pd.it.

Esiste poi una categoria di dati detti “semi-sensibili”, il cui trattamento “presenta rischi specifici”. In merito, il Codice della privacy (art. 17) stabilisce che “il trattamento dei dati diversi da quelli sensibili e giudiziari che presenta rischi specifici per i diritti e le libertà fondamentali, nonché per la dignità dell'interessato, in relazione alla natura dei dati o alle modalità del trattamento o agli effetti che può determinare, è ammesso nel rispetto di misure e accorgimenti a garanzia dell'interessato, ove prescritti. [Tali misure e accorgimenti] sono prescritti dal Garante [...], anche a seguito di un interpello del titolare.” Un esempio di “trattamento che presenta rischi specifici” è la pubblicazione online dell'elenco di genitori che non pagano le rette della scuola o dell’asilo.

Va ricordato che la possibilità di diffusione di dati personali da parte di un soggetto pubblico può avvenire, a norma del Codice della Privacy solo in presenza apposita previsione di legge o di regolamento (art. 19, c. 3, D. Lgs. 196/2003).


L'ampiezza del riutilizzo di dati personali
I dati personali nelle norme sugli open data

A livello europeo, con le Direttive PSI del 2003 e del 2013, il legislatore ha consentito la possibilità di ammettere al riutilizzo anche dati personali. In quelle sedi, tuttavia, non si è assunto l’onere di individuare casi specifici di trattamenti legittimi di diffusione in formato aperto di dati personali, né chiare modalità di selezione dei dati personali diffondibili come open data. La stessa scelta è stata portata avanti dal legislatore italiano nel 2006 (D. Lgs. 36/2006 di recepimento della direttiva europea sul riutilizzo) e nel 2012 (D. L. 179/2012, conv. con L. n. 221/2012, che modifica il CAD includendovi la disciplina sul riutilizzo dell’informazione pubblica). Nel 2013, invece, il legislatore ha avvertito la necessità di intervenire in modo più diretto: nell’ambito del riordino della normativa sulla trasparenza amministrativa è stato infatti ridefinito il bilanciamento tra riutilizzo dell’informazione e tutela dei dati personali fissandone nuovi confini. Così, sono stati introdotti specifici limiti normativi alla diffusione in vista del riutilizzo di dataset contenenti dati personali (cfr. D. lgs. 33/2013, art. 4).

Il risultato è un ridursi degli spazi legittimi per il riutilizzo di dati personali.

Sebbene infatti sia stato introdotto l’obbligo di pubblicazione adottando formati di tipo aperto per alcune categorie di dati e documenti inerenti la trasparenza delle amministrazioni pubbliche, si è stabilito che laddove non sia previsto un obbligo di pubblicazione sia possibile diffondere - per il loro riutilizzo - dataset contenenti dati personali solo in seguito all’adozione di tecniche di anonimizzazione. Così, per i casi di dati personali a pubblicazione obbligatoria, l’art. 4 comma 1 stabilisce che debba esser possibile una loro diffusione in formato di tipo aperto attraverso siti istituzionali, che il loro trattamento segua modalità tali da consentire l’indicizzazione e rintracciabilità tramite motori di ricerca web e che il loro riutilizzo avvenga nel rispetto dei principi sul trattamento dei dati personali. In aggiunta, il comma 3 dello stesso articolo, prevede la possibilità di rendere disponibili e riutilizzabili anche tutti quei dati, informazioni e documenti che le pubbliche amministrazioni non hanno l'obbligo di pubblicare ai sensi del decreto trasparenza o di altre specifiche previsioni di legge o regolamenti, una volta che si sia proceduto ad anonimizzare i dati personali eventualmente presenti (art. 4, c.3).


Le linee guida del Garante Privacy

Il Garante privacy si è espresso di recente sulla materia in esame nelle Linee Guida in materia di trattamento dei dati personali, contenuti anche in atti e documenti amministrativi, effettuato per finalità di pubblicità e trasparenza sul web da soggetti pubblici e da altri enti obbligati (Garante Privacy, 12 giugno 2014).

Il Decreto Trasparenza secondo il Garante

L’interpretazione del decreto Trasparenza fornita dal Garante risulta restrittiva. Nelle Linee Guida si distingue nettamente tra dati a pubblicazione obbligatoria per finalità di trasparenza e dati a pubblicazione obbligatoria per qualunque altra finalità (es. pubblicità degli atti, etc). Si noti che il Garante ha così interpretato la distinzione nell’area di applicazione del D. Lgs. 33/2013 ritenendo che l’obbligo di pubblicazione in formati aperti per il riutilizzo (art. 7, D. Lgs. 33/2013) riguardi solo i dati a pubblicazione obbligatoria per finalità di trasparenza relativi all’organizzazione e l’attività ammnistrativa, e non gli altri casi. Scrive il Garante che “Di conseguenza, tutte le ipotesi di pubblicità non riconducibili a finalità di trasparenza (…), qualora comportino una diffusione di dati personali, sono escluse dall’oggetto del d. lgs. n. 33/2013 e dall’ambito di applicazione delle relative previsioni fra cui, in particolare, quelle relative all’accesso civico (art. 5), all’indicizzazione (art. 4 e 9), al riutilizzo (art. 7), alla durata dell’obbligo di pubblicazione (art. 8) e alla trasposizione dei dati in archivio (art. 9).”

Inoltre, distinguendo ulteriormente tra documenti a pubblicazione obbligatoria e dati personali in essi contenuti, ha chiarito che ove si sia un obbligo di pubblicazione per finalità di trasparenza dei documenti in formati aperti, non perciò quest’obbligo si estenda senza ulteriore valutazione ai dati personali. Per questi ultimi varranno i normali giudizi sui principii di finalità, necessità, pertinenza e non eccedenza, previsti dal Codice della Privacy, da compiersi avendo riguardo alle finalità di raccolta e trattamento e alle possibili finalità di trattamento successivo alla pubblicazione.

In merito alla presenza di eventuali dati sensibili, il Garante precisa che “È, invece, sempre vietata la diffusione di dati idonei a rivelare lo “stato di salute” (art. 22, comma 8, del Codice) e “la vita sessuale” (art. 4, comma 6, del d. lgs. n. 33/2013)” e che “anche alla luce di un’interpretazione sistematica delle disposizioni del decreto sulla trasparenza, i dati personali sensibili e giudiziari sono espressamente esclusi dal riutilizzo (art. 4, comma 1, e art. 7 del d. lgs. n. 33/2013). Inoltre, operando un’interpretazione forzatamente restrittiva del disposto legislativo, il Garante sostiene che l’obbligo di pubblicazione in formati di tipo aperto per consentire il riutilizzo ai sensi della normativa vigente (CAD, D. Lg. 36/2006) di documenti, dati e informazioni a pubblicazione obbligatoria (art. 7, D. Lgs. 33/2013), non implichi la pubblicazione di dati personali “di tipo aperto”, che al contrario ritiene vietata: “Da ciò consegue che i dati personali oggetto di pubblicazione obbligatoria non sono liberamente riutilizzabili da chiunque per qualsiasi ulteriore finalità”.

Ne consegue che, una volta che i dati personali a pubblicazione obbligatoria per finalità di trasparenza siano stati pubblicati in formati di tipo aperto sui siti istituzionali “Amministrazione trasparente”, l’amministrazione dovrà valutare caso per caso l’eventuale riutilizzabilità di quei dati, procedendo a una valutazione rigorosa del rischio e del rispetto del principio di finalità (art. 11 Codice della Privacy), con l’obiettivo di ridurre il rischio di perdere il controllo sulle medesime informazioni o di dover far fronte a richieste di risarcimento del danno da parte degli interessati; a tale scopo ne ha indicato il contenuto e le modalità. Tale valutazione d’impatto potrà avvenire ex ante e per tipologia di dati, oppure su istanza qualora l’amministrazione ricevesse richiesta di riutilizzo ai sensi del D. Lgs. 36/2006.

Valutazione di Impatto

Per questi casi, il Garante ritiene che sarà necessario predisporre una Valutazione di Impatto documentata e rigorosa al fine di ridurre il rischio di perdere il controllo sulle medesime informazioni o di dover far fronte a richieste di risarcimento del danno da parte degli interessati. Tale valutazione dovrà:

  1. stabilire se è lecito, alla luce dell'esistenza di un presupposto normativo idoneo, che i dati personali pubblicamente accessibili sui siti web istituzionali possano essere riutilizzati da terzi e per scopi ulteriori (art. 11, comma 1, lett. a e b del Codice);
  2. in caso di valutazione positiva, occorre poi verificare se l'utilizzo ulteriore di questi dati possa essere consentito:
    • limitatamente ai dati rielaborati in forma anonima e aggregata, individuando il livello appropriato di aggregazione e la specifica tecnica di anonimizzazione da utilizzare sulla base di una ponderata valutazione del rischio di re-identificazione degli interessati oppure rispetto a tutti o soltanto ad alcuni dei dati personali resi pubblici (cfr. artt. 3 e 11, lett. d, del Codice)
    • per qualsiasi scopo ulteriore o solo per taluni scopi determinati (art. 11, comma 1, lett. b, del Codice)
    • secondo modalità di messa a disposizione online conformi ai principi di necessità, proporzionalità e pertinenza (artt. 3 e 11 del Codice)
    • a condizione che gli utilizzatori adottino modalità tecniche e rispettino specifici vincoli giuridici definiti in apposite licenze predisposte al fine di individuare idonee cautele per tutelare i diritti degli interessati nei successivi trattamenti di dati a fini di riutilizzo
Impiego di licenze e note legali

Il Garante Privacy, inoltre, si raccomanda sull’uso di licenze standard qualora l’amministrazione decida di diffondere dati personali per il riutilizzo. Si ricorda come già il Working Party Art. 29 nella sua Opinion 06/2013 on open data and public sector information ('PSI') reuse suggerisse di adottare una licenza che restringesse le possibilità di riutilizzo di dati personali a ciò che sia strettamente compatibile con gli scopi con cui i dati sono stati raccolti. Il Garante Privacy italiano ha seguito questa raccomandazione specificandola sia con riguardo al riuso di dati personali, sia con riguardo ai dati anonimi derivati da dati personali. Per quest’ultima ipotesi le condizioni della licenza “dovrebbero vietare ai titolari delle licenze di re-identificare gli interessati e di assumere qualsiasi decisione o provvedimento che possa riguardarli individualmente sulla base dei dati personali così ottenuti, nonché prevedere in capo ai medesimi titolari l’obbligo di informare l’organismo pubblico nel caso in cui venisse rilevato che gli individui interessati possano essere o siano stati re-identificati”.

Nel caso di riutilizzo di dati personali, invece, le condizioni di licenza dovrebbero indicare chiaramente "le finalità e le modalità degli ulteriori trattamenti consentiti". Quest’ultima raccomandazione del Garante pare tuttavia di dubbia praticabilità. Si imporrebbe in capo all’amministrazione una complessa definizione ex ante delle possibili ipotesi di trattamenti compatibili con la finalità di raccolta originaria. Ad una simile scelta seguirebbero inevitabili problemi di incompatibilità tra licenze simili. Inoltre, sembra opportuno non gravare una licenza di clausole non direttamente correlate con la gestione di diritti d’autore e connessi. Uno strumento negoziale come quello delle licenze non risulta infatti il mezzo più idoneo per definire aspetti di tutela dei dati personali, potendo sopperire in modo più consono alle esigenze di tutela l’indicazione delle finalità di raccolta originaria dei dati personali nella scheda di metadatazione dei dati pubblicati, accompagnata da una nota che ricordi l’osservanza della normativa sulla privacy, inserita tanto nella scheda di metadatazione dei dati, quanto nelle note legali del sito o portale istituzionale che esponga i dati in oggetto (così, ad esempio, il portale open data del Riksdag svedese, che nei Terms of Use spiega come il riutilizzatore di dati parlamentari contenenti dati personali debba assicurarsi che detto riutilizzo risulti conforme alle disposizioni del Personal Data Act, 1998: 204).

Quest’ultima possibilità è stata peraltro adottata anche dal Garante individuando la necessità che le PA provvedano ad inserire un alert specifico per i dati personali a pubblicazione obbligatoria in modalità open data presenti sulla pagina “Amministrazione trasparente” nei propri siti web. L’alert deve informare il pubblico che i dati personali sono riutilizzabili in termini compatibili con gli scopi per i quali sono raccolti, e nel rispetto delle norme sulla protezione dei dati personali.


L'anonimizzazione
Anonimizzazione dei dati e reidentificazione

Come si è già evidenziato, i dati personali presentano delle peculiarità che rendono la loro gestione piuttosto delicata. Fortunatamente, è sempre possibile adottare una soluzione tecnica che consente la pubblicazione di un dato semplicemente eliminandone la natura personale. Infatti, un dato è personale finché resta riconducibile ad una persona fisica e questa riconducibilità può venir meno grazie a varie tecniche di anonimizzazione (ai sensi dell’art. 4 del Codice della privacy, il dato "anonimo" è il “il dato che in origine, o a seguito di trattamento, non può essere associato ad un interessato identificato o identificabile”). Tra queste tecniche rientra anche l'aggregazione di più dati personali, ad esempio calcolando una media per quartiere, città, fascia d'età, ecc.

A scanso di equivoci, l'anonimizzazione è una soluzione efficace, ma radicale, poiché comporta la perdita di molte informazioni potenzialmente utili. In ogni caso, è inevitabile che l'aggregazione e l'anonimizzazione portino ad allontanarsi dal dato grezzo, poiché rimuovendo l'informazione sull'identità dell'individuo si elimina il punto di contatto, la chiave comune tra i dati menzionati poco sopra; ovvero, la riconducibilità al singolo individuo che ha una certa convinzione religiosa, un certo reddito, una certa età e vive in un certo luogo. Va del resto ricordato che l’anonimizzazione non può essere considerata come una soluzione sempre sicura e idonea a proteggere il titolare dei dati anonimizzati. Esiste, infatti, la possibilità che i dati anonimizzati siano reidentificabili attraverso la loro combinazione con altri dati; in conseguenza di un tale procedimento, i dati anonimizzati non sono più anonimi e, pertanto, torneranno ad essere attratti sotto il regime della normativa sui dati personali.

Quest’eventualità deve esser fronteggiata predisponendo una clausola o in alternativa (come anche suggerito dal Working Party Art. 29 nella già citata Opinion 06/2013) un chiaro messaggio di avvertenza ai riutilizzatori sul portale dei dati aperti che avvisi che non possono essere attuate riaggregazioni di dati anonimizzati al fine di aggirare il divieto di reidentificazione. Ed, infatti, il Garante ha specificato che, nel caso di clausole che riguardano il riutilizzo di dati anonimi derivati da dati personali occorrerebbe "vietare ai titolari delle licenze di re-identificare gli interessati e di assumere qualsiasi decisione o provvedimento che possa riguardarli individualmente sulla base dei dati personali così ottenuti, nonché prevedere in capo ai medesimi titolari l'obbligo di informare l'organismo pubblico nel caso in cui venisse rilevato che gli individui interessati possano essere o siano stati re-identificati".



Formati e formalismi


Le cinque stelle di Berners-Lee

Per valutare e migliorare i progetti di apertura dei dati, Tim Berners-Lee, "padre" del World Wide Web e tra i principali promotori del movimento Open Data, nonchè fautore del Web of Data, propone di classificare i progetti Open Data secondo il livello tecnico di condivisione dei dati. Per quantificare la progressione, ha proposto il “5 star rating scheme”, un modello a 5 livelli, corrispondenti a "stelle", definiti come segue:

★ Mettetere a disposizione i dati sul Web (in qualsiasi formato, "così come sono") con licenza aperta (per esempio, in formato immagine o PDF).
★★ Metterli a disposizione come dati strutturati in un formato “machine readable” (per esempio, in formato Excel, anziché come immagini scannerizzate di una tabella) con licenza aperta.
★★★ Utilizzare formati “machine readable” non-proprietari/aperti (per esempio, XML, anziché Excel), sempre con licenza aperta.
★★★★ Oltre alle condizioni dei livelli precedenti, usare gli standard del W3C (RDF e SPARQL) e URI (stabili) per identificare ogni cosa a cui i dati si riferiscono, così che altri possano creare puntatori ai tuoi dati (ad esempio, http://it.dbpedia.org/resource/Uniform_Resource_Identifier).
★★★★★ Oltre alle condizioni dei livelli precedenti, collegare i tuoi dati ad altri dati per fornire un contesto (Linked Data).

Da questo modello si può desumere facilmente che, oltre che esserlo dal punto di vista giuridico, i dati aperti devono essere riutilizzabili anche tecnicamente.

In particolare, il secondo livello di apertura si concentra sull'importanza di distribuire i dati secondo un formato strutturato (es. una tabella di Excel) e leggibile dalle macchine. Concettualmente il passaggio dal primo livello al secondo livello corrisponde al passaggio dal testo, in cui i dati non sono riconoscibili, ai dati strutturati. La struttura del dato è lo schema con il quale i dati possono essere immagazzinati ed organizzati, in modo tale da renderli processabili automaticamente. Per esemplificare, si può immaginare di strutturare un dato che originariamente non lo era:

Dato non strutturato:
La Primavera è un dipinto a tempera su tavola (203x314 cm) di Sandro Botticelli, databile al 1482 circa. Realizzata per la villa medicea di Castello, l'opera d'arte è attualmente conservata nella Galleria degli Uffizi a Firenze.
Dato strutturato:
Attributo Valore
Titolo dell'opera Primavera
Autore Sandro Botticelli
Tipo Dipinto a tempera su tavola
Dimensione 203x314 cm
Data di realizzazione 1482 circa
Destinazione originaria Villa medicea di Castello
Città di conservazione Firenze
Luogo di conservazione Galleria degli Uffizi

Non sempre l'informazione può essere così strutturata, ma organizzare i dati in questo modo permette un riuso più semplice e comparazioni più utili tra dati della stessa tipologia.

Lo scenario migliore consiste nel predisporre il download – auspicabilmente gratuito - dei dati e che gli stessi possano essere scaricati in blocco, possibilmente come un unico archivio compresso. Inoltre, a scanso di equivoci, rendere i dati disponibili solo tramite servizi web, ad esempio in pagine con menù a discesa che restituiscano alcuni dati sulla base delle scelte dell'utente, non costituisce una modalità adeguata per il riutilizzo (sebbene il servizio in quanto tale possa essere utilissimo, se affiancato al download in blocco).

Formati aperti e machine-readable

Il terzo livello di apertura si riferisce alla riduzione delle possibili barriere tecnologiche date da formati non aperti che richiedano la disponibilità di specifico software non aperto per essere letti (quindi si consiglia l'uso di un file .CVS piuttosto che un file .XLS).

Come previsto dall'art. 68 del CAD e più volte ricordato dall'Agenzia per l'Italia Digitale, il formato dei dati si definisce "aperto" quando ne viene resa pubblica, mediante esaustiva documentazione, la sintassi, la semantica, il contesto operativo e le modalità di utilizzo. Tali informazioni, unitamente ad una guida all’uso del formato, orientata alla lettura da parte dell’utilizzatore, devono essere presenti in uno o più documenti rilasciati dall’ente proponente lo standard.

Tuttavia, i formati aperti sono una condizione necessaria (e comunque assai raccomandabile) ma non sempre sufficiente: il livello minimo è l'adozione di un formato aperto e leggibile in modo automatico dalle macchine (machine-readable), dal momento che la possibilità di processare in automatico i file, a volte, facilita il riutilizzo anche più di un formato aperto. Esistono grandi quantità di dati in formati standard “de facto”, ovvero formati non aperti ma ugualmente leggibili e visualizzabili con software proprietari e open source. Per esempio, una tabella di Microsoft Excel (formato XLS) non è aperta in senso tecnico, ma è machine-readable e, a fini pratici, risulta infinitamente più utile di un PDF, che è un formato aperto da un certo punto di vista (nel senso che chiunque può creare applicazioni che leggono e scrivono file PDF senza pagare i diritti alla Adobe Systems), ma dal quale può essere molto difficile estrarre dati ben organizzati. Alcuni esempi di ottimi formati machine-readable (ed aperti) sono l'XML e il CSV (Comma Separated Value).

Inoltre, esperienze concrete suggeriscono che qualora la distribuzione dei dati su Internet avvenga attraverso protocolli di rete, anche questi siano aperti: esempi possono essere HTTP, FTP, WEBDAV e Torrent (si vedano in questo senso le Linee guida per il riutilizzo e la diffusione dei dati pubblici adottate dalla Provincia Autonoma di Trento).

In estrema sintesi: l'apertura di un dato in senso tecnico riguarda il formato e il protocollo con cui questo è diffuso; a ciò si deve aggiungere il profilo giuridico che coinvolge la licenza con cui è condiviso.

Quando un dataset raggiunge il livello delle tre stelle, ci si trova davanti alla minima buona pratica di Open Data in senso tecnico.


I Linked Data

Grazie all'impetuoso e inarrestabile accumulo di immagini, testi e contenuti multimediali, il world wide web che utilizziamo oggi è uno strumento dai benefici inconfutabili, atto a veicolare informazioni eterogenee e definibile come il più vasto archivio della conoscenza umana.

Sino ad ora, è stato costruito su macchine sempre più potenti, ma il cui vero potenziale è ancora poco sfruttato. L'informazione condivisa al suo interno è costituita da documenti complessi intrecciati tra loro mediante collegamenti ipertestuali.

Il Web of Data

Chiamando di nuovo in causa Tim Berners-Lee, “per un computer, il Web è un mondo noioso, piatto, privo di significato” (citazione originale: "To a computer, then, the web is a flat, boring world devoid of meaning", WWW Plenary Meeting, Ginevra, 1994). Un file CSV condiviso nel Web può infatti essere molto utile, ma non è altro che una monade isolata e priva di semantica, soprattutto se processato automaticamente da una macchina.

La nuova sfida si chiama “Web of Data”, o più esattamente “web semantico”, evoluzione del “web of documents”, e consiste nel processo volto a strutturare i contenuti messi a disposizione sul web, arricchendoli della loro connotazione semantica e collegandoli con altre informazioni, al fine di creare nuova conoscenza. Nel “Web of data” Berners-Lee aspira che “i computer diventino in grado di analizzare tutti i dati sul Web - il contenuto, i link, e le transazioni tra le persone e computer” (da “Weaving the web” di Berners-Lee e Fischetti, HarperSanFrancisco, 1999, ISBN 9780062515872). Per ottenere ciò non basta che i formati sul web siano “machine-readable”: occorre che siano “machine-comprehensable”.

Secondo Berners-Lee quindi, ma anche secondo la maggior parte dei commentatori ed esperti del settore, i dati aperti generano il loro vero valore quando sono accompagnati da semantica e sono collegati tra loro, ovvero quando sono anche “linked data”: la loro utilità aumenta sensibilmente quando diversi insiemi di dati, prodotti e pubblicati in modo indipendente da diversi soggetti, possono essere incrociati liberamente anche da terze parti. Il Web of Data pertanto rappresenta una estensione e un miglioramento della rete esistente.

La filosofia dei Linked Data dimostra come la conoscenza sia un fattore incrementale e condiviso, e che derivi da quella “intelligenza collettiva” che il Web, fin da principio si prefiggeva di abilitare. Questa è la direzione verso cui l'intero Web si sta dirigendo: da uno spazio globale di informazione costruito da documenti granitici ad uno scenario in cui documenti e dati sono collegati tra loro in una dimensione strutturale e partecipata.


La quinta stella

I dati aperti, connotati del significato semantico e connessi tra loro, Linked Open Data, sono certamente più impegnativi da mettere a disposizione rispetto ai dati “così come sono”, ma rispettare alcune semplici norme di comportamento potrebbe permettere un enorme salto di qualità per i riutilizzatori.

URL stabili

Come già introdotto sopra, il riutilizzo è facilitato dal collegamento dei dati tra loro, stabilendo un link diretto se e quando i dati (eventualmente provenienti da diverse sorgenti) si riferiscono a oggetti identici o comunque relazionati tra loro. Usare a questo scopo gli standard riconosciuti, accettati e condivisi del W3C, l'ente di certificazione del web, permette di abilitare il modello a quattro stelle: URI, RDF e SPARQL.

Questo approccio è teso a spostare l'attenzione dal dato in quanto tale all'entità a cui il dato si riferisce, cioè all'oggetto fisico, astratto o digitale che il dato rappresenta.

Dati collegati

La quinta stella si raggiunge quando dataset rispondenti al modello a 4 stelle, che richiede l’adozione di URI, RDF e SPARQL, sono collegati a dataset di altre organizzazioni, che adottano la medesima tecnologia. Questo permette di raggiungere un miglioramento a due dimensioni nella conoscenza resa disponibile sul web: orizzontalmente, il dato è connesso ad altri dati che si riferiscono ad entità simili per tipologia e contesto; verticalmente, si aumenta la quantità di dati che descrivono la medesima entità.

Per chiarire meglio le due dimensioni, supponiamo di avere, da una parte, amministrazioni locali che pubblicano dati aperti relativi ai monumenti storici e agli hotel che si trovano nelle vicinanze di quei monumenti; dall’altra, Sovrintendenze ai beni culturali che pubblicano dati dettagliati sui monumenti, gli artisti e i periodi storici, e sui quadri esposti nei musei o nei palazzi.

Considerando, invece, la dimensione verticale del collegamento dei dati possiamo immaginare che più dataset relativi alla medesima opera d'arte siano rilasciati da diverse strutture pubbliche e private. Le Sovrintendenze, ad esempio, condividono alcuni dati relativi allo stato di conservazione dell'opera, mentre la storia, le informazioni sull'autore e l'anno di produzione sono collezionate da Wikipedia (o dal suo corrispondente già in formato “linked”, DBPedia).

Tutti questi dati, una volta connessi tra loro e aggregati intorno alla medesima entità, permettono di aumentare esponenzialmente la quantità di informazioni che un utente può navigare e riutilizzare, ma soprattutto la disponibilità delle ontologie che accompagnano i dati e quindi abilita la loro portata semantica, ne consente il riuso anche da parte di applicazioni e sistemi. Combinare tutti questi dataset potrebbe essere di grande utilità per l'imprenditoria locale che, ad esempio, potrebbe costruire applicazioni per offrire un servizio personalizzato sugli itinerari turistici in base agli interessi culturali specifici dell'utente.

Al fine del “collegamento” dei dati va sottolineato l’aspetto assolutamente centrale dell’utilizzo di rappresentazioni del dominio (ontologie) che esplicitino, in modo formalizzato, la semantica dei dati pubblicati. Solo in questo modo si potranno utilizzare tali informazioni per collegare dati che assumono, in contesti diversi, lo stesso significato.

In conclusione, possiamo definire i Linked Open Data come un insieme di principi, tecnologie e buone pratiche per connettere tra loro dati strutturati nel Web, resi machine-readable, in cui i collegamenti e le relazioni tra le entità descritte nei dataset sono resi espliciti e le informazioni relative alla medesima entità sono collezionate in modo collaborativo, e resi inoltre machine-comprehensible attraverso l’esposizione di ontologie che ne esplicitano il livello semantico, consentendo l’arricchimento della conoscenza attraverso meccanismi inferenziali.

Il paradigma Linked Open Data mira, dunque, alla creazione di una “nuvola” definita “linked open data cloud” che sostituisce la miriade di isole di repository e dataset esistenti con un singolo gigante aggregato di conoscenza distribuita in continuo movimento ed evoluzione. Nel lungo periodo, questo approccio cooperativo permetterà di trasformare il Web in uno spazio distribuito di entità che ogni persona, amministrazione o azienda potrà contribuire a migliorare, con l'obiettivo di aumentarne l'informatività e la qualità.

Seguire l'approccio fin qui delineato offre sicuri benefici per utenti e sviluppatori. Gli utenti potranno navigare tra entità specifiche in modo più semplice rispetto ad inviare complesse interrogazioni a grandi database. Allo stesso modo, gli sviluppatori potranno investire meno tempo nella pulizia, nella bonifica e nel collegamento dei dati e potranno concentrarsi sul miglioramento dell'idea e del servizio offerto.


Le tecnologie in gioco
URI e HTTP

Per realizzare il web semantico e raggiungere il livello “5 stars” dello schema di rating degli Open Data, è necessario seguire le regole stabilite dal W3C:


• usare URI per identificare le risorse pubblicate,

• usare il protocollo HTTP per “raggiungere” quelle risorse sul web,

• usare gli standard RDF e SPARQL per descrivere le risorse ed interrogarle,

• includere collegamenti ad altre URI per accrescere il patrimonio di conoscenza iniziale.


Gli URI (Uniform Resource Identifiers) sono identificatori univoci per gli “oggetti” presenti sul web ed hanno lo scopo di disambiguare il significato delle risorse. In particolare, La locuzione Uniform Resource Identifier (in acronimo URI) in informatica, si riferisce a una stringa che identifica univocamente una risorsa generica, come ad esempio un indirizzo Web, un documento, un'immagine, un file, un servizio, un indirizzo di posta elettronica. La disambiguazione (in inglese Word Sense Disambiguation o, abbreviato, WSD) è l'operazione con la quale si precisa il significato di una parola o di un insieme di parole (frase), che denotano significati diversi a seconda dei contesti e che quindi sono ambigue..

Un tipo particolare di URI, molto utilizzato, sono gli URL (Uniform Resource Locator), familiari a chiunque usi il Web, che sono gli indirizzi che compaiono nella barra di navigazione del browser e cominciano con “http://”. Il protocollo HTTP (HyperText Transfer Protocol) permette di raggiungere le risorse tramite la rete internet in modo semplice.

RDF

Gli indirizzi URI e il protocollo HTTP sono funzionali ad una terza tecnologia fondamentale per il Web of Data: RDF (Resource Description Framework). Questo strumento è il principale standard di riferimento per la modellazione, la codifica, lo scambio e il riutilizzo di dati collegati in modo da essere massimamente interoperabili. Non si tratta propriamente di un formato di dati, bensì di un formalismo per rappresentare dati – un “data model” – basato sul concetto di tripla. Le triple RDF sono asserzioni rappresentabili anche in forma di grafo, composte da soggetto, predicato e oggetto. Attraverso le triple RDF si rappresentano le risorse, le loro classi e proprietà e i rispettivi valori. Ad esempio, una tripla RDF può definire che il quadro "Primavera" (soggetto) è dipinto (predicato) dal pittore "Botticelli" (oggetto) (livello estensionale). Soggetto ed oggetto della tripla sono entrambi URIs che identificano due risorse. Il predicato descrive come soggetto e oggetto sono connessi ed anch'esso un URI. Al tempo stesso una tripla RDF può asserire che i “pittori” “dipingono” i “quadri” (livello intenzionale). Parimenti, con una tripla RDF si asserisce che “Botticelli” è un “pittore”.

L'esempio appena portato è solo uno degli scenari possibili in cui i Linked Open Data possono favorire l'interoperabilità e l'aggregazione tra dataset. Le possibilità sono infinite se pensiamo alla vasta quantità di Linked Open Data già presenti sul Web.

DBPedia.org, per esempio, espone una grande porzione di dati di Wikipedia.org come Linked Open Data. Esiste anche it.dbpedia.org, che raccoglie e struttura dati provenienti dalle pagine Wikipedia in italiano. Geonames.org offre descrizioni RDF di entità geografiche. Linkeddata.org fornisce un quadro dello stato corrente della “Linked data cloud”, e mostra un ecosistema di database interconnessi in rapida crescita.

Ciascuno di questi database fornisce dati che possono essere linkati e che possono aggiungere valore ad altri e nuovi dati.

Proviamo a trasformare un dato strutturato tabellare in triple RDF, riferendoci alla versione italia di DBPedia.org.

Dato strutturato:

Attributo Valore
Autore Sandro Botticelli
Luogo di conservazione Galleria degli Uffizi

Triple RDF:
Soggetto: http://it.dbpedia.org/resource/Primavera_(Botticelli)
Predicato: http://it.dbpedia.org/ontology/author
Oggetto: http://it.dbpedia.org/resource/Sandro_Botticelli

Soggetto: http://it.dbpedia.org/resource/Primavera_(Botticelli)
Predicato: http://it.dbpedia.org/ontology/location
Oggetto: http://it.dbpedia.org/resource/Galleria_degli_Uffizi


I Linked Open Data presuppongono formati e modelli standard, interoperabili, machine-readable e ontologie di riferimento, al fine di rendere possibile la massima integrazione tra fonti diverse di conoscenza. Per fare ciò servono standard, non necessariamente imposti centralmente, ma comunque condivisi o realizzati in modo tale da miminizzare gli sforzi per raggiungere l'interoperabilità anche nella definizione delle ontologie e dei vocabolari di riferimento.

SPARQL

SPARQL, acronimo di SPARQL Protocol and RDF Query Language, è un linguaggio di interrogazione e un protocollo per i dati rappresentati con RDF. Le query SPARQL, molto simili a quelle SQL, sono inviate da un client ad un server (l’endpoint SPARQL) usando il protocollo http. L’interazione tra client ed endpoint avviene attraverso una pagina web che contiene un form dove poter scrivere le query e lanciarle. Il risultato di una query può avere diversi output, quali ad esempio HTML, CSV, JSON, RDF/XML, TURTLE.

Vocabolari

Gli strumenti necessari sono chiamati “vocabolari”: come nel mondo analogico, si tratta di collezioni di termini e delle relative definizioni pensati per risolvere l'ambiguità tipica del linguaggio naturale. Definire la terminologia con cui si individuano classi di entità e le proprietà delle stesse aiuta ad aggregare i dati in modo preciso. Condividere, utilizzare e continuamente migliorare vocabolari comuni permette di rendere interoperabili tra loro i datasets: si tratta di un passaggio sempre più necessario per riuscire ad aggregare - e dunque estrarre valore - dai datasets condivisi nel mondo aperto del web.

Gli strumenti tecnici che permettono di creare questi vocabolari sono RDFs (Resource Description Framework Schema) e OWL (Web Ontology Language).

Ontologie e OWL

L’ontologia è una rappresentazione condivisa ed esplicita di un dominio di interesse. A differenza di vocabolari, le ontologie consentono di esprimere con maggior dettaglio le relazioni presenti tra le entità che costituiscono il dominio e i vincoli che queste devono soddisfare. Le ontologie meglio si prestano a descrivere i domini applicativi dai quali sono tratti i dati. Il linguaggio utilizzato per descrivere le ontologie è principalmente OWL (Web Ontology Language) poiché offre una espressività migliore rispetto a RDF.

La costruzione delle ontologie richiede una buona capacità di modellazione, cioè di rappresentazione logica, da parte dell’esperto di dominio. Tramite essa si attribuisce un significato univoco alle informazioni descritte. Poiché tali informazioni potranno poi essere riprese e collegate da altre organizzazioni è di tutta evidenza quanto la stabilità, la coerenza e la credibilità di tali schemi costituisca un valore che può determinare il successo o l’insuccesso del dataset all’interno della nuvola. Di nuovo: l’utilizzo di schemi concettuali condivisi e affermati facilità l’assolvimento di tali requisiti rendendo la fase di concettualizzazione del dominio un sicuro punto cruciale nella costruzione della catena del valore legata al dato.

Dublin Core, Friend Of A Friend e Schema.org sono gli standard più conosciuti ed utilizzati.

Infine, val la pena mettere in guardia contro la chimera rappresentata dal “progetto perfetto”. Quando è possibile collegare i propri dati a semplici dizionari standard di riferimento come quelli menzionati sopra, è sicuramente opportuno farlo. Lo stesso vale per l'uso di metadati che rappresentino lo standard in un certo settore scientifico o disciplinare (ad es. lo standard SDMX nel campo dei dati statistici). Ma sarebbe alquanto pericoloso e controproducente ritardare la messa a disposizione di alcuni dati, attendendo di aver individuato gli standard di riferimento ideali per “linkarli” in modo opportuno.

Allo stesso modo, l'esperienza di molti informatici che hanno avuto modo di collaborare con le pubbliche amministrazioni pare concorde nel mettere in guardia rispetto a progetti che puntino a realizzare “ontologie” della PA capaci di rappresentare in modo standard ed esaustivo la pletora di complesse attività, ruoli ed entità che le PA trattano o con cui entrano in contatto.

Un'ottima analisi delle tecnologie e dei progetti che hanno iniziato a sperimentarne i benefici è stata realizzata dall'Agenzia per l'Italia Digitale nel contesto delle già citate Linee guida per l'interoperabilità semantica attraverso i linked open data.

Triplestore

Il processo di trasformazione dei propri dati in triple RDF definisce uno o più grafi di relazioni tra entità, che vengono poi inseriti in un triplestore ovvero un repository specifico per la memorizzazione e la ricerca di dati RDF. Per interrogare i dati inseriti nel triplestore, viene fornito un endpoint SPARQL, ovvero un indirizzo web dove poter effettuare le query SPARQL. Questo strumento permette anche di interrogare contemporaneamente diversi triplestore non formalmente collegati tra loro, estraendo così informazioni da diversi archivi condivisi nel web. Anche qui è necessario un avvertimento: l'accesso tramite endpoint SPARQL è necessario, ma non dovrebbe essere l'unico metodo di fruizione e consumo dei dati in quanto – per funzionare correttamente - richiede un certo livello di conoscenze tecniche. E' quindi sempre opportuno affiancare a questo strumento tecnico, una forma di visualizzazione grafica delle triple RDF pubblicate. Due buoni esempi sono LodLive e RelFinder.


Piattaforme Open Data

L'obiettivo dell'"Open by design"
L'Open by Design

In relazione ai processi di apertura di dati delle PA, numerosi addetti ai lavori, ma anche semplici osservatori, menzionano quale principio ordinatore da perseguire il cosiddetto "Open by design", ossia l'insieme di meccanismi e protocolli da applicare a un sistema informativo volti ad assicurare la disponibilità - in automatico e senza la necessità di interventi ad hoc - dei dati pubblici per il loro libero riutilizzo. Tali meccanismi riguardano, di fatto, tutti gli aspetti della catena di generazione, archiviazione, aggiornamento e rilascio dei dati che una PA si trova a dover gestire nell'ambito del suo mandato; così da raggiungere l'obiettivo di avere dati "nativamente" aperti, ossia entro un modello di governo che preveda che l'informazione gestita da una PA sia sempre accessibile - eventualmente con diversi livelli di privilegio a seconda del tipo di soggetto - e non secondo rilasci discrezionali e a frequenza variabile (e/o non dichiarata). In quest'ottica, da un lato, è necessario un ripensamento degli stessi sistemi informativi interni delle PA, nell'ottica di concepire l'apertura come un aspetto cardine del più ampio ciclo di vita del dato. Ad esempio, si pensi al fatto che gli stessi flussi informativi delle PA (e, in generale, delle grandi organizzazioni) sono spesso compartimentati, e il più delle volte sono "verticali" (ossia, tra i diversi livelli gerarchici di un medesimo dipartimento / ufficio) piuttosto che "orizzontali" (ossia, tra due differenti divisioni della medesima PA). Dall'altro lato, considerando il rapporto tra le PA e riutilizzatori esterni, il concetto sopra espresso pare in linea con l'adozione, tra l'altro, di una politica tecnologica evoluta per la messa a disposizione in via automatizzata degli insiemi informativi, secondo un approccio del tipo "Everything should be an API".

Criteri e funzionalità
Piattaforme software per gli open data

Ridisegnare in ottica "aperta" i flussi informativi di una PA rappresenta, per la sua complessità, un obiettivo ragionevole a medio/lungo termine. Nel breve termine, è invece alla portata di ogni amministrazione volenterosa dotarsi di efficaci strumenti per l'esposizione di dati aperti. Nella pratica, si tratta di strumenti software (adattabili a seconda delle necessità) che consentono di interagire con i sistemi informativi interni, estrarre informazione (ad esempio, interrogando un database) secondo regole di ingaggio e livelli di automazione stabiliti, e pubblicare i relativi dati, tipicamente mediante un front-end dedicato.

In particolare, possibili insiemi di funzionalità (o criteri funzionali) utili per valutare le caratteristiche di una piattaforma software per la pubblicazione di dati aperti sono i seguenti:

  • il processo che consente la pubblicazione dei dati, ad esempio:
    • l'esistenza o meno di un collegamento automatizzato con i database di applicazioni in uso interno alla PA;
    • l'uso di Application Programming Interfaces (API) per la trasformazione -ad es., in termini di formato- dei dati, e il loro riutilizzo;
    • l'impiego di metadati standard;
    • l'accoppiamento con un front-end / portale;
  • le tipologie standard di dati che la piattaforma consente di pubblicare, ad esempio:
    • dati in tempo reale, o comunque ad alta frequenza di aggiornamento;
    • dati geospaziali, e dati geo-riferibili;
    • linked data;
  • l'architettura della piattaforma, e altre caratteristiche generali come:
    • il tipo di licenza associata, free/open-source, o proprietaria;
    • (collegato al punto precedente) il grado di adattabilità / personalizzazione;
    • l'eventuale disponibilità in cloud;
  • altri aspetti, ad esempio
    • la possibilità, per gli utenti, di generare e condividere versioni aggiornate (ad es., corrette, arricchite, ecc.) dei dataset;
    • la disponibilità di un servizio di assistenza per gli utenti.
Alcune soluzioni esistenti

Tra le soluzioni esistenti, è possibile citare:

  • piattaforme open-source, come ad esempio:
    • il Comprehensive Knowledge Archive Network (CKAN),sviluppata dalla Open Knowledge Foundation, che viene usato, tra l'altro, come back-end per il portale di dati aperti del Regno Unito http://data.gov.uk/. Il Comprehensive Knowledge Archive Network (CKAN) è una sistema open source e basato sul web per l'immagazzinamento, la catalogazione e la distribuzione di dati, quali ad esempio fogli di calcolo o contenuti di database.;
    • NuData, lanciata a giugno 2014, disponibile in cloud modalità SaaS (Software as a service);
  • piattaforme proprietarie, come ad esempio:
  • piattaforme create nell'ambito di progetti europei, e rilasciate in open-source, come ad esempio:
    • ENGAGE, specificamente progettata per l'esposizione di dati scientifici e risultati della ricerca;
    • Open-DAI, che integra vari moduli open-source per l'estrazione e rilascio in tempo reale di dati.
La scelta di una piattaforma (o di singoli moduli)
Disponibilità del sorgente e altre caratteristiche funzionali

Una prima distinzione possibile tra le piattaforme riguarda, da un lato, la disponibilità o meno del codice sorgente. Ciò non contribuisce a determinare la natura "commerciale" in senso lato della piattaforma (in particolare poiché, nel caso open-source, è solo il mero codice sorgente a essere disponibile senza vincoli, mentre usufruire di eventuali servizi aggiuntivi/complementari è tipicamente a pagamento). Piuttosto, questo aspetto può rendere più o meno facile la personalizzazione del software, e l'integrazione con altri moduli al fine di conseguire finalità specifiche. La scelta dipende anche dalla valutazione del Total Cost of Ownership legato all'adozione di una piattaforma, che è a sua volta funzione di numerosi parametri, non solo relativi al costo diretto (monetario) di adozione. In quest'ottica va comunque ricordato che l'art. 68 del Codice dell'Amministrazione Digitale prevede che un'amministrazione effettui un'analisi comparativa delle soluzioni secondo i principi di economicità e di efficienza, tutela degli investimenti, riuso e neutralità tecnologica, a parità di condizioni economiche, funzionali e relative alle garanzie del fornitore, riutilizzando soluzioni già disponibili all'interno della PA, raccolte dall'Agenzia per l'Italia Digitale in un catalogo nazionale.

Altri importanti fattori sono le caratteristiche funzionali - i cui "pesi" relativi dipendono in larga parte dalle necessità della singola Pubblica Amministrazione - quali ad esempio:

  • l'erogazione del servizio in cloud, e/o in locale (con pro e contro ampiamente dibattuti);
  • le modalità di estrazione / copia dei dati dai propri sistemi interni, ai fini di una loro esposizione: questa può avvenire tipicamente mediante API (quindi in modo automatizzato), ma anche per tramite connettori standard, garantendo un collegamento in tempo reale (è il caso di Open-DAI che utilizza at tale fine Teiid);
  • la possibilità di federazione tra diversi cataloghi, come ad esempio nel caso di CKAN;
  • le varie possibilità di manipolazione dei dati per l'utente, come la navigazione al livello del singolo dato, o l'abilitazione alla creazione di elaborazioni personalizzate;
  • l'integrazione con un front-end: nel caso di Socrata, questa avviene nativamente (il che ha pro -facilità d'uso- e contro -minore capacità di personalizzazione-, a seconda degli obiettivi).

In linea generale, è opportuno segnalare che l'adozione di piattaforme che integrano più moduli e funzionalità non è, di per sé, l'unica possibilità. Di fatto, è possibile -e probabilmente consigliabile- valutare caso per caso anche l'impiego di singoli tool, in particolare open-source. Naturalmente, molto dipende non solo dalle necessità della singola amministrazione, ma anche dalla sua capacità di gestire l'interoperabilità con i propri sistemi interni (e dagli eventuali vincoli che questi pongono). Moduli specifici vanno, ad esempio, dai connettori per l'estrazione di dati dai database legacy (come il già citato Teiid) ai software per la creazione e gestione API (come quello fornito da WS02), fino a strumenti per la verifica e il miglioramento della qualità dei dati (come OpenRefine). Nel caso dell'esposizione di dati linked, alcune delle piattaforme summenzionate abilitano tale processo, ma è anche possibile dotarsi, "semplicemente", di strumenti ad hoc, ossia, come configurazione di base, un triple store RDF, un endpoint SPARQL, con l'accortezza di adottare opportuni strumenti a corredo, ad esempio per la riconciliazione tra ontologie.

"Raw data now"?
"Raw Data Now!" e basi dati complesse

La breve analisi qui presentata si collega a una questione più ampia, di natura quasi filosofica, relativa al confine del mandato pubblico, e in particolare in ordine alla distinzione tra i compiti di chi espone di dati e quelli di soggetti esterni interessati a riutilizzarli. Da un punto di vista generale, pare auspicabile che le PA si dedichino esclusivamente a mettere a disposizione i propri dati in modo tale da garantire che accesso ed elaborazione siano il più possibile agevoli, evitando manipolazioni ex-ante che comportino il rischio di ridurre il potenziale informativo dei dati, nonché la loro collegabilità ad altre fonti. Si tratta, in termini più diretti, del concetto di "Raw data now" più volte dibattuto nell'ambito della comunità Open Data. Nel caso di basi di dati complesse (si pensi, come semplici esempi, ai dati di spesa, ai bilanci, o anche agli stessi atti parlamentari), non si può ignorare esista un "divario cognitivo" tra i detentori originali dei dati, in questo caso una PA, e potenziali riutilizzatori. Senza una adeguata contestualizzazione, questi ultimi rischiano di non avere sufficienti strumenti interpretativi per cimentarsi in elaborazioni fruttuose. Esempi di questo tipo sono riscontrabili anche in ambito "linked data", nei quali la navigazione stessa dei dati (del loro grafo) rappresenta uno strumento per comprenderne la struttura e individuare opportunità di interrogazione e collegamento. Non a caso, le stesse PA che espongono dati linked tipicamente descrivono query standard che possano fungere da esempio. Nell'ottica di ridurre l'asimmetria informativa tra PA e riutilizzatori, può rivelarsi strategico l'intervento di intermediari appartenenti alla società civile dotati di specifiche conoscenze di dominio (nonché tecnologiche), con il vantaggio di agevolare il riutilizzo dei dati senza tuttavia circoscrivere alla fonte i potenziali scopi ed esiti del riutilizzo.

Approfondimenti utili

Un'ampia discussione in merito alle possibili funzionalità di piattaforme per l'esposizione di dati aperti è presente in Zuiderwijk, A., Janssen, M., & Jeffery, K. (2013, May). Towards an e-infrastructure to support the provision and use of open data. In Conference for E-Democracy and Open Governement (p. 259). Di interesse, nel medesimo filone, Zuiderwijk, A., Janssen, M., Choenni, S., Meijer, R., & Sheikh_Alibaks, R. (2012). Socio-technical impediments of open data. Electronic Journal of e-Government, 10(2), 156-172.

Un primo tentativo di confronto tra alcune delle summenzionate piattaforme (CKAN, Socrata, Open-DAI, ENGAGE) è presente in un articolo presentato da R. Iemma, F. Morando e M. Osella alla International Conference for E-Democracy and Open Government 2014 (e vincitore del "Best paper" award), disponibile all'indirizzo http://nexa.polito.it/iemma2014open. Un tentativo di maggiore formalizzazione di tale confronto (estraendo requisiti da documenti di policy) è disponibile nella wiki semantica, in via di popolamento, disponibile all'indirizzo https://opendataplatforms.nexacenter.org/.


Licenziare i dati

I diritti di proprietà intellettuale sui dati

Nella maggior parte dei casi è ragionevole presumere che su una banca di dati possano insistere alcuni diritti di proprietà intellettuale (in primis, il diritto d'autore e il diritto sui generis) e che sia necessario ottenere l'autorizzazione del titolare dei diritti per compiere la maggior parte delle operazioni di riutilizzo (estrazione di dati, riproduzione, aggiornamento, creazione di nuove banche dati che ne combinino di preesistenti, etc.). Di regola, il fatto che tali atti siano compiuti per fini non commerciali non legittima l'utilizzazione (il che vale in generale per tutti i materiali protetti diritto d'autore e dunque anche nel caso delle banche dati). In altre parole, il modello in cui ricadono automaticamente le banche di dati è quello “Tutti i diritti riservati”.

Aspetti di proprietà intellettuale

Pertanto, in considerazione dell'esclusività di tali diritti - che li rende non esercitabili da soggetti terzi in assenza di un'autorizzazione da parte del relativo titolare - diventa necessario porsi due domande: 1) può l'ente pubblico disporre legalmente dei dati in questione, usandoli liberamente ed eventualmente anche ri-licenziandoli come ritiene opportuno? 2) Se sì, com'è opportuno che l'ente si comporti nel gestire i propri diritti?

La prima domanda riguarda la cosiddetta rights clearance e rientra tra quelle questioni tecnico-giuridiche che rendono assai opportuna la presenza di un giurista nella squadra operativa del proprio progetto open data. Per analizzare lo status giuridico di un database, sarà necessario rispondere a quesiti del tipo: da dove vengono i dati? Chi li ha raccolti? Con quali risorse? Ci sono (stati) contratti di qualche tipo che regola(va)no l'attività di raccolta e/o l'uso dei dati stessi? Inoltre, sarà opportuno chiedersi: parte di questi dati sono personali? O addirittura sensibili? Ci possono essere segreti aziendali od altri diritti di proprietà intellettuale di terzi?. Ad una prima approssimazione, si può ritenere che l'ente pubblico disponga dei diritti necessari nel caso in cui la banca dati sia stata creata da propri dipendenti, con fondi dell'ente stesso.

Circa la seconda domanda; come abbiamo accennato, lo scenario base individuato dalla legge italiana sulla proprietà intellettuale e quello del “Tutti i diritti riservati”. In altre parole, in assenza di un'esplicita autorizzazione non sarebbe possibile impiegare i dati; al massimo, è permesso consultarli laddove reperibili online. Ovviamente, qualcuno potrebbe decidere di usare comunque i dati (anche perché potrebbe non essere a conoscenza del quadro giuridico che si è descritto); pertanto, se l'obiettivo di un ente pubblico è quello di aumentare in modo significativo l'uso delle risorse informative che possiede e dato che l'incertezza sul regime giuridico adottato sui dati rischia facilmente di scoraggiarne il riutilizzo, è sempre opportuno associare ai dati un'esplicita licenza (o almeno una liberatoria, che espliciti la facoltà per chiunque di riutilizzare i dati liberamente). Inoltre, sebbene un detentore di diritti possa concedere (o negare) licenze caso per caso, eventualmente decidendo di realizzare una licenza apposita per ogni riutilizzatore, concedere molte autorizzazioni caso per caso sarebbe una pessima idea, perché oltre a scoraggiare i riutilizzatori richiederebbe risorse da parte del detentore dei diritti nella complessa attività di redazione della licenza, ad esempio.

Anche la presenza di termini per il riutilizzo poco chiari potrebbe avere effetti scoraggianti: se per capire cosa si possa davvero fare sui dati si rendesse ogni volta necessario consultare un avvocato, è molto probabile che un'ampia fetta di potenziali riutilizzatori semplicemente desista dall'impresa. È dunque utile adottare strumenti per ridurre i costi di transazione, ovvero i costi monetari, ma anche le perdite di tempo e l'incertezza, sia per i detentori dei dati, sia per i riutilizzatori; questi strumenti sono le licenze standard di diritto d'autore (e connessi).

Adottare una licenza aperta
Applicare una licenza


Una licenza è un documento che descrive quali, tra le attività normalmente riservate al detentore dei diritti (il licenziante), possano essere compiute da chi riceve i dati sotto i termini della licenza stessa (il licenziatario).

Condivisione allo stesso modo

Tipicamente, la licenza descrive alcune condizioni per godere dei diritti concessi. Coerentemente con la già discussa definizione di dati aperti, una licenza aperta non può essere associata a condizioni troppo vincolanti. La scelta è limitata a tre tipologie di licenze:

  1. quelle che non impongono alcuna condizione,
  2. quelle che impongono condizioni necessarie a documentare la provenienza del dataset, o, eventualmente,
  3. quelle che impongono condizioni necessarie a mantenere il dataset aperto.

Nella prima categoria rientrano varie forme di liberatorie e dediche al pubblico dominio. Tali strumenti sono pacificamente considerati idonei a rendere i dati "licenziati" aperti, a condizione che l'ordinamento giuridico consenta ai titolari una così ampia rinuncia ai loro diritti. Similmente, le condizioni legate alla documentazione della provenienza sono considerate accettabili dalla maggior parte della comunità dei dati aperti: in questo contesto, il titolare si limita a condizionare la licenza al riconoscimento di una specifica attribuzione/origine/fonte dei dati (ovviamente, con modalità che non traggano in inganno l'utilizzatore – ad esempio, un dataset modificato dovrà sempre essere identificato come tale e mai spacciato per l'originale). Al contrario, le condizioni necessarie a preservare l'apertura del dataset, in altre parole il requisito di condivisione allo stesso modo, presenta alcuni aspetti più complessi e delicati. Questa clausola (detta anche share-alike, copyleft o virale) consiste nell'obbligare il riutilizzatore a licenziare qualsiasi lavoro realizzato a partire dall'originale con la medesima licenza adottata per l'originale stesso (sicché chiunque altro resta a sua volta libero di apportare ulteriori modifiche e la catena di condivisione si prolunga, da cui il nome clausola virale). Per quel che riguarda i dati delle pubbliche amministrazioni, non tutta la comunità open data si trova d'accordo rispetto all'opportunità di assoggettare a questa clausola dati la cui creazione è stata già finanziata con denaro del contribuente.

Per applicare una licenza ad una base di dati distribuita online, la prassi è che basti indicare la licenza che si intende adottare nella pagina dalla quale si effettua il download; si noti che le licenze relative a diritti d'autore devono essere provate per iscritto, tuttavia, l'assenza di licenza equivale allo status “tutti i diritti riservati”, per cui un licenziatario che violi i termini della licenza indicata sul sito difficilmente potrà giovarsi del fatto che la licenza vada provata per iscritto. Questo aspetto, dunque, può essere ignorato, almeno in prima approssimazione. Esistono poi opportuni accorgimenti tecnici, per far sì che l'associazione tra un file e la licenza sia chiara anche alle macchine (quali, ad esempio, i motori di ricerca): il percorso guidato del license chooser (selettore di licenze) di Creative Commons fornisce automaticamente un brano di codice da inserire nelle proprie pagine web. Creative Commons ha inoltre sviluppato una specifica tecnica, CC REL, per descrivere le informazioni della licenza in formato RDF.