L’offerta di dati aperti parlamentari

Da dati.parlamento.

Indice

L’offerta di dati aperti parlamentari

Nel secondo capitolo dev'essere presente un'analisi delle informazioni che circolano nel contesto parlamentare e che potrebbe essere utile aprire (se non già aperte) come open data. Un valido aiuto potrebbe provenire dai paesi esteri: verificare quali dati sono stati aperti all'estero e attuare un'analisi comparativa con quanto fatto in Italia. Uno spunto potrebbe essere l'apertura di maggiori dati sul lavoro delle Commissioni (vedasi a riguardo “Parlamento Casa di vetro”).


Cosa si intende per Open Data parlamentari

Per poter dare una definizione di Open Data parlamentari occorre necessariamente adottare una convenzione, in quanto la conoscenza che viene gestita in un parlamento è di per sé difficilmente circoscrivibile entro limiti predeterminati. L’ambito delle materie oggetto di attività parlamentare – sia che si tratti di funzione legislativa, sia che si tratti di funzione di indirizzo e controllo – è estremamente ampio e potenzialmente illimitato, come è emerso anche dalla considerazione delle attività dei Servizi Studi della Camera e del Senato, cui competono le attività di studio e di indagine preliminare sulle materie oggetto dell’attività parlamentare, con funzione di supporto decisionale ai parlamentari.

Informazioni accumulate e prodotte in ambito parlamentare

Ciò premesso, convenzionalmente si circoscrive l’ambito degli Open Data parlamentari entro i confini del dominio informativo dato dalle informazioni accumulate e prodotte in ambito parlamentare, che sono sicuramente attinenti alla struttura dell’istituzione – ossia organi e persone di cui si compone - e alla sua attività – ossia articolazione dei lavori parlamentari e relativi prodotti – ma che si estende anche ad altri ambiti informativi strumentali, a supporto dell’attività parlamentare, ad essa contigui o riferiti ad ambiti gestionali della struttura amministrativa e delle sue funzioni. È questo effettivamente l’ambito informativo in cui attualmente non solo i due rami del parlamento italiano, ma anche i parlamenti esteri stanno concentrando la produzione di Open Data.

Tuttavia questa convenzione restrittiva, che focalizza l’ambito informativo alla struttura e all’attività del parlamento, sebbene già di per sé ha fatto sì che il contributo nella produzione di Open Data da parte del Parlamento italiano sia ad oggi considerevole (oltre 500 milioni di triple pubblicate dalla Camera dei deputati e oltre 30 milioni di triple pubblicate dal Senato), deve essere auspicabilmente estesa affinché la collettività possa giovarsi di tutta la conoscenza che viene gestita all’interno delle istituzioni parlamentari. Tutti i parlamenti quotidianamente producono e trattano enormi volumi di informazioni che, se messi a disposizione in Open Data, possono contribuire al coinvolgimento dei cittadini e alla conoscenza dell’attività parlamentare.

Lo scenario italiano

I dati prodotti, elaborati e gestiti dalla Camera dei deputati e dal Senato della Repubblica, che sono attualmente resi disponibili come Dati Aperti (http://dati.camera.it http://dati.senato.it) e quelli che potrebbero esserlo nel futuro più immediato.

Nella produzione di Open Data parlamentari è un fatto generalmente riconosciuto anche a livello internazionale che l’Italia si trovi in una situazione di avanguardia, accanto ad altri paesi, quali ad esempio il Canada o la Nuova Zelanda, pionieri in tema di Open Data parlamentari, anche rispetto ad altri paesi, quali gli USA e il Regno Unito.

Quantità dei dati e ontologie

La posizione di spicco è determinata non solo dalla quantità di dati che oggi sono prodotti, ma soprattutto dall’impiego di ontologie formali per descrivere il dominio informativo e dall’adozione di principi e modelli Linked Open Data, verso cui è stata orientata la scelta della soluzione tecnologica quando, nel 2011 e nel 2013 si è aperta la pubblicazione di Open Data parlamentari rispettivamente della Camera dei deputati e del Senato. Difatti, con la scelta di utilizzare gli standard aperti del W3C (RDF e SPARQL) e con la contestualizzazione dei dati attraverso link verso altri dati in rete, le istituzioni parlamentari italiane hanno recepito appieno le cinque indicazioni proposte da Berners-Lee col suo sistema di valutazione e si sono candidate per le cinque stelle corrispondenti al massimo livello.

L’ambito informativo coperto dagli Open Data parlamentari italiani è oggi estremamente ricco ed ampio. La massa di dati attualmente disponibile in rete, che conta oltre 530 milioni di triple RDF, si focalizza sulle informazioni relative alla struttura delle istituzioni e alla loro attività, ma si estende anche ad altri ambiti informativi contigui, come descritto successivamente. Inoltre, abbraccia un arco temporale che eccede la legislatura corrente e si estende indietro nel tempo fino al 1848, in modo da non rispondere solo agli obiettivi di trasparenza e controllo democratico dell’operato delle istituzioni, ma abilitando anche la globalizzazione della conoscenza storica, attraverso la diffusione in rete dell’immenso patrimonio di informazioni pregresse racchiuse negli archivi parlamentari.

I portali dati.camera.it e dati.senato.it

Agli Open Data parlamentari sono dedicati i due portali della Camera e del Senato, dati.camera.it e dati.senato.it, operativi rispettivamente dal 2011 e dal 2013. Si tratta di piattaforme di pubblicazione e condivisione di Linked Open Data che, sebbene con alcune differenze di impostazione, mettono entrambe a disposizione l’accesso agli endpoint SPARQL per la ricerca sui dati, esempi di query SPARQL predefinite, sezioni dedicate al salvataggio dei dataset in vari formati e materiale di supporto alla comprensione delle ontologie OCD e OSR. Inoltre dati.camera.it consente di utilizzare navigatori semantici, Lodlive e Lodview, per esplorare i dati in modo libero, fornisce un contatore dinamico alle triple che mano a mano vengono pubblicate sull’endpoint, presenta una sezione dedicata alle applicazioni realizzate sui Linked Open Data della Camera e uno spazio dedicato all’Hackathon Montecitorio, svolto nel 2014 per promuoverne il riutilizzo da parte della comunità degli sviluppatori. Dati.senato.it invece offre una interfaccia per definire i filtri da applicare ai fini del salvataggio selettivo dei dataset.

La situazione che si registra oggi non è certamente statica, bensì destinata ad evolvere rapidamente e si prevede che l’offerta di Open Data parlamentari proceda nelle direzioni di un accrescimento e di una diversificazione. La certezza di questa tendenza sta sicuramente nel fatto che il recupero dei dati e dei documenti storici è un processo ancora in atto, destinato a riversare in rete ulteriori masse di triple RDF che descrivano il parlamento italiano e la sua attività nel passato, ma soprattutto nella direzione delle scelte che guidano l’innovazione tecnologica delle istituzioni parlamentari italiane: l’adozione del paradigma Linked Open Data, infatti, non è solo un processo giustapposto alle tradizionali procedure di gestione dei dati dell’istituzione, ma è il principio a cui si ispirano i processi di innovazione interna, che trovano giovamento in termini di efficienza e interoperabilità dall’operare anche internamente e nativamente con informazioni rappresentate in RDF. Tutto ciò amplifica il potenziale di esposizione di Open Data parlamentari, in quanto è sufficiente far transitare i dati dall’endpoint SPARQL interno all’endpoint SPARQL esterno, per metterli a disposizione della collettività in Internet, senza bisogno di costruire processi che trasformano i dati delle sorgenti interne in Open Data. Un esempio di questa innovativa impostazione tecnologica è data dal sistema PAD (Piattaforma Aperta per la Documentazione), utilizzato dai Servizi di documentazione della Camera dei deputati e da diversi altri uffici.

Gli Open Data parlamentari sono disponibili con licenza aperta CC-BY 3.0, che consente di condividere (riprodurre e distribuire i dati con qualsiasi mezzo e formato) e adattare (modificare, trasformare il materiale e basarsi su di esso per trarne altre opere) per qualsiasi fine, anche commerciale, con l’unica condizione di attribuire la paternità dei dati alla fonte e indicare se sono state effettuate modifiche. Trovano l'unica eccezione a questa licenza alcuni dataset, quali quelli bibliografici pubblicati dalla Camera dei deputati, che adottano la licenza CC-BY-SA 3.0, richiedendo di condividerli allo stesso modo.

La roadmap verso i Linked Open Data parlamentari

Per comprendere la costruzione, l’evoluzione nel tempo e le prospettive degli Open Data parlamentari è utile ripercorrere i passi dall’origine fino ad oggi, rappresentati nella roadmap illustrata nell’immagine qui di seguito riportata.

[INSERIRE FIGURA] inserire figura ROADMAP [INSERIRE FIGURA] File:Roadmap LOD parlamentari.jpg

La scelta tecnologica, l’ontologia OCD e dati.camera.it

I primi passi verso la produzione di Open Data parlamentari in Italia risalgono al 2010, quando - in previsione delle celebrazioni dei 150 anni dell'unita' d'Italia - la Camera dei deputati ha rivisto complessivamente la gestione delle risorse informative storiche e ha avviato un intervento globale per unificare entro una struttura comune dati, informazioni, documenti digitali provenienti da applicazioni e sistemi differenti, costituita da un comune repository di Linked Open Data (quindi con il massimo livello di apertura dei dati), senza ricorrere a mediazioni tecnologiche, conformemente alle best practices introdotte dal W3C.

A tal fine si è proceduto innanzitutto alla formalizzazione di un’ontologia generale in grado di descrivere il dominio informativo parlamentare, i diversi concetti e oggetti che lo compongono, le relazioni tra le risorse informative, in modo da rappresentare l’articolazione e il funzionamento dell’istituzione anche con le sue particolarità e le sue evoluzioni nel tempo: dalle schede anagrafiche dei parlamentari fino alle composizioni di commissioni e gruppi parlamentari, dalla gestione degli slittamenti nei mandati parlamentari alle evoluzioni degli organi (cambi denominazioni, accorpamenti, scissioni, etc.), dai progetti di legge alle interrogazioni parlamentari, dalle legislature alle elezioni, descrivendo via via oltre 150 anni di storia parlamentare.

Ontologia Camera dei Deputati

La descrizione di questo insieme di risorse è rappresentata in un unico data model, identificato da uno specifico namespace, OCD (Ontologia Camera dei Deputati), una ontologia OWL (Ontology Web Language), il linguaggio per pubblicare e condividere ontologie promosso dal W3C, espresso in triple RDF. L’ontologia OCD, fortemente connotata in molti dei suoi elementi dal concetto di legislatura, che scandisce i tempi dell’attività parlamentare e contrassegna le strutture parlamentari, è stata rilasciata come vocabolario per la descrizione dei dataset della Camera dei deputati alla fine del 2011, quando è stato pubblicato il sito dati.camera.it, interamente dedicato agli Open Data, e il Portale Storico della Camera dei deputati (storia.camera.it), basato sui Linked Open Data delle 48 (oggi 49) legislature precedenti a quella corrente, che indicizza i contenuti del repository RDF offrendo funzionalità di accesso e navigazione. In questa prima versione gli Open Data parlamentari sono stati rilasciati con la licenza CC-BY-SA 3.0, richiedendo quindi di condividerli allo stesso modo, e lanciando sul sito dati.camera.it un invito al riutilizzo e alla realizzazione di applicazioni basate su di essi.

L’ontologia OCD è nata come uno strumento flessibile, pensato per descrivere le sfumature presenti in organizzazioni complesse come quella parlamentare, ma soprattutto è stata impostata come uno strumento estensibile, sia in verso verticale, per approfondire il dettaglio della rappresentazione di concetti anche solo accennati, sia in senso orizzontale, per ampliare la rappresentazione con concetti nuovi e nuove relazioni. Ed è proprio questa estensibilità che ha consentito le evoluzioni successive degli Open Data parlamentari e ha connotato le fasi successive della roadmap.

I Linked Open Data in ambito Intranet con PAD e il coinvolgimento del Senato

Il 2012, sebbene non abbia visto esposte sul web sostanziali novità in tema di Open Data parlamentari, è stato in realtà segnato da un intenso lavoro interno sul tema, tanto da parte della Camera dei deputati quanto da parte del Senato.

Sistema PAD

La Camera dei deputati si è infatti concentrata nello sperimentare l’adozione del paradigma Linked Open Data in ambito Intranet, raccogliendone indubbi vantaggi nell’incremento dell’efficienza interna, nella riduzione di costi e nel miglioramento dell’integrazione nella condivisione delle informazioni entro strutture complesse, quali quelle del settore della documentazione. Ne è nato in questo ambito e in questa fase il sistema PAD. In parallelo ha proseguito sulla medesima direttrice analizzando l’estensione verticale dei concetti dell’ontologia attinenti all’iter legislativo, in particolare applicati alle attività correnti, al fine di rendere la pubblicazione dei dati parlamentari più tempestiva, così da renderli disponibili appena possibile per preservarne il valore.

Ontologia Senato della Repubblica

In parallelo, il Senato ha avviato l’analisi dei concetti e degli oggetti che compongono il proprio dominio informativo, progettando quella che poi sarebbe stata annunciata e pubblicata nel successivo 2013: l’ontologia OSR (Ontologia Senato della Repubblica), una ontologia OWL (Ontology Web Language) affiancandosi e coordinandosi con l’ontologia OCD della Camera dei deputati.

L’estensione della ontologia OCD, l’ontologia OSR e dati.senato.it

Il lavoro interno svolto da entrambi i rami del parlamento ha prodotto nel 2013 diverse rilevanti novità nel campo degli Open Data parlamentari, che sono state annunciate in occasione dell’evento hub ODD13 (Open Data Day 2013), tenuto a Roma nel febbraio, e che sono state rese effettivamente disponibili in rete con la nuova legislatura – la XVII – a partire da marzo: la nuova versione dell’ontologia OCD, arricchita dei concetti descrittivi del dettaglio dell’iter legislativo, la pubblicazione in rete dei LOD della Camera dei deputati riferiti non più solo alle legislature storiche ma anche a quella corrente e aggiornati quotidianamente, e il nuovo sito dati.senato.it, con i Linked Open Data del Senato riferiti alla corrente legislatura, secondo la formalizzazione della ontologia OSR (Ontologia del Senato della Repubblica).

Gli Open Data su votazioni e dati bibliografici/documentali

Dati sulle votazioni in Aula

La produzione di Open Data parlamentari è successivamente proseguita nel 2014 – con la contestuale estensione dell’ontologia – nell’ambito delle votazioni in Assemblea di Montecitorio riferite a tre legislature oltre quella corrente, determinando una verticale crescita del quantitativo di triple disponibili al riuso, che sono passate da meno di 100 milioni a oltre 400 milioni. I dati raccolti dalla Camera dei deputati relativamente alle votazioni in Aula svolte con procedimento elettronico costituiscono una massa informativa ingente, intorno a cui si concentra l’attenzione pubblica e che organizzazioni che si occupano di monitoraggio dell’attività parlamentare – quali ad esempio Open Polis – hanno precedentemente acquisito attraverso operazioni manuali, quasi artigianali, di collezione dei dati dalle pagine del sito web. Questo metodo si è rivelato molto costoso e poco efficiente: una semplice modifica nel sito web avrebbe richiesto la rielaborazione dello strumento di collezione delle informazioni. La disponibilità di questi dati aperti ha rappresentato un passo importante nella direzione della trasparenza ed ha aperto la strada a nuovi modi, tecnologicamente più avanzati, di esercitare il controllo democratico dell’operato dei parlamentari.

Dati bibliografici

Nello stesso anno altre significative novità hanno interessato la produzione degli Open Data parlamentari: l’apertura di dati aperti in ambito bibliografico e documentale. Si tratta di un esempio tipico di estensione dei dati aperti prodotti dal parlamento ad ambiti informativi continui al dominio informativo “parlamentare” in senso stretto, come definito sopra. Un precedente analogo in realtà si era già verificato quando, nella costruzione del repository Linked Open Data su cui si è basata la pubblicazione del Portale Storico della Camera dei deputati, i dati relativi alla struttura amministrativa della Camera – con articolazione in Servizi e Uffici e relativi dirigenti che si sono succeduti nel tempo – e i dati relativi alla cronologia dei principali avvenimenti storici in ambito politico-istituzionale, socio-culturale e internazionale sono stati modellati e rappresentati come Linked Open Data, sebbene non direttamente esposti sul sito dati.camera.it. Si trattava quindi di dati non propriamente "parlamentari" in senso stretto.

La portata innovativa dell’adozione del paradigma Linked Open Data a informazioni di tipo bibliografico è stata oggetto di attenzione da parte della comunità dei bibliotecari, in particolare per la costruzione di un modello RDF basato sull’adozione di ontologie standard di riferimento per la rappresentazione dei dati, quali BIBO (Bibliographic Ontology), ISBD (International Standard Bibliographic Description) Ontology, DC (Dublin Core), e lo sperimentale utilizzo di interlinking con il catalogo internazionale delle voci controllate di autori VIAF (Virtual International Authority File) disponibile sul web in Linked Open Data e collegato a sua volta con numerosi dataset bibliografici in tutto il mondo.

In ambito documentale, sebbene l’endpoint di Linked Open Data interno sia ricco di dati RDF prodotti e utilizzati dai Servizi interni, sono stati resi disponibili i dati – in formato non RDF ma solo CSV - attinenti a due temi di attualità dell’attività parlamentare: i dati di simulazioni elettorali, derivanti dalla applicazione della nuova formula elettorale proposta dalla Commissione Affari costituzionali, approvata in Aula alla Camera il 12 marzo 2014, alle elezioni della Camera dei deputati del 2013, 2008 e 2006, e i dati dell'attività di monitoraggio sull'attuazione delle infrastrutture strategiche comprese nella "legge obiettivo" (n.443/2001).

Il riutilizzo degli Open Data parlamentari: l’Hackathon Montecitorio 2014

Una volta raggiunto un meccanismo di produzione a regime di una massa informativa di Open Data parlamentari ingente come quella pubblicata dal parlamento italiano, l’attenzione si è spostata sul valore aggiunto che questo sforzo intrapreso dalle istituzioni parlamentari italiane negli ultimi anni ha prodotto per la collettività, tenuto conto che tra gli obiettivi del progetto Open Data si contava di favorire il riutilizzo dei dati, la loro integrazione con altre risorse informative e la promozione di applicazioni web che potessero approfondire specifici aspetti a partire dagli Open Data parlamentari disponibili.

Sicuramente l’impegno profuso dalla Camera dei deputati e dal Senato nel campo degli Open Data ha creato valore in termini di trasparenza e ha contribuito a dare spicco alle istituzioni parlamentari italiane sia nel contesto parlamentare internazionale che nell’ambito del web dei dati e della Linked Open Data cloud.

Code4Italy@Montecitorio 2014

Tuttavia, la mancata risposta all’appello – presente sia su dati.camera.it che su dati.senato.it – a contribuire con lo sviluppo di applicazioni ha mosso le istituzioni parlamentari a ricercare nuovi mezzi per promuovere l’utilizzo dei Open Data parlamentari disponibili in rete. E’ così che ha avuto origine l’iniziativa – assolutamente priva di precedenti nel panorama parlamentare – di un Hackathon sugli Open Data parlamentari, organizzato presso la Camera dei deputati e svolto nel maggio del 2014. L’evento, aperto alla libera partecipazione previa registrazione on-line, si è articolato in una iniziale sessione di formazione, dedicata a chiunque fosse interessato a conoscere e lavorare sui dataset offerti dalla Camera dei deputati e dal Senato, con uno spazio per la presentazione di pitch (proposte) per la realizzazione di servizi ideati per la società civile al fine di comprendere meglio il mondo parlamentare, e in una successiva sessione operativa di 30 ore consecutive, svolta in forma competitiva e collaborativa, in cui i partecipanti hanno sviluppato applicazioni basate sugli Open Data parlamentari, utilizzando i propri dispositivi portatili e l’infrastruttura di collegamento wifi messa a disposizione dalla Camera dei deputati. È seguita una fase di valutazione delle numerose applicazioni realizzate, da parte di una Commissione giudicatrice appositamente costituita dal Comitato per la Comunicazione della Camera dei deputati che ha determinato una graduatoria pubblicata sul sito Internet della Camera dei deputati e ha individuato i primi tre progetti classificati meritevoli di premio, fino alla premiazione avvenuta con un evento del successivo mese di luglio.

L’iniziativa è stata una esperienza particolarmente utile sia per le istituzioni che per i partecipanti, in quanto è stata un'occasione di riscontro e di diffusione sull’attività di produzione degli Open Data parlamentari, dimostrando come la "apertura" dei dati parlamentari non sia soltanto una questione di licenze d’uso e di formati di dati, ma anche una questione di disponibilità all’incontro, al confronto e alla condivisione tra istituzioni parlamentari e collettività.


La Camera dei deputati

Introduzione

L’apertura e la trasparenza sono principi profondamente radicati nella cultura e nella storia della Camera dei deputati. Quando, l’8 maggio del 1848, due mesi dopo la promulgazione dello Statuto albertino, la Camera dei deputati si riunì per la prima volta a Torino, e si diede immediatamente un regolamento interno, fissò subito, in poche norme, le funzioni primarie della struttura amministrativa di supporto: la predisposizione del processo verbale e dei resoconti, la stampa degli atti parlamentari, la gestione della biblioteca e degli archivi di documentazione. Queste essenziali finalità di apertura, trasparenza e comunicazione dell’attività parlamentare sono state nel corso dei decenni declinate in vario modo, seguendo l’evoluzione delle tecnologie, fino all’odierno dati.camera.it.

I Linked Open Data oggi sono una realtà tecnologica ormai nota e la Camera dei deputati nella adozione di questi standard e tecnologie è generalmente riconosciuta come una istituzione che ha precorso i tempi non sono in ambito italiano ma anche a livello internazionale.

L’appello lanciato da Tim Berners-Lee dalla tribuna di TED nel 2009 - “Raw Data Now!” – è stato raccolto sollecitamente dalla Camera dei deputati, che ha deciso di adottare le tecnologie Linked Data, avviando già l’anno successivo i lavori per progettare l’ontologia dei dati parlamentari – da cui è nata OCD Ontologia Camera Deputati - e realizzando il portale dedicato ai propri Open Data dati.camera.it, contestualmente al Portale storico della Camera (storia.camera.it), una vera e propria "web app" unitaria, alimentata dal repository RDF attraverso il proprio Endpoint SPARQL, pubblicato alla fine del 2011, in occasione delle celebrazioni per i 150 anni dell’Unità d’Italia.

L'ontologia OCD Ontologia Camera deputati

L'ontologia OCD

Per la definizione dell’ontologia del dominio Camera è stata necessaria nonché proficua una stretta collaborazione tra gli esperti di dominio parlamentare e i tecnici esperti di tecnologie LOD. Ciò ha consentito di arrivare alla definizione di un modello astratto e allo stesso tempo efficace a rappresentare tutte le situazioni diverse che, come è possibile immaginare, si sono stratificate nel tempo. Se da una parte l’ontologia doveva essere in grado di rappresentare gli eventi “storici” delle prime legislature del Regno, doveva anche sostenere tutte le peculiarità degli eventi recenti, con tutta la granularità utile per produrre dataset consistenti, comprensibili da uomini e macchine e favorirne il riuso esterno.

Possiamo constatare oggi, a quasi quattro anni dalla nascita di OCD, che le tecnologie LOD hanno rappresentato un sistema molto efficace per la rappresentazione del modello di lavoro della Camera e grazie alla naturale “elasticità” insita in RDF e OWL è sempre molto attualizzabile e rimodulabile. Ad esempio, la prima versione dell’ontologia OCD non prevedeva la descrizione analitica dell’iter legislativo, mentre nella seconda versione pubblicata nel 2013 è stata aggiunta tutta la parte che modella l’iter parlamentare (dal punto di vista della Camera dei deputati) con tutti i riferimenti utili per analisi quantitative e qualitative dei processi.

Nella definizione delle classi e delle proprietà dell’ontologia si è cercato di riprodurre le caratteristiche tipiche di alcune situazioni e sono stati utilizzati nomi il più possibile parlanti, affinché l'utente finale potesse essere in grado di comprenderne la maggior parte e un utente esperto del dominio potesse esser in grado di comprendere i dati proposti nella loro interezza senza documentazione aggiuntiva. Per favorire la leggibilità, il riuso dei dati e l’apertura verso altre ontologie, si è provveduto ad assegnare a ciascuna classe e proprietà una etichetta, una descrizione e, laddove possibile, una definizione ufficiale tratta dal sito della Camera. In tutti i dataset le informazioni sono suddivise in una parte di metadati descrittivi delle risorse (rdfs:label, dc:title, dc:description, dc:date ad esempio) e un’altra di riferimenti a risorse interne al dominio o a risorse web. La classe “chiave” dell’ontologia è ocd:legislatura che è legata a quasi tutte le risorse rappresentate.

La seguente figura illustra i principali concetti della ontologia OCD.

[INSERIRE FIGURA OCD:JPG] File:OCD.jpg


Le ontologie importate nel modello OCD sono:

  • Dublin Core e Dublincore Terms per la descrizione dei metadati più comuni come il titolo, la descrizione, le date, i riferimenti bibliografici;
  • Organization Ontology per la descrizione generale dell’Istituzione Camera, recentissima raccomandazione del W3C;
  • Bio Ontology per la descrizione degli eventi biografici dei deputati;
  • SKOS per gli schemi di classificazione;
  • FOAF per i metadati descrittivi delle persone;

Un ulteriore lavoro preliminare alla predisposizione dell’ambiente è stata l’individuazione di griglie di classificazione e thesauri utilizzati all’interno del dominio (ad esempio titolari di classificazioni, soggettari, indici, rubriche) e la loro conversione in formato SKOS.

Il thesaurus è un elenco strutturato in cui le parole sono raggruppate per somiglianza semantica (contenente sinonimi e qualche volta antonimi); si differenzia dal dizionario che contiene definizioni e pronuncia. Secondo la definizione ISO il thesaurus è "un vocabolario di un linguaggio di indicizzazione controllato in maniera formalizzata in modo che le relazioni a priori tra i concetti sono rese esplicite" (ISO 2788-1986). Le relazioni tesaurali sono utilizzate per facilitare la navigazione nel thesauro agli utenti. Il thesauro inoltre si differenzia dall'ontologia, in quanto quest'ultima può contenere relazioni più complesse e una logica inferenziale inerente al modello.

SKOS (Simple Knolwedge Organization System) è un sublanguage di OWL e propone una serie di classi e proprietà di RDF e RDFS per rappresentare il contenuto e la struttura di base dei cosiddetti Concept-Scheme cioè thesauri, schemi di classificazione, tassonomie, terminologie, glossari e altri tipi di vocabolari.

La Skossification delle griglie di classificazione ha consentito di collegare l’ambiente LOD in modo trasversale così da favorire la ricerca delle informazioni all’interno dell’intera struttura e favorendo l’interoperabilità con altri sistemi di classificazione (ad esempio EUROVOC).

Il Portale Open Data dati.camera.it

Modalità di pubblicazione dei dati

Il Portale dati.camera.it, pubblicato nel 2011, è dedicato gli Open Data della Camera dei deputati. Risponde all’obiettivo di dare libero e completo accesso ai dataset Open Data della Camera dei deputati che mano a mano vengono resi disponibili, attraverso processi di produzione continui, oltre a fornire informazioni, link e documenti di supporto. Vi si ritrovano le informazioni riguardanti l’attività e la struttura parlamentare sin dalla I legislatura del Parlamento sabaudo fino a quella attuale, con una consistenza in triple presenti nell’endpoint SPARQL la cui costante crescita è monitorabile da un contatore visibile in homepage che ne visualizza in tempo reale il conteggio. Il sito, completamente conforme agli standard del W3C per il semantic web, consente il download di alcuni dataset predefiniti, ma attraverso l’endpoint SPARQL è possibile estrarre le informazioni e aggregarle secondo specifiche necessità.

Sezioni del sito

Il sito, in continua evoluzione, oggi si articola nelle seguenti sezioni:

  • Dati
  • Apps
  • Linked Data
  • Risorse
  • Progetto

Sempre disponibile, in homepage e nelle sezioni, è l’accesso diretto alle funzioni principali del Portale: lo scarico dei dataset (download) e l’accesso all’endpoint SPARQL per l’interrogazione e l’utilizzo dei dati.

Del portale è inoltre disponibile una versione in inglese, in forma ridotta e semplificata.

Dati
Download dei dataset

Nella sezione Dati si elencano e descrivono i dataset disponibili per il download, fornendo informazioni relative alle entità rappresentate, con rappresentazioni grafiche dell’ontologia. L'insieme dei dati è periodicamente aggiornato ed esteso, come risulta sia dalle notizie fornite in homepage che dal conteggio in tempo reale delle triple presenti nell’endpoint SPARQL.


I dati attualmente disponibili sono qui di seguito elencati.


  • L'anagrafica delle persone

Nel dataset è presente la descrizione delle persone censite all'interno delle basi dati legislative della Camera, sia deputati e senatori, sia membri non parlamentari di governo. Il dataset Persona riporta le informazioni anagrafiche ed è collegato con con i mandati aperti alla Camera o al Senato e con gli eventuali incarichi di governo ricoperti. La persona è stata descritta utilizzando lo standard FOAF.


[INSERIRE FIGURA] inserire figura Ontologia Anagrafica persone [INSERIRE FIGURA] File:Anagrafica persone.jpg


  • I deputati, i mandati ed i gruppi parlamentari

Il dataset comprende tutte le persone che hanno un mandato aperto alla Camera. Il deputato è strettamente connesso al concetto di mandato Camera e a quello di persona perché rappresenta una persona che riceve un mandato in una determinata legislatura; le informazioni anagrafiche del deputato si trovano nel dataset persona, mentre in questo dataset è possibile individuare tutti i ruoli svolti da una persona nel corso della sua attività parlamentare, l'appartenenza agli Organi della Camera e ai Gruppi, gli incarichi negli Organi e gli Uffici parlamentari ricoperti.


[INSERIRE FIGURA] inserire figura Ontologia Deputati Mandati Gruppi [INSERIRE FIGURA] File:Deputati Mandati Gruppi.jpg


  • Gli organi parlamentari e l'Assemblea

Il dataset Organo comprende la descrizione di Organi della Camera dei deputati con le informazioni relative a commissioni permanenti, commissioni bicamerali e d'inchiesta, giunte e altri organi interni.


[INSERIRE FIGURA] inserire figura Ontologia Organi Assemblea [INSERIRE FIGURA] File:Organi Assemblea.jpg

  • Gli incarichi e gli uffici parlamentari

Il dataset Incarico comprende tutti i dati relativi agli incarichi nei Gruppi parlamentari ricoperti dai deputati durante la loro attività; il dataset ufficioParlamentare allo stesso modo conserva i dati riguardanti gli incarichi ricoperti dai deputati negli Organi parlamentari.

[INSERIRE FIGURA] inserire figura Ontologia Organi Assemblea [INSERIRE FIGURA] File:Incarici e Uffici.jpg


  • I Presidenti della Camera e i Presidenti della Repubblica

Il dataset Presidenti della Camera e Presidenti della Repubblica, presenta la descrizione di tutti i Presidenti che si sono susseguiti nel corso degli anni, fino alla legislatura corrente.


  • I progetti di legge, l'iter legislativo e le leggi

Il dataset contiene la descrizione di tutto l'iter legis degli atti camera della XVI legislatura fino alla loro conversione in Legge; per definire questo dataset l'ontologia OCD è stata integrata con tutte le classi e le proprietà necessarie ad una totale esplicitazione del dominio. Partendo dalla classe atto sono state aggiunte le seguenti classi:

- la classe assegnazione serve a descrivere la fase di discussione in commissione in sede referente, legislativa e redigente. Dall’assegnazione c’è il collegamento con i dibattiti e poi con le discussioni nelle sedute. Ogni discussione verrà descritta dettagliatamente fino al singolo intervento del deputato. Alla discussione è collegata la classe votazione che si articola in una votazione complessiva e una votazione analitica per singolo deputato;

- la classe richiestaParere descrive la fase di discussione in sede consultiva;

- la discussione in Assemblea viene descritta utilizzando una proprietà diretta dall’atto camera al dibattito (che nel caso specifico avrà un riferimento all’Assemblea);

- le classi abbinamento e stralcio riportano le indicazione della data dell’abbinamento o dello stralcio e il riferimento all’attocamera abbinato o stralciato;

- la classe statoIter descrive lo stato dell’iter in un determinato momento importante riportando la data e lo stato;

- la classe trasmissione serve a gestire le trasmissioni da e per il Senato. L’atto camera avrà più trasmissioni (qualificate in alcuni casi da un dc:type navette se si tratta di un ritorno dal Senato con la navette) con l’indicazione della data di trasmissione, la provenienza ed il collegamento con l’atto senato o con il nuovo atto camera;

- la classe votazione, collegata all'atto camera e, in modo inverso, a tutti i singoli voti dei deputati è utilizzata per descrivere tutti i dati che rappresentano la partecipazione al voto, l'esito e l'eventuale approvazione;

- la classe voto che serve a descrivere il voto del singolo deputato.


[INSERIRE FIGURA] inserire figura Ontologia iter [INSERIRE FIGURA] File:Iter.jpg

  • Le votazioni ed i voti

Il dataset contiene la descrizione delle votazione elettroniche eseguite nelle sedute in Assemblea nel loro complesso e dei voti dei singoli deputati.


  • Le sedute, i dibattiti ed i bollettini delle giunte e delle commissioni

Nel dataset è presenta la descrizione delle sedute, dei dibattiti e dei bollettini delle Giunte e delle Commissioni.


[INSERIRE FIGURA] inserire figura Ontologia Sedute Dibattiti Bollettini [INSERIRE FIGURA] File:Sedute Dibattiti Bollettini.jpg


  • I documenti parlamentari

Nel dataset è presenta la descrizione dei documenti parlamentari stampati dalla Camera dei deputati, i cosiddetti "DOC" in numero romano: documenti e relazioni, trasmessi alla Camera dal Governo o da altri soggetti istituzionali ovvero predisposti da organi della Camera stessa.


  • Interrogazioni, interpellanze e mozioni

Il dataset contiene gli Atti di indirizzo e controllo, quali interrogazioni, interpellanze, mozioni, ordini del giorno, risoluzioni, dalla VII alla XVI legislatura della Repubblica.


  • Le legislature, i sistemi elettorali e le elezioni

Il dataset comprendela descrizione delle Legislature, dei Sistemi elettorali e delle Elezioni.


  • I Governi, gli organi governativi, gli incarichi ed i Presidenti del Consiglio

Il dataset comprende la descrizione dei Governi, dei Ministeri, degli incarichi ricoperti e dei Presidenti del Consiglio.


  • BPR - Bibliografia del Parlamento italiano e degli studi elettorali

Il dataset della BPR (Bibliografia del Parlamento italiano e degli studi elettorali), curata dalla Biblioteca della Camera dei deputati, censisce le pubblicazioni riguardanti il Parlamento italiano, la Consulta e l’Assemblea Costituente e le elezioni politiche a partire dal 1848. Una parte dei riferimenti bibliografici è arricchita dai testi integrali. Ad ogni citazione sono assegnati uno o più codici di classificazione sulla base di uno schema di oltre 100 classi organizzate in sette grandi aree. Per la modellazione RDF dei dati è stato deciso di riutilizzare ontologie per la descrizione bibliografica già diffuse a livello internazionale come la Bibliographic Ontology (BIBO), l'International Standard Bibliographic Description (ISBD Ontology) e Dublin Core Vocabulary. Lo schema di classificazione è stato convertito in formato SKOS.


  • Dati dei servizi di documentazione

I dataset contengono dati provenienti o utilizzati dai Servizi di documentazione della Camera dei deputati.

Sono gli unici dati in formato per ora diverso da Linked Open Data, resi disponibili come CSV.

Si tratta di dati attinenti a un tema della attività parlamentare - la riforma elettorale – e a una attività di monitoraggio sulla attuazione della cosiddetta “legge obiettivo”.

In particolare, ai fini di una simulazione della riforma elettorale, ai voti espressi alle elezioni della Camera dei deputati del 2013, 2008 e 2006 è stata applicata la formula di trasformazione dei voti in seggi, prevista nella proposta della Commissione Affari costituzionali, approvata in Aula il 12 marzo 2014. Metodologia e risultati in sintesi sono esposti nel Dossier del Servizio studi n. 98 sul calcolo dei risultati elettorali. I dataset CSV resi disponibili costituiscono i voti a cui è stata applicata la formula (voti validi riaggregati nelle circoscrizioni elettorali e nei collegi plurinominali previsti nelle tabelle A e B della proposta di legge) e il dettaglio del risultato finale, vale a dire i seggi attribuiti alle liste nei collegi plurinominali.

L’altro insieme di dati rappresenta l’esito della attività di monitoraggio sull’attuazione delle infrastrutture strategiche comprese nella “legge obiettivo” (legge 443/2001), svolta dal Servizio Studi della Camera in collaborazione con l’Autorità per la vigilanza sui contratti pubblici di lavori, servizi e forniture (AVCP), presentato alla Commissione ambiente nella seduta del 4 febbraio 2014, contiene dati aggiornati al 31 ottobre 2013. I dati sono stati recentemente integrati con gli esiti dell’ultimo monitoraggio, presentato alla Commissione ambiente nella seduta dell’11 marzo 2015, aggiornato al 31 dicembre 2014. Le opere pubbliche sono suddivise in lotti e in ulteriori interventi che rappresentano un segmento dei lavori da svolgere. In considerazione del fatto che il monitoraggio coinvolge in prevalenza grandi infrastrutture il livello di segmentazione è più articolato e dettagliato. Il monitoraggio prende in considerazione 1.420 lotti, tra opere, interventi, sottointerventi e ulteriori dettagli, relativi a 419 infrastrutture. Per ciascun intervento è riportata la denominazione, il soggetto competente, la localizzazione regionale, lo stato di attuazione e la data presunta di ultimazione dei lavori. Tutti gli interventi sono classificati a seconda se siano o meno inclusi nell’ultimo documento programmatico trasmesso dal Governo ovvero se siano stati o meno oggetto di delibera del CIPE (Comitato interministeriale per la programmazione economica). La delibera del CIPE segna il passaggio nell’iter procedurale rispetto all’approvazione dei progetti e all’assegnazione delle risorse. I dati di carattere finanziario riguardano il costo delle opere riportato nei documenti programmatici trasmessi dal Governo, il costo presunto aggiornato alle date di monitoraggio (31 ottobre 2013 e 31 dicembre 2014), le risorse disponibili per la realizzazione dei lavori e quelle mancanti.


  • Le relazioni con altri dataset online e gli allineamenti semantici.

Tassello essenziale per la realizzazione di una interoperabilità semantica dei dati è l'interlinking verso altri dataset già esposti nella linked data cloud. Questa interconnessione è, come già detto, ciò che permette l'accrescimento del patrimonio informativo di partenza grazie ai dati e alle informazioni provenienti dal web e allo stesso consente la disambiguazione delle "things" e la riconduzione a concetti univoci. 

Cercando quindi di perseguire l'obiettivo di pubblicazione "5 stars" secondo le regole Linked Data, i dati pubblicati nel dominio Camera sono stati interconnessi con altri dataset LOD utilizzando procedure automatiche basate sulla sovrapposizione puntuale di nome e cognome, data e luogo di nascita -per i nomi di persona- e di luogo con i relativi dati geografici gerarchicamente superiori - per i nomi di luogo presenti nei documenti.

L'interlinking finora è stato realizzato con i dataset di DBpedia.org, DBpedia Italia, Wikidata, Freebase per i nomi dei deputati e delle persone presenti nei dati; di Viaf (Virtual International Authority File) per gli autori pubblicati dalla Biblioteca; di Geonames e LinkedGeoData per i nomi di luogo. E' proprio grazie a questi allineamenti semantici che è stato possibile collocare i dataset della Camera nella nuova Linked Data Cloud pubblicata ad agosto 2014.


[INSERIRE TESTO sulle RELAZIONI con ALTRI DATASET ESTERNI]

Apps

La produzione di Linked Open Data della Camera dei deputati non è stata concepita come iniziativa fine a se stessa, ma sin dall’inizio è stato dato particolare risalto all’obiettivo di favorire il riuso dei dati prodotti e la loro integrazione con altre raccolte informative, promuovendo la realizzazione di applicazioni web al fine di approfondire aspetti diversi e specifici della vita parlamentare presente e passata.

Le Apps sono concepite come un nuovo, semplice, intuitivo e creativo modo di navigare attraverso i dati conservati negli archivi della Camera. Dal Portale dati.camera si richiamano alcune di queste Apps. Prima di tutto ci si riferisce allo stesso Portale storico, che costituisce il principale esempio di riuso dei Linked Open Data pubblicati, arricchito di cinque percorsi di approfondimento - Legislature, Presidenti, Regolamenti, Montecitorio e Amministrazione - e un'ampia sezione multimediale, alimentata dall'archivio fotografico, dalla collezione di opere d'arte, dalle immagini dei palazzi della Camera, oltre alla cronologia degli eventi politico-istituzionali, nazionali e internazionali, offre molteplici chiavi di lettura dei dataset, che possono essere selezionati e consultati attraverso un'intuitiva e innovativa navigazione basata su filtri a "faccette", tipica del web semantico. Sono poi state realizzate specifiche pagine web interattive che, utilizzando tecnologie innovative, consentono all'utente di riaggregare liberamente i dati in funzione dei propri scopi di approfondimento, sfruttando il patrimonio di relazioni semantiche tra essi e la più innovativa tecnologia web 2.0: una Mappa delle elezioni del Regno d’Italia e un Atlante Istituzionale. L’iniziativa dell’Hackathon stesso, intrapresa nel 2014, è stata essenzialmente volta a promuovere la realizzazione di Apps basate sui Linked Open Data parlamentari e i primi tre progetti premiati sono accessibili dalla pagina dedicata all’evento http://hackathon.camera.it.

Linked Data

I Linked Data contenuti all'interno del repository possono essere utilizzati direttamente all'interno di applicazioni esterne con un accesso online.

Per un utilizzo offline dei dati, si rende possibile effettuare il download delle serializzazioni dei dati in formato RDF/XML o CSV.

Inoltre, è possibile interrogare direttamente l’endpoint SPARQL del repository: ad esempio può essere utilizzato da applicazioni mash-up per creare collegamenti con risorse di altri dataset. Per agevolare l’espressione di query SPARQL, viene proposta una collezione di esempi semplici che mostrano alcune delle tipologie di query che è possibile effettuare sull'endpoint. Questa collezione viene ricorrentemente integrata sulla base delle specifiche richieste che provengono dal pubblico interessato ai dati.

Infine, per una semplice e intuitiva visualizzazione e consultazione dei dati viene suggerito l’utilizzo di navigatori RDF pubblici e accessibili via web, che offrono un quadro esaustivo delle risorse in esame esplicitando tutti i collegamenti con le altre informazioni (fotografie, documenti pdf, ecc.).  A tal fine si richiama una specifica implementazione di LodLive, configurata per permettere l'esplorazione delle classi e delle proprietà attualmente utilizzate nei dati pubblicati nell'endpoint SPARQL.

Risorse

Nel portale dati.camera.it una specifica sezione è dedicata ad autorevoli risorse informative dei principi dei Linked Open Data: tutorial e specifiche relative a SPARQL, tutorial, guide e specifiche relative ai Linked Data, guide e articoli sugli Open Data, guide e realizzazioni di Open Government Data. Si tratta di materiale che, senza alcuna pretesa di esaustività, costituisce una base informativa per chiunque sia interessato a tali temi, perioridicamente aggiornata con nuovi riferimenti.

L'endpoint SPARQL

Da qualsiasi pagina del portale dati.camera.it si può accedere all’endpoint SPARQL per l’interrogazione e l’utilizzo dei dati, che è gestito dal software open source Virtuoso, gestore di triplestore con motore SPARQL.

La pagina di interrogazione dei dati su endpoint richiede la formulazione di query nel linguaggio SPARQL. E’ stata resa più user friendly attraverso l’inserimento di una serie di query predefinite e spiegate.

Una volta selezionata la query, questa viene visualizzata nel box e si può lanciare. I risultati si possono ottenere in diversi formati, tra cui il CSV, l’HTML o il JSON.

Download dei dataset

Dal portale dati.camera.it è possibile scaricare sia i dataset relativi alla legislatura corrente sia quelli delle legislature precedenti, a partire dal 1848. I dataset storici disponibili sono organizzati per tipologia e fanno riferimento a tutte le legislature passate. Quelli relativi alla legislatura corrente sono scaricabili separatamente.

In tutti i dataset le informazioni sono suddivise in una parte di metadati descrittivi delle risorse: rdfs:label, dc:title, dc:description, dc:date e una parte di riferimenti ad altre risorse interne al dominio o a risorse web.

Ogni dataset è stato costruito mirando alla massima leggibilità e chiarezza, l'utente finale dovrebbe essere in grado di comprenderne la maggior parte mentre un utente esperto del dominio dovrebbe esser in grado di comprendere i dati proposti nella loro interezza senza documentazione aggiuntiva. Particolare attenzione è stata posta nella denominazione delle classi e delle proprietà ed all'utilizzo di standard internazionali ove questi si intersecavano con precisione con le informazioni presenti nei dataset. La Camera dei deputati ha prodotto e pubblicato i dataset dei Senatori con i dati delle relative Persone, dei mandati al Senato e dei Presidenti della Repubblica con un livello di dettaglio inferiore rispetto agli altri dataset al solo intento di garantire l'integrità delle relazioni.

L'EndPoint SPARQL è aggiornato ogni giorno e analogo livello di aggiornamento si offre per i dati disponibili al download.

Le licenze d'uso

Originariamente, quando nel 2011 si è pubblicato il repository Linked Open Data della Camera dei deputati, la licenza d’uso con cui i dati sono stati resi disponibili è stata la CC-BY-SA 3.0. A partire dal 2013, con l’avvio della legislatura XVII, si è passati alla licenza CC-BY 3.0 con l’obiettivo di promuovere un puù diffuso riuso dei dati resi disponibili. Unica eccezione è rappresentata dai dati bibliografici relativi alla BPR che hanno mantenuto la licenza CC-BY-SA 3.0.


Il Senato della Repubblica

Introduzione
Iniziative pregresse

Il Senato italiano, sin dai tempi del Senato del Regno, ha mostrato grande attenzione riguardo l'archiviazione e la pubblicazione di atti, documenti, leggi e altri contenuti a carattere giuridico. A partire dai primi anni '70 del XX secolo queste attività hanno ricevuto un notevole impulso, soprattutto grazie all'installazione di un elaboratore centrale e alla realizzazione di un sistema informatico all'interno del quale sono state via via archiviate le informazioni relative all'iter dei disegni di legge, alla composizione degli organi del Senato e all'attività non legislativa. Negli anni '90, l'avvento di Internet ha comportato la nascita del sito ufficiale www.senato.it (1996), attraverso il quale gli atti e i dati, precedentemente messi a disposizione di un ristretto pubblico di specialisti, sono stati aperti alla consultazione da parte di tutti i cittadini. Il Senato della Repubblica è stata una delle prime istituzioni italiane ad essere presenti sulla rete Internet e, sin dall'inizio, ha avuto come obiettivo quello di essere, piuttosto che un sito "vetrina", un vero e proprio sito di servizio per i cittadini, che consentisse di far conoscere quanto accadeva all'interno dei "palazzi" ad un pubblico più vasto possibile. Questo obiettivo ha determinato tutte le successive evoluzioni del sistema informativo che, nel 2000, è passato ad un'architettura più moderna, di tipo client/server, basata su database relazionale; le successive versioni del sito Internet, realizzate sulla nuova architettura, hanno reso l'accesso ai dati ancora più semplice, anche grazie all'introduzione di numerosi motori di ricerca (uno generale e una ventina specialistici) per le diverse banche dati. Altre iniziative, quali la pubblicazione di una versione del sito per dispositivi mobili (mobile.senato.it) e di un sito divulgativo destinato ad un pubblico di ragazzi (www.senatoperiragazzi.it), hanno continuato il cammino precedentemente intrapreso.

A metà degli anni 2000 anche la legislazione nazionale ha posto particolare accento sulla necessità, da parte delle istituzioni, di rendere pubblici i dati in proprio possesso nella modalità più semplice possibile. In particolare, il Codice dell'Amministrazione Digitale (CAD, Decreto Legislativo, 7 marzo 2005, n. 8 e s.m.i.) ha introdotto il principio di "disponibilità dei dati pubblici", cioè la possibilità, per soggetti pubblici e privati, "di accedere ai dati senza restrizioni non riconducibili a esplicite norme di legge"; il Codice sollecita le pubbliche amministrazioni a diffondere i dati in proprio possesso utilizzando formati aperti che ne consentano il riutilizzo. Il libero accesso all'informazione pubblica consente di conseguire due principali obiettivi:

  • Trasparenza: consentire a tutti i cittadini di controllare l'operato delle amministrazioni pubbliche;
  • Apertura: permettere a chiunque di riutilizzare i dati pubblici, sviluppando servizi e applicazioni di utilità generale.

La grande novità introdotta dal Codice consiste proprio nell'invito ad utilizzare formati aperti e a promuovere il riutilizzo da parte di terzi, dei dati, anche per fini commerciali. Fino ad allora, tutte le istituzioni, Senato della Repubblica compreso, si erano adoperate per pubblicare i dati in formati adatti alla lettura da parte di utenti umani (pagine HTML, file in formati PDF, ecc.); chi avesse voluto riutilizzare i dati, ad esempio per condurre studi o ricerche, o per presentare quegli stessi dati in altre forme, a fini divulgativi o di analisi politica, poteva soltanto estrarre quei dati dal codice HTML delle pagine web (cosiddetto web scraping), con il problema di dover adattare la procedura di estrazione ad ogni modifica della struttura delle pagine web.

Attività odierna

Il Senato della Repubblica ha quindi avviato un processo di "apertura" dei propri dati, a partire dalla fine del 2012; tale processo ha portato alla realizzazione di un portale ad hoc (dati.senato.it) pubblicato in forma sperimentale all'inizio del 2013 e in forma definitiva nel 2014. Tale portale consente sia di scaricare insiemi predefiniti di dati (dataset), sia di eseguire interrogazioni sull'insieme di tutti i dati disponibili, andando così incontro alle esigenze di differenti tipologie di utenti: dagli sviluppatori, che costruiscono interrogazioni specifiche per realizzare delle applicazioni, ai giornalisti e ricercatori, che possono scaricare i dataset per finalità di analisi e approfondimento.

I dati pubblicati
Modalità di pubblicazione dei dati

Si è deciso di mettere a disposizione in formato aperto la maggior parte delle informazioni già disponibili attraverso il sito web istituzionale del Senato. L'apertura di questi dati è stata semplificata dalla struttura del sistema informativo e dall'architettura di alimentazione delle pagine del sito web istituzionale. Le pagine web sono infatti costruite in modo automatico a partire dai dati presenti nel database, tramite delle procedure giornaliere di aggiornamento, basate su interrogazioni. È stato perciò possibile riutilizzare le medesime interrogazioni per ottenere un formato di output alternativo all'HTML; a tale scopo si è deciso di utilizzare il formato RDF, lo standard in ambito open data (e, in particolare, linked open data), definito dal W3C, anche al fine di semplificare il collegamento con altre sorgenti di dati (quali, ad esempio, i dati aperti della Camera dei deputati). Tutto ciò seguendo i principi del web semantico che, secondo il suo ideatore, Tim Berners-Lee, dovrebbero consentire di affiancare al web di documenti (principalmente in formato HTML), tra loro collegati, un web dei dati che renda possibile la comprensione semantica e l'elaborazione automatica degli stessi.

Per quanto riguarda l'arco temporale dei dati pubblicati, essi spaziano dalla XIII legislatura (1996) ad oggi, per complessivi 35 milioni di triple RDF attualmente disponibili.

I dati pubblicati sono relativi a:

  • Composizione: a composizione del Senato, dei Gruppi parlamentari, delle Commissioni e del Consiglio di Presidenza, con tutte le variazioni intervenute nel corso delle legislature
  • Atti:
    • i disegni di legge presentati alla Camera e al Senato, gli iter legislativi, le iniziative, le assegnazioni alle commissioni, i relatori e gli interventi in Assemblea, la classificazione �TESEO;
    • i Documenti non legislativi e la loro iniziativa;
    • gli atti di Sindacato Ispettivo e la loro iniziativa.
  • Votazioni: le votazioni elettroniche svolte in Assemblea, sia su disegni di legge, sia su documenti non legislativi, con il dettaglio dei voti espressi da ciascun senatore.

Per consentire una più immediata comprensione dei dati pubblicati, questi sono affiancati da un'ontologia, che descrive in modo formale i concetti e le relazioni tra di essi. Tale ontologia, denominata Ontologia del Senato della Repubblica (OSR) è pubblicata nel formato standard RDF/XML, oltre che in Turtle, è costituita da 20 classi, ed estende l'ontologia della Camera dei deputati (OCD), oltre a riutilizzare numerosi concetti di altre ontologie standard, quali FOAFBIO rispettivamente per quanto riguarda le proprietà delle persone e degli eventi di interesse biografico.

[INSERIRE FIGURA: Diagramma dell'ontologia del Senato della Repubblica]

La licenza d'uso

Date le esigenze di massima "apertura" dei dati, la licenza di pubblicazione dei dati è di tipo aperto, tale cioè da garantire all'utente una serie di diritti, in tema di utilizzo, ripubblicazione e modifica dei dati.

Le licenze più diffuse per i dati aperti della pubblica amministrazione sono quelle basate su Creative Commons (CC). CC è un'organizzazione senza fini di lucro, che ha pubblicato, a partire dal 2002, un insieme di licenze divenute uno standard a livello internazionale.

La licenza scelta

Da un'analisi dei dataset pubblicati sul portale dati.gov.it si osserva che le licenze maggiormente applicate dalle amministrazioni italiane sono la CC-BY e la IODL 2.0. Esse sono sostanzialmente equivalenti, ma le linee guida per l'introduzione degli open data nelle pubbliche amministrazioni raccomandano l'utilizzo di licenze che siano leggibili e riconoscibili non solo a utenti nazionali ma anche a utenti internazionali "in un'ottica di interoperabilità transfrontaliera". Da ciò deriva, per i dati messi a disposizione dal Senato della Repubblica, la scelta della licenza CC-BY 3.0 Unported. Essa permette al soggetto utilizzatore di riprodurre, distribuire, comunicare, esporre, rappresentare, nonché di modificare e usare i dati, anche a fini commerciali, con il solo obbligo di attribuire la paternità dell'opera.

Similmente, anche la Commissione Europea ha di recente raccomandato, all'interno di specifiche linee guida, l'applicazione di licenze standard (quali le Creative Commons) ai dati aperti, in luogo di licenze proprietarie.

[INSERIRE FIGURA: Il portale dati.senato.it]

Il portale
Sezioni del sito

Il portale dati.senato.it, pubblicato in versione sperimentale all'inizio del 2013, ed in versione definitiva nel 2014, presenta un menu di navigazione principale attraverso il quale gli utenti possono accedere alle sezioni principali del sito, che sono:

  • Il progetto;
  • Scarica i dati;
  • Interroga i dati;
  • Feed RSS.
Il progetto
Informazioni generali sul sito

In questa sezione sono riportate le informazioni generali relative al progetto di pubblicazione di dati aperti da parte del Senato della Repubblica. Sono poi descritti nel dettaglio:

  • L'ontologia del Senato della Repubblica (OSR), tramite un grafo riassuntivo e tramite l'elenco di tutte le classi e le proprietà che ne fanno parte, con descrizione di ciascuna di esse;
  • La licenza d'uso, che, come descritto sopra, è la CC-BY, con breve spiegazione della licenza stessa e un link che rimanda al testo ufficiale;
  • Le specifiche del risolutore di URN del Senato della Repubblica.

Sempre all'interno di questa sezione sono poi presenti le informazioni di contatto ed un modulo, tramite il quale, chiunque abbia sviluppato un'applicazione basata sui dati aperti del Senato, può segnalare tale applicazione in modo che possa essere resa pubblica.

Scarica i dati
Download dei dataset

È la sezione del sito destinata ad utenti non tecnici, quindi principalmente ricercatori, giornalisti, ma anche cittadini che siano interessati ad ottenere in modo semplice i dati sull'attività parlamentare per effettuare analisi, statistiche, studi di vario tipo, e ad integrare tali dati con quelli provenienti da altre fonti informative. Per rendere semplice l'accesso ai dati, questo è realizzato mediante dei moduli dinamici nei quali gli utenti possono specificare dei parametri di ricerca quali la legislatura d'interesse e una data (o un intervallo di date), oltre al formato di output che può essere uno a scelta tra XML, JSON e CSV (Comma Separated Values, valori separati da virgola).

I dataset disponibili sono innanzitutto suddivisi in tre sotto-sezioni: Composizione, Atti e Votazioni.

[INSERIRE FIGURA: Esempio di form per scaricare i dati dal portale open data del Senato della Repubblica]

Composizione

La sezione Composizione mette a disposizione i dataset relativi alla composizione dell'Assemblea del Senato e dei suoi organi, oltre ad informazioni relative all'attività di ciascun senatore, quali gli incarichi all'interno delle commissioni e dei gruppi parlamentari, gli interventi effettuati nel corso delle sedute di Assemblea e di commissione, e l'iniziativa sia di tipo legislativo che non legislativo.

Atti

La sezione Atti mette a disposizione i dataset relativi agli atti legislativi e non legislativi. In particolare, è possibile ottenere gli elenchi dei disegni di legge, degli atti di Sindacato Ispettivo e dei documenti non legislativi presentati in un certo intervallo di date, nonché, per ciascun disegno di legge, il dettaglio del suo iter (successione delle letture parlamentari) e l'elenco dei presentatori.

Votazioni

La sezione Votazioni mette a disposizione i dataset relativi alle votazioni elettroniche svoltesi in Assemblea. Sono pubblicati i dati relativi a tutte le votazioni elettroniche svolte nel corso della legislatura, con l'indicazione del voto espresso da ciascun senatore.

[INSERIRE FIGURA: La sezione "Interroga i dati" del portale open data del Senato della Repubblica]

Interroga i dati
Interrogazioni in SPARQL

È la sezione del sito in cui gli utenti tecnici possono ottenere dei dataset specifici eseguendo delle interrogazioni in linguaggio SPARQL sull'intero insieme di triple RDF. Il sito presenta un'area di testo all'interno della quale è possibile scrivere un'interrogazione ed eseguirla, specificando il formato di output tra quelli proposti (XML, CSV, JSON, HTML, Javascript, ecc.); si ottiene in tal modo un file contenente il dataset, nel formato specificato. Sono inoltre proposte alcune interrogazioni di esempio, che l'utente può esaminare, copiare in modo automatico nell'area di testo, ed eseguire; ciò allo scopo di semplificare la scrittura di nuove interrogazioni, che possono essere ottenute modificando quelle proposte.

Feed RSS

In questa sezione sono riportati i link a tutti i feed RSS messi a disposizione dal sito istituzionale del Senato della Repubblica, e che riguardano l'attività parlamentare, i documenti pubblicati, le notizie e i comunicati stampa. Tali feed, infatti, pur non rientrando nell'ambito degli open data, costituiscono comunque uno strumento utile a disposizione di chi sia interessato ad accedere in modo continuo e tempestivo alle informazioni pubblicate dal Senato, sia per la consultazione personale che per un'eventuale elaborazione automatica.

Gli atti parlamentari in formato aperto
Apertura dell'iter degli atti parlamentari


Molti dei dati pubblicati dal Senato trattano l'iter di atti parlamentari, che essendo alla base dell'attività ivi svolta, meritano di essere trattati con livelli di accessibilità e fruibilità pari (se non superiori!) a quelli dei dati che li riguardano. Sulla base di questa osservazione il Senato, parallelamente al progetto di portale open data, ha avviato nel 2012 un progetto per la distribuzione di "open documents". Tale progetto verte sulla pubblicazione degli atti relativi all'attività parlamentare in formati che facilitino l'elaborazione automatica dei loro contenuti da parte di soggetti terzi. Il formato scelto per la rappresentazione degli atti è stato quindi il formato denominato Akoma Ntoso, standard internazionale per la marcatura XML di testi normativi, definito a partire dal 2006 nell'ambito dell'iniziativa "Africa i-Parliament Action Plan" del Dipartimento delle Politiche Economiche e Sociali delle Nazioni Unite e successivamente adottato da diverse istituzioni internazionali tra cui anche il Parlamento Europeo. Tale formato è stato concepito per rappresentare dei testi normativi rendendone massimamente usabile il contenuto ai fini di loro elaborazioni automatiche. Pertanto, a partire dalla XVII legislatura, tutti i testi dei disegni di legge presentati in Senato sono pubblicati - oltre che nei formati HTML,PDF, ed ePub - anche nel formato XML Akoma Ntoso. Nel medesimo formato sono pubblicati anche i dossier, prodotti dall'amministrazione del Senato con finalità di documentazione degli organi parlamentari e dei parlamentari stessi. È inoltre in corso un progetto per l'estensione dello standard Akoma Ntoso agli emendamenti dell'Assemblea.

La pubblicazione in formato aperto e machine-readable degli atti parlamentari apre la strada a numerosi possibili campi di applicazione (si pensi, a puro titolo di esempio, all'analisi automatica dei testi dei disegni di legge per il calcolo di statistiche sulle frequenze delle parole ovvero dei temi trattati) e fornisce un ulteriore contributo alla trasparenza e al controllo democratico delle istituzioni. Tale prospettiva inoltre - se condivisa a livello interistituzionale - apre la strada per l'alimentazione automatica delle banche normative e dei lavori preparatori quale ad esempio il portale della normativa vigente "Normattiva", e quindi anche al miglioramento - sotto il profilo del supporto tecnico - alle attività di semplificazione normativa.

Evoluzioni future
Prossimi passi

Nell'ottica di fornire un servizio di apertura dei dati e degli atti improntato agli standard e alle migliori pratiche in ambito di web semantico, sono attualmente previste delle evoluzioni che riguardano sia i dati e gli atti pubblicati che la modalità di fruizione degli stessi. In particolare:

  • Estensione dei dataset pubblicati, sia in termini temporali, con la pubblicazione dei dati di composizione riferiti alle legislature precedenti la XIII, sia relativamente ai contenuti, con particolare riferimento alle informazioni di catalogazione degli atti. I riferimenti alla classificazione TESEO dei disegni di legge, attualmente pubblicati, potranno essere estesi con la pubblicazione in formato SKOS/RDF dello stesso thesaurus;
  • Maggiore collegamento dei dati ad altre fonti di dati aperti. Attualmente le uniche relazioni presenti sono quelle verso i dati aperti della Camera dei deputati. E' pensabile collegare i dati relativi a persone, luoghi e professioni a fonti esterne, quali DBpedia e GeoNames;
  • Semplificazione della navigazione tra i dati, mediante meccanismi di anteprima dei dataset, che consentano di esaminarne i contenuti direttamente nel sito, senza necessità di scaricarli, e tramite l'introduzione di editor visuali che permettano di navigare tra i dati evidenziando le relazioni presenti tra di essi;
  • Apliamento delle tipologie di atti pubblicate nello standard Akoma Ntoso a partire dagli emendamenti presentati per la discussione in Assemblea e - a seguire - per altre tipologie di atti (in primis, resoconti).


I dati sull'attività delle Commissioni

I dati sul processo normativo

TODO: inserire breve descrizione del processo di approvazione ed emanazione delle leggi (o meglio, degli atti parlamentari che diventano leggi).

I dati aperti sulle norme

Le leggi: dato aperto per eccellenza

Il corpus normativo di uno Stato è composto dalle norme di vario rango (Costituzione, leggi costituzionali, leggi ordinarie, leggi regionali, provvedimenti regolamentari di vario tipo) che esprimono l'insieme di principi e regole su cui si fonda il patto sociale alla base della convivenza civile.

Tutti sono tenuti a conoscere e a rispettare le norme, prodotte dal gruppo ristretto di persone che detiene temporaneamente il potere legislativo sulla base della “delega” conferita attraverso le elezioni, e pertanto la possibilità che esistano dei cittadini privi di strumenti di accesso alle leggi sembrerebbe un paradosso. Nella realtà, la conoscenza della legge è stata per lungo tempo appannaggio di una elite e solo di recente, dopo un percorso lungo e accidentato, si è creata la diffusa consapevolezza di come il libero accesso alle leggi costituisca un diritto fondamentale; ancora negli anni 2000 - infatti - l'accesso per via telematica alle norme, in Italia e in altri paesi europei, era a pagamento ed inoltre il servizio, anche quando veniva erogato da istituzioni pubbliche, era concepito per rivolgersi ad una utenza professionale (su questo aspetto vedi il Rapporto Mandelkern su Better Regulation).

La rete delle leggi

Un corpus legislativo consiste in un insieme di documenti testuali. I testi delle leggi trattano gli argomenti più disparati ed evolvono continuamente: le disposizioni contenute in una legge si collegano a quelle contenute in leggi precedenti richiamandole, modificandole o abrogandole; pertanto i documenti legislativi contengono numerosi collegamenti a documenti preesistenti. D’altra parte, il contenuto di ciascun provvedimento, per effetto dei richiami modificativi provenienti da provvedimenti successivi, varia nel tempo dando luogo a più “versioni”, ciascuna con un arco temporale di validità.

Il grafo delle norme

Si può quindi immaginare il corpus normativo rappresentato come un grafo orientato che evolve nel tempo: ogni norma è un nodo in cui “entrano” archi che rappresentano i richiami provenienti da altre norme successive e da cui “escono” archi che rappresentano i richiami verso norme precedenti. L’applicabilità della legge, che di per sé contiene l’esplicitazione di principi generali, necessita della definizione di procedure e modalità operative di attuazione che vengono definite in provvedimenti di natura regolamentare - i provvedimenti attuativi - emanati successivamente da parte di altri organismi. Ancora, la giurisprudenza relativa agli esiti dei processi condiziona l’interpretazione delle leggi che costituiscono la base giuridica delle sentenze, determinando altre possibili relazioni dovute ai richiami sentenze-leggi e sentenze-sentenze per conformità o difformità. Il grafo quindi si estende ad altri nodi con altri archi che esprimono ulteriori relazioni.

Ne risulta che un cittadino che voglia comprendere il contenuto di una legge – accantonato l'ostacolo della complessità del linguaggio - deve percorrere il grafo, lungo gli archi che rappresentano le relazioni tra gli atti.

Appare evidente che il corpus normativo - o in senso più generale il corpus giuridico che include anche giurisprudenza e dottrina - costituisce di per sé una "nuvola", fortemente connessa al suo interno, inserita all’interno della più ampia Linked Open Data cloud.

Gli standard di identificazione e rappresentazione degli atti normativi

Il modello IFLA-FRBR

I più recenti tra gli standard di identificazione degli atti fanno riferimento al modello IFLA-FRBR (Functional Requirements for Bibliographic Records) che, concepito per la catalogazione di risorse bibliografiche, risulta molto efficace ai fini della distinzione dei diversi livelli in cui si articolano le risorse informative legislative. Tale modello prevede che la descrizione di una risorsa possa riferirsi a 4 livelli di astrazione:

  1. work: identifica un’opera, una creazione intellettuale in astratto; nel nostro caso, la legge come concettualizzazione delle previsioni giuridiche contenute in tutte le sue versioni che si succederanno nel tempo;
  2. expression: identifica ogni diversa versione di un’opera; quindi, per le leggi, ogni nuova versione originata da modifiche apportate da altre norme, vigente per un certo arco temporale o una traduzione di una versione in una lingua diversa dall’originale;
  3. manifestation: una concreta realizzazione di una expression, che per un’opera in genere può riguardare il mezzo di riproduzione; nel caso delle leggi, si riferisce al formato di rappresentazione del testo (ad es: un file XML, PDF, etc.)
  4. item: una singola copia di una manifestation; nel nostro caso, il file che contiene una copia della manifestation di una expression.

Per approfondimenti, si può consultare Joao Alberto de Oliveira Lima, “An Adaptation of the FRBR Model to Legal Norms” in Proceedins of the V Legislative XML Workshop, 2006, pag. 53-65.


Negli ultimi 15 anni si è svolta una intensa attività di ricerca e di sperimentazione relativamente all’informatizzazione dei documenti normativi che ha riguardato in particolare diversi paesi europei, portando inoltre alla costituzione di una comunità internazionale informale; essa, nel corso di workshop annuali su “legislative XML” (si vedano ad esempio gli atti del 3° workshop on legislative XML, 6-8 aprile 2005), ha dato luogo ad un proficuo confronto tra le elaborazioni e sperimentazioni che si andavano via via sviluppando. All’interno di questa comunità, l’Italia ha costituito un punto di riferimento importante, avendo anticipato i tempi con le attività di standardizzazione e di sperimentazione all’interno del progetto Normeinrete. Le attività di standardizzazione - di cui nel seguito si descrivono gli esiti - hanno prodotto risultati importanti, grazie ai quali oggi è disponibile un bagaglio di strumenti e di metodologie che rendono più facile applicare i principi degli Open data e dei Linked Open Data ai documenti legislativi.

Gli standard ufficiali italiani

In Italia esistono due standard tecnici relativi alla rappresentazione digitale degli atti normativi, pubblicati in Gazzetta Ufficiale come circolari dell’Autorità per l’informatica nella Pubblica Amministrazione (AIPA - Autorità indipendente istituita nel 1993, trasformata poi in Centro Nazionale per l’informatica nella PA - CNIPA - e successivamente in DigitPA, oggi Agenzia per l’Italia Digitale - AgID).

Gli standard definiscono aspetti tecnici e metodologici che riguardano rispettivamente l'identificazione degli atti (circolare AIPA CR/35 - "Assegnazione dei nomi uniformi ai documenti giuridici" - G.U. n. 262 del 10 novembre 2001) e la rappresentazione dei testi normativi e dei relativi metadati (circolare AIPA CR/40 - "Formato per la rappresentazione elettronica dei provvedimenti normativi tramite il linguaggio di marcatura XML" - GU n. 102 del 3 maggio 2002).

Gli standard italiani
Il modello di Normeinrete e i Linked Open Data

Normeinrete è stato un progetto intersettoriale, avviato nel 1999 con finanziamento dell’AIPA su proposta del Ministero della giustizia, finalizzato all'attuazione di un modello federato per l’informatizzazione delle norme ed ideato nella prospettiva di una completa automazione dei processi collegati agli atti legislativi - dalla redazione, alla gestione informatizzata delle modifiche, all’accesso libero per i cittadini. Sviluppato con approccio incrementale, nelle prime fasi ha prodotto gli standard di identificazione e marcatura degli atti, su cui si basava l’interoperabilità all’interno della "federazione", ed un portale di accesso che consentiva di effettuare ricerche su tutti i siti aderenti (di oltre 50 amministrazioni, centrali e regionali) attraverso un’unica interfaccia. Sono stati inoltre realizzati dei pacchetti software opensource di supporto all’utilizzo degli standard, per il drafting normativo e per il riconoscimento automatico all’interno di testi di leggi dei riferimenti normativi e la costruzione del relativo ID standard, tuttora utilizzati. La prospettiva immaginata era quella di costruire uno scenario in cui ogni autorità emittente di provvedimenti normativi pubblicasse, con valore legale, gli atti di propria competenza sul proprio sito istituzionale. Un modello di questo tipo consente di realizzare un sistema distribuito dotato, grazie agli standard, di un alto livello di integrazione ma al tempo stesso rispettoso dell’autonomia di ciascuna istituzione e dell’indipendenza delle rispettive scelte tecnologiche implementative; elemento, quest'ultimo, rilevante in ambito normativo considerata la potestà legislativa delle Regioni e la dimensione sovranazionale dovuta dall’appartenenza all’Unione Europea. L’interoperabilità all’interno della "federazione di siti" basata sulla standardizzazione degli identificatori (URI) e sulla definizione di uno standard di formato degli atti che consentisse di rappresentare anche aspetti semantici tra cui quelli connessi alle relazioni tra gli atti, dava luogo ad un modello del tutto analogo a quello su cui oggi si basano i Linked Open Data. La portata innovativa del progetto ha riguardato anche le modalità di attuazione - basate su un forte coinvolgimento “dal basso” e sulla definizione partecipata di standard aperti. Soprattutto per quanto riguarda i risultati nel campo della standardizzazione, il progetto ha costituito un punto di riferimento a livello internazionale, influenzando iniziative di altri paesi sviluppatesi negli stessi anni e ispirandone altre (come, ad esempio, il progetto UNDESA per i Parlamenti africani, nell’ambito del quale è stato definito lo standard Akoma Ntoso).

I due standard sono stati definiti in maniera partecipata da gruppi di lavoro, costituiti all’interno del progetto Normeinrete, a cui hanno preso parte esperti di Camera e Senato, di diverse Amministrazioni centrali e regionali e di università ed istituti di ricerca.

L’identificazione degli atti con lo standard URN
URN

Lo standard per la identificazione degli atti URI è costruito sulla base della specifica URN IETF, ed assume il namespace URN:NIR.

L'URN é costruito concatenando, secondo una ben definita grammatica, i dati caratteristici dell’atto che lo identificano univocamente (tipo di provvedimento, anno, numero); livelli di dettaglio ulteriori, non obbligatori, consentono di distinguere tra versioni diverse del medesimo atto (ad es. versioni relative a testi con diverse date di vigenza per modifiche successive).

Le caratteristiche più significative del sistema di identificazione degli atti definito in Normeinrete sono:

  1. la possibilità di costruire l’URI in maniera automatica, in quanto generato sulla base di dati noti, utilizzati comunemente per identificare l’atto (tipo di provvedimento, anno, numero;
  2. il disaccoppiamento tra l’URI e la locazione fisica di una rappresentazione dell’atto: l’URI/URN identifica l’atto "in astratto" (a livello di expression, nella gerarchia FRBR) assicurando la persistenza. Di contro, è sempre necessario un risolutore che associ all’URN una o più locazioni fisiche presso le quali sono disponibili le diverse versioni dell’atto;
  3. la possibilità di realizzare dei parser in grado di riconoscere automaticamente la presenza di riferimenti normativi all’interno di un testo libero con un bassissimo margine di errore, e di creare automaticamente l’URN e il relativo link ipertestuale verso la legge citata, invocando il risolutore, senza interventi redazionali sulla pagine web da cui si origina il link.

Le caratteristiche evidenziate semplificano la gestione dei link e ne assicurano la persistenza: al variare della locazione di un atto dovrà essere modificato solo il risolutore mentre tutti i siti che contengono link a quell’atto non vengono influenzati dalla modifica e non presentano il rischio di link "rotto"; meccanismo analogo ai Domain Name Systems.

Lo standard basato su XML per la rappresentazione degli atti
XML e Normeinrete

Lo standard XML per la rappresentazione del contenuto degli atti definito nell’ambito di Normeinrete consente:

  1. la marcatura strutturale dell’atto, con un livello di granularità che consente di identificare, e quindi riferire, tutte le componenti della struttura del testo (formula iniziale, libro, parte, titolo, capo, sezione, paragrafo, articolo, comma e numeri/lettere interni al comma);
  2. la possibilità di associare metadati al documento o a sue parti, quali descrittori (ad es. estremi della pubblicazione ufficiale, eventuali ripubblicazioni, URN, keyword, nome giornalistico dell’atto – ad es. "legge Fornero"), lavori preparatori o altri metadati relativi a schemi che è possibile associare;
  3. la marcatura, all’interno del documento, di porzioni di testo non identificabili come elementi strutturali ma rilevanti per dal punto di vista semantico (ad es. citazioni ad altre norme con la qualificazione del riferimento – modificativo, abrogativo, ecc. - disposizioni caratterizzanti l’atto e simili)
  4. la rappresentazione, all’interno del documento, delle variazioni del testo intervenute nel tempo con associate le relative date di validità, attraverso l’apposizione di elementi di marcatura che consentono la rappresentazione cosiddetta "multivigente".

Le finalità sottostanti alle scelte operate nel definire lo standard si riconducono a:

  1. consentire la realizzazione di un sistema di ricerca unitario in grado di offrire funzionalità avanzate ed un elevato grado di precisione anche operando su una base documentale distribuita, con nodi gestiti da soggetti diversi con sistemi informatici disomogenei;
  2. automatizzare la creazione dell’ipertesto distribuito delle norme, attraverso le citate possibilità di parsing e di costruzione automatica degli URN per la creazione dei link ipertestuali;
  3. la possibilità, attraverso la rappresentazione del testo multivigente, di realizzare applicazioni in grado di ricostruire dinamicamente il testo vigente in funzione di una data richiesta;
  4. la possibilità di realizzare sistemi di supporto al drafting normativo e alla costruzione dei testi consolidati. Tale opportunità rende possibile ipotizzare uno scenario in cui l’atto, dal momento della sua creazione, si va arricchendo di metainformazioni durante le diverse fasi in cui si articola il suo ciclo di vita, attraversando i processi che ne determinano l’evoluzione conservandone la memoria all’interno dello stesso documento. Il documento, essendo stato opportunamente marcato in ogni fase, potrà dinamicamente esporre a richiesta ciascuna delle versioni vigenti in un certo periodo del proprio ciclo di vita.
  5. consentire e promuovere il riutilizzo. La marcatura, attuata come strumento per garantire un servizio pubblico di accesso ai cittadini, presenta significativi vantaggi anche per i soggetti privati interessati al riutilizzo, anche a scopo commerciale, potendo disporre di testi arricchiti di metadati, dotati di struttura e quindi più facilmente elaborabili per la creazione di servizi a valore aggiunto.
Altri standard di identificazione e marcatura XML degli atti normativi
Altri standard

Successivamente, sono stati elaborati altri standard relativi alla identificazione e alla marcatura XML delle norme che estendono e apportano miglioramenti a quelli elaborati nel progetto Normeinrete, alcuni dei quali particolarmente rilevanti per il grado di diffusione che hanno (o che si prevede avranno nel prossimo futuro) in Italia e nel mondo.

URN:Lex
URN:Lex

Standard di identificazione degli atti, URN:LEX costituisce una diretta estensione dello standard URN:NIR di cui mantiene le regole fondamentali, e quindi le caratteristiche di persistenza e le possibilità di automatismo nella costruzione dell’identificativo, ma ne estende le potenzialità consentendo di identificare provvedimenti di diversi stati o giurisdizioni e di specificarne la lingua. URN:Lex assicura piena compatibilità con il modello FRBR ed è attualmente sottoposto come proposta di Internet standard all’IETF.

ELI European legislation identifier

Standard di identificazione degli atti, proposto dalla UE nelle Conclusioni del Consiglio che invitano all’introduzione dell’identificatore della legislazione europea (ELI).

ELI

La specifica di ELI prevede l’utilizzo di «URI HTTP» (IETF RFC 6570) e definisce criteri e componenti da adottare per la costruzione di identificativi da parte di ciascuno Stato membro, tenendo conto dei requisiti specifici della propria lingua. I criteri di costruzione dell’ELI, analogamente a URN:NIR e URN:LEX, prevedono una concatenazione dei dati caratterizzanti il provvedimento ma, al fine di favorire la compatibilità con i diversi sistemi nazionali, tutti i componenti sono facoltativi e non hanno un ordine prestabilito. Per favorire l’interoperabilità tra i diversi sistemi di informatica giuridica, ELI è corredato di un set di metadati che gli Stati Membri sono invitati ad utilizzare, in combinazione con i propri set di metadati nazionali. Tra i metadati di cui si raccomanda l'esplicita rappresentazione - oltre il tipo di atto, l’argomento, l’autorità emittente con le sue articolazioni e le diverse date significative per l’atto – sono comprese diverse relazioni tra atti: cites, transpose, transposed_by, related_to, changed_by, based_on, basis_for, consolidates.

Akoma Ntoso
Akoma Ntoso

Akoma Ntoso, espressione della lingua Akan dell'Africa occidentale che richiama il collegamento tra i popoli (letteralmente "cuori-legati"), è il linguaggio di marcatura degli atti normativi basato su XML e definito nell’ambito di un progetto finalizzato alla informatizzazione dei Parlamenti africani nel contesto del Programma "Africa i-Parliament", nato su iniziativa del Dipartimento Affari Economici e Sociali delle Nazioni Unite (UNDESA). Il progetto, che si è avvalso inizialmente del supporto del CNIPA e poi della collaborazione di diversi esponenti dei gruppi di lavoro che avevano contribuito a definire gli standard di Normeinrete, ha apportato dei miglioramenti allo standard pervenendo alla definizione di un nuovo linguaggio di marcatura basato su XML più flessibile e di maggiore potenza espressiva, in quanto è in grado di rappresentare con un unico schema un ampio spettro di tipologie di provvedimenti, incluse le proposte di legge, i report d'aula e di commissione e la giurisprudenza. Attualmente è utilizzato anche dal Parlamento Europeo, e in diversi stati tra cui Svizzera, Brasile, California, Uruguay, Cile. In Italia è utilizzato dal Senato per i testi dei disegni di legge, delle relazioni delle Commissioni e dei messaggi legislativi.

L'accesso agli atti normativi

Legislazione statale e regionale
Da Normeinrete a Normattiva

In seguito all’istituzione del Programma per l’informatizzazione della normativa vigente con l’art. 107 della legge n. 388/2000, poi regolamentato con il DPCM 24 gennaio 2003 (che ha istituito un Comitato Guida composto da Senato, Camera e Presidenza del Consiglio, affidando al CNIPA la cura degli aspetti informatici), Normeinrete ha ceduto il passo al progetto Normattiva. Esso ha mutuato parte dei risultati conseguiti soprattutto per quanto riguarda gli standard; per quanto riguarda l’architettura, invece, Normattiva ha preferito adottare inizialmente un approccio centralizzato, concentrando gli sforzi sulla creazione dei testi vigenti della normativa statale. Attualmente il sistema offre funzionalità di ricerca sugli atti normativi numerati statali pubblicati in Gazzetta Ufficiale, rendendo disponibili funzionalità di ricerca sui testi vigenti alla data indicata dall'utente.

Grazie all’adozione dello standard URN:NIR risulta estremamente facilitato il processo di predisposizione di link da qualsiasi sito per la visualizzazione di atti normativi: è infatti sufficiente utilizzare gli estremi dell’atto, ed invocare il risolutore indicando opportunamente il tipo di provvedimento come prescritto dallo standard URN:NIR (ad esempio, per un decreto legge: http://www.normattiva.it/uri-res/N2Ls?urn:nir:stato:decreto.legge:AAAA-MM-GG;NNN).

Normattiva utilizza inoltre il software per il parsing normativo rendendo disponibile una funzionalità "Attiva riferimenti normativi" per trasformare il testo semplice contenente il riferimento ad un atto in un link all'atto stesso.

Sono attualmente allo studio, in collaborazione con la Conferenza dei Presidenti delle Assemblee legislative delle regioni e delle provincie autonome, alcune linee di evoluzione del portale orientate a riprendere un modello architetturale di tipo federato: in tal modo sarà possibile offrire ai cittadini un punto unico di accesso alla normativa regionale e statale preservando al tempo stesso l’autonomia delle Regioni nella pubblicazione della normativa di propria competenza (per una panoramica storica sui progetti d’informatizzazione del patrimonio normativo italiano si può consultare Carlo Marchetti, Il Senato della Repubblica e l’evoluzione del sistema informativo parlamentare in L'informatica giuridica in Italia, a cura di G. Peruginelli, M. Ragona, ESI, 2014).

Il sistema Normattiva consente di effettuare il download di singoli di documenti, rendendo disponibili diversi formati tra cui XML-NIR, soltanto in maniera interattiva. Non sono pertanto disponibili per il download collezioni di norme statali.

Le Regioni dispongono di propri sistemi di pubblicazione degli atti normativi. Molte di esse hanno preso parte a Normeinrete e dispongono quindi di testi identificati da URN e marcati in XML-NIR. Anche per le Regioni sono disponibili funzionalità per il download di singoli provvedimenti, ma non per collezioni.

Atti parlamentari
I siti web di Camera e Senato

I siti delle istituzioni parlamentari, Camera dei deputati e Senato della Repubblica, rendono disponibili alla ricerca e all’accesso tutti gli atti parlamentari; tra essi, i disegni di legge del Senato sono disponibili anche nel formato definito dallo standard XML Akoma Ntoso sopra descritto. Le istituzioni parlamentari hanno inoltre realizzato siti Open Data ad hoc, rispettivamente dati.camera.it e dati.senato.it, che rendono disponibili molte informazioni relative alle attività parlamentari e ai soggetti che vi prendono parte, anche rappresentate nella forma e con le modalità dei Linked Open Data e pertanto arricchite da informazioni sulle relazioni tra entità. Tra questi, sono disponibili come Linked Open Data anche l'elenco dei Disegni di Legge presentati alla Camera e al Senato, gli iter legislativi, le loro variazioni e i relativi interventi dei parlamentari in Aula e nelle Commissioni, scaricabili in dataset omogenei e potendosi anche selezionare il range di date dei documenti in essi contenuti.

Open data e Linked Open Data normativi

Open data normativi
Open Data e Linked Open Data

L’applicazione dei principi dell’Open data nel contesto delle informazioni a carattere normativo può riguardare la disponibilità di collezioni di atti normativi o di Linked Open Data che rendano accessibili in forma di triple RDF le relazioni tra atti.

La disponibilità di intere collezioni di testi in formato aperto disponibili per il riutilizzo, corredate di opportune licenze d’uso e di metadati, non è attualmente presente per la legislazione italiana. Tale opportunità è invece prevista per il contenuto della banca dati EUR-Lex, che prevede la possibilità di scaricare e riutilizzare gratuitamente il contenuto della banca dati, reso disponibile al download in XML dopo aver effettuato una richiesta tramite un modulo on-line.

Si è prima illustrato come gli elementi propri degli atti legislativi rendano corpus normativo "naturalmente" idoneo a essere rappresentato come Linked Open Data; e come l’adozione degli standard di marcatura XML e di identificazione, in grado di riferire un intero atto o una sua parte tramite URI, consentano di esprimere agevolmente relazioni tra atti - o tra parti di essi - ed implementare il modello dei Linked Open Data.

Ognuno dei metadati associati a una norma ed ognuna delle relazioni esistenti tra due atti può dare origine ad una tripla RDF il cui insieme implementa la "nuvola giuridica" prefigurata inizialmente. Le innumerevoli altre triple che esprimono relazioni tra gli atti normativi e risorse informative di altri domini - come ad esempio entità corrispondenti a concetti, luoghi, persone o eventi pubblicati da Dbpedia - ne determinano l'inserimento all’interno della più ampia Linked Open Data Cloud.

Metadati

Agli open data normativi si applicano le considerazioni che possono farsi per gli open data in genere relativamente ai metadati.

Metadati degli atti normativi

I metadati fondamentali da associare agli atti legislativi comprendono:

  1. l’autorità emittente;
  2. il tipo di atto (legge, decreto legislativo, decreto-legge, legge regionale, etc.);
  3. l’ambito territoriale di applicabilità;
  4. la classificazione per materia, secondo uno o più schemi;
  5. le date d’interesse per l’atto o per le sue parti (data di pubblicazione, data di entrata in vigore, data di abrogazione, etc.);
  6. la lista dei documenti correlati (atti modificanti e modificati, proposte di legge da cui il provvedimento ha avuto origine, giurisprudenza correlata, pronunce della Corte Costituzionale che lo riguardano, relazioni con direttive europee eventualmente recepite dall’atto, etc.);
  7. gli alias con cui il documento conosciuto;
  8. i riferimenti di pubblicazione ufficiale;
  9. il link alle locazioni fisiche su cui sono disponibili copie dell’atto (manifestation) e informazioni sul relativo editore.

Ai fini di favorire l’interoperabilità semantica è necessario che per la rappresentazione di metadati si utilizzino il più possibile vocabolari già esistenti e condivisi, come ad esempio Dublin Core Metadata Element Set per la descrizione delle informazioni di tipo bibliografico.

Insieme a questi, potranno poi essere integrati vocabolari specifici: i principali tra di essi sono descritti brevemente nei paragrafi che seguono.

Schemi di classificazione

Un elemento importante per le collezioni documentali legislative è costituito dallo schema di classificazione adottato per i metadati descrittivi.

Nell’attuale scenario non esiste uno schema adottato universalmente; i due principali sono Teseo ed Eurovoc. Entrambi sono attualmente disponibili in RDF/SKOS: tale caratteristica offre la possibilità di creare collegamenti tra Teseo ed Eurovoc creando i presupposti per un'eventuale conciliazione tra i due schemi, con le conseguenti possibilità di integrazione anche multilingua tra sistemi di ricerca di atti parlamentari.

TESEO
TESEO

TESEO (TEsauro SEnato per l'Organizzazione dei documenti parlamentari) è uno schema di classificazione usato nelle più importanti banche dati del Senato. Il thesaurus, finalizzato alla classificazione per materia di atti parlamentari e legislativi che abbracciano tutta la realtà sociale, non è specializzato su discipline specifiche e comprende oltre 3.600 descrittori suddivisi in 46 aree tematiche (top terms), organizzati secondo la struttura logica della Classificazione Decimale Universale (CDU) .

Il sistema di relazioni gerarchiche in cui sono strutturati i descrittori consente di evidenziare, per ciascuno di essi, la presenza di termini più ampi (BT = Broader Term), più specifici (NT = Narrower Term), sinonimi (UF = Use For), o eventuali termini associati (RT = Related Term).

EuroVoc
EuroVoc

EuroVoc è un thesaurus multilingue e pluridisciplinare che comprende la terminologia dei settori d'attività dell'Unione europea, con un'attenzione particolare per l'attività parlamentare. È disponibile nelle 23 lingue ufficiali dell'Unione europea (bulgaro, ceco, croato, danese, estone, finlandese, francese, greco, inglese, italiano, lettone, lituano, maltese, neerlandese, polacco, portoghese, rumeno, slovacco, sloveno, spagnolo, svedese, tedesco e ungherese), nonché nella lingua di un paese extra UE (serbo).

Il thesaurus EuroVoc viene utilizzato dal Parlamento europeo, dall'Ufficio delle pubblicazioni, da parlamenti nazionali e regionali in Europa, come anche da amministrazioni nazionali e utenti privati di paesi europei e non.



Un confronto internazionale

La presente sezione presenta una rassegna delle migliori pratiche portate avanti dai parlamenti (ed eventualmente altre assemblee elettive), a livello internazionale. Possibili esempi: UK, US, Francia, Austria, Australia, Nuova Zelanda, Canada, altri? Suggerimento per la comparazione: adottare design di Open Data Census per descrivere le prassi parlamentari in Europa. L'Open Data Census prende come riferimento 10 dataset che tutti gli stati messi a confronto tra loro posseggono, per verificare se i dati sono aperti, a quali condizioni, con quale licenza/formato, etc. Provare a fare la stessa cosa a livello più basso per i soli dati parlamentari.

In questo paragrafo si presentano i risultati di una rassegna condotta rispetto alla pubblicazione di dati aperti da parte dei parlamenti, a livello internazionale. Le riflessioni svolte alla luce dei risultati di tale rassegna tendono ad evidenziare tanto i principali aspetti pratici che possono agevolare il riutilizzatore nella ricerca e fruizione dei dati, quanto le buone pratiche attualmente portate avanti in questo senso dai diversi parlamenti.

Nota metodologica sull'analisi dell'offerta dei parlamenti

Il confronto è stato condotto rispetto ad un numero scelto di parlamenti europei ed extra-europei. L'ambito dell'analisi, che esprime una presenza maggioritaria di parlamenti europei, è stata da un lato orientata nel senso di includere parlamenti afferenti a quegli ordinamenti che notoriamente rappresentano un modello di riferimento in quanto profittevoli 'praticanti di lungo corso' del paradigma Open Data (tra cui Stati Uniti e Regno Unito), ma non ha pretese di esaustività, nella consapevolezza che un confronto completo delle realtà presenti nello scenario internazionale avrebbe richiesto mezzi e tempi che eccedevano le disponibilità del presente studio. Il numero iniziale di parlamenti considerati è stato ampliato, ed i rilievi che seguono sono stati rifiniti, alla luce delle risposte ad un questionario sull'impiego di social media e open data da parte delle istituzioni parlamentari - distrubuito in vista del seminario CERDP From e-Parliament to smart-Parliament, organizzato da Camera dei deputati e dal Senato della Repubblica il 12-13 giugno 2014, e messo a disposizione per la stesura del presente report. Le risposte fornite al questionario sono state oggetto di ulteriore verifica tramite consultazione diretta dei siti web delle istituzioni parlamentari campione; in questo senso, si è volutamente assunto un punto di vista non privilegiato, ossia quello del “semplice” cittadino utente-riutilizzatore che si appresti a navigare il sito istituzionale del proprio parlamento (e quello dei parlamenti di altri paesi) per vagliare la presenza di dati e informazioni.

Rispetto ad ogni parlamento è stata verificata la disponibilità o meno di informazioni e documenti in forma di Open Data, in accordo con l'Open Definition (ovvero secondo modalità che ne consentano il libero accesso e riutilizzo), esaminando inoltre il formato impiegato per pubblicare dati e la licenza ad essi associata; in mancanza di licenza esplicita, si è cercato comunque - per quanto possibile - di risalire allo status giuridico dell'informazione sotto il profilo del diritto d'autore, verificando in ultima istanza se essa sia effettivamente riutilizzabile e a quali condizioni. Considerate le peculiari funzioni e la struttura dell'istituzione Parlamento, si è ritenuto di condurre la verifica ricomprendendo i dati eventualmente disponibili entro quattro tipologie di atti o documenti: Composizione del parlamento (gruppi, commissioni, etc.); Informazioni sui parlamentari e la loro attività; Atti e processo normativo, votazioni; Documenti non legislativi (es. i prodotti degli uffici studi); Budget, spese e altre informazioni contabili.

È possibile consultare le informazioni di cui sopra, reperite per ognuno parlamenti esaminati, nella pagina contenente le risposte al questionario; in fondo al capitolo è disponibile inoltre una tabella comparativa. Va precisato che, tanto nelle singole pagine quanto nella rilevazione tabellare, ai parlamenti che non pubblicano dati aperti sono stati equiparati quei parlamenti che, non avendo esplicitato chiaramente le condizioni di accesso e riutilizzo rispetto all'informazione presente sul proprio sito web, non mettono in condizione l'utente-riutilizzatore di sapere con certezza se sia possibile condividere e riutilizzare i contenuti pubblicati. In quest'ultimo caso, per quanto possibile, si è tentato di ottenere un chiarimento via e-mail presso i contatti indicati nei diversi siti istituzionali circa l'effettiva possibilità di riutilizzo (avendosi ottenuto riscontro da parte di Estonia, Georgia e Nuova Zelanda).

Le rilevazioni effettuate mediante consultazione dei siti web parlamentari sono aggiornate al 28 novembre 2014.

E’ bene tuttavia segnalare che l’estrema attenzione al tema degli Open Data manifestata da parte dei parlamenti e la viva dinamicità che caratterizza le loro iniziative nel settore fanno ritenere estremamente probabile che lo scenario internazionale sia di fatto soggetto a rapide evoluzioni, sia in termini di scelte tecnologiche operate sia in termini di dimensione e tipologia della offerta di Open Data parlamentari.

Differenti modalità di pubblicazione dei dati

Al di là della principale demarcazione tra parlamenti che pubblicano e parlamenti che non pubblicano dati in modalità 'open', un primo rilievo palese che emerge dalla rassegna condotta riguarda le modalità adottate dai parlamenti nel mettere a disposizione i propri dati.

Siti-web dedicati

In alcuni paesi sono stati infatti lanciati progetti volti alla pubblicazione di open data parlamentari attraverso siti web dedicati come Dati.camera.it e Dati.senato.it in Italia (varati, rispettivamente, dalla Camera dei deputati e dal Senato della Sepubblica), Data.riksdagen.se in Svezia, Data.stortinget.no in Norvegia, Data.parliament.uk nel Regno Unito. Tipicamente, questa modalità sottende una serie di decisioni propedeutiche alla scelta esplicita di imbastire un progetto Open Data, relative in particolare al formato, alle soluzioni tecnico-informatiche, ai termini legali e alle condizioni con cui sono messi a disposizione i dati, che per l'appunto si accordano (quando non ispirano direttamente) alle buone pratiche e alle raccomandazioni divenute prassi ormai consolidate presso la maggioranza di quanti pubblicano e riutlizzano dati aperti, nonché presso le community, gli attivisti e gli esperti del settore.

Sezioni del sito istituzionale

In altri casi, viene adibita una sezione apposita del sito web istituzionale mediante la quale abilitare il download di dati, come nella sezione bulk data messa a disposizione dal GPO’s Federal Digital System statunitense; oppure, le informazioni vengono raggruppate ed esposte, a seconda del loro contenuto, presso varie sezioni del sito web, adibite ad illustrare la composizione, le funzioni e le competenze del parlamento o di un suo singolo ramo.

Soprattutto in quest'ultimo caso - e in particolare laddove fosse mancata una fase di studio e di progettazione vere e propria, finalizzata alla realizzazione di un processo strutturato di messa a disposizione di dati aperti - la modalità scelta non sempre si accorda in toto con le prassi ottimali o le definizioni individuate dagli standard di pubblicazione degli Open Data (5 stelle di Tim Berners-Lee; Open Data Definition). Questa eventualità non è infrequente dal momento che, quando le informazioni sono 'semplicemente' pubblicate nello stato in cui si trovano, può accadere che si trascurino quegli aspetti capaci di rendere davvero efficace la pubblicazione di dati nell'ottica del loro riutilizzo (come, ad esempio, scelte relative all'apertura tecnica e giuridica dei dati, l'adozione di una licenza aperta o di una nota legale che espliciti le condizioni di riutilizzo, la realizzazione di guide o altro materiale informativo a beneficio dell'utente-riutilizzatore), sovente confidandosi nell'esistenza di una generica - pur se opportuna e desiderabile in se stessa - previsione di legge che esclude l'operatività del diritto d'autore su particolari tipologie di informazione pubblica o le ascrive direttamente nel pubblico dominio.

Lo status giurdico dei dati pubblicati: un'esigenza di certezza

Come si è già accennato nel primo capitolo, l'incertezza rappresenta un deterrente primario alle possibilità generative insite nel reimpiego dell'informazione, poste a premessa e promessa del concetto di Open Data, inteso appunto quale riutilizzo inatteso ed ulteriore di dati preesistenti. Questa osservazione risulterà evidente (ed in fondo banale) qualora si consideri che, tanto nel riutilizzo dell'informazione quanto in qualsivoglia altra forma di traffico o atto umano, prima ancora che giuridico, l'esigenza insopprimibile che guida ogni azione è appunto la certezza in ordine ai presupposti e alle conseguenze di tale agire.

Note legali e termini d'uso

In questo senso, si deve constare come l'eterogeneità riscontrata circa le modalità di pubblicazione dei dati si rispecchi nelle differenze apprezzate rispetto alla predisposizione di avvisi, disclaimer o note informative che illustrano il regime giuridico sui dati pubblicati e le eventuali condizioni poste per la fruizione e circolazione degli stessi. Mentre la maggioranza dei parlamenti considerati esplicita i termini d'uso o include una nota sul copyright relativo ai contenuti del sito web, in alcuni casi non se ne è riscontrata la presenza (così, ad esempio per i parlamenti di Andorra, Nuova Zelanda, Serbia e Slovacchia). In altri casi, invece, pur essendo reperibili termini d'uso e/o una copyright notice, essi non risultano poi chiari nell'esplicitare se i dati siano effettivamente aperti (così in Bosnia, Repubblica Ceca e Slovenia).

Certezza giuridica e chiarezza terminologica

L'assenza di tali strumenti informativi o la loro poco chiarezza risulta decisamente deleteria per ogni istituzione parlamentare che si sia impegnata nel processo di messa a disposizione del proprio patrimonio informativo; ciò proprio perché si rischia così di minare in radice l'efficacia stessa – e quindi ogni ricaduta positiva – della scelta che si è operata nel senso dell'apertura. La mancanza di chiarezza circa il regime delle informazioni e dei dati, pur di per sé disponibili online, rappresenta infatti uno scoglio pratico per qualsiasi riutilizzatore accorto che pretenda di avere un minimo di certezza rispetto allo status legale dei dati, prima di impiegarli. Ciò e ancor più vero per i ri-utilizzatori c.d. 'cross-border', i quali, oltre allo scoglio costituito dalla lingua, verosimilmente non sono a conoscenza della normativa nazionale adottata in un ordinamento straniero in tema di accesso alle informazioni pubbliche, dell'applicabilità o meno di norme relative al diritto d'autore sull'informazione pubblica e della possibilità o meno di riutilizzare i dati messi a disposizione dal parlamento secondo le norme relative alla Public Sector Information, come recepite nazionalmente. Risulterà evidente, quindi, quanto la necessità di scovare e ricostruire da sé il regime giuridico complessivo combinando assieme le note di copyright, i termini di utilizzo del sito web e il quadro normativo di riferimento definito da fonti legislative - nella peggiore delle ipotesi non richiamate nelle note legali - sia costoso e dissuasivo.

Sempre a beneficio della chiarezza verso gli utenti, qualora siano già presenti può essere utile effettuare un esercizio di aggiornamento e coordinamento delle note legali del sito: includendovi cioè un riferimento esplicito al quadro normativo circa l'accesso e riutilizzo dell'informazione (copyright - o assenza di copyright – sull'informazione; norme di recepimento della Direttiva PSI e norme correlate in tema di accesso e riutilizzo, come il CAD e il Decreto Trasparenza italiani) ed alle scelte operate rispetto alle modalità di apertura (ad es., adozione di un modello di licenza standard per l'impiego dei dati); come pure richiamando nelle note legali del sito web del parlamento o del ramo parlamentare (ad es., www.camera.it) eventuali condizioni per il riutilizzo previste all'interno delle note legali del servizio Open Data, se fornito su un sito web autonomo (ad es., dati.camera.it) e nel caso in cui le note legali del primo sito web non menzionino le condizioni previste dalle note legali del secondo.

Altrettanta cura andrebbe prestata rispetto alla terminologia che si intende impiegare: ad esempio, per illustrare il c.d. divieto di misrepresentation (cioè di fare un riutilizzo dell'informazione tale da trarre in inganno terzi o che l'informazione di partenza venga travisata) Svizzera e Spagna adottano una terminologia potenzialmente fuorviante che rischia di far ritenere che sia vietato anche modificare l'informazione tout court o quel tanto necessario al fine di creare un'opera derivata (ciò che si verifica - banalmente - ogni volta che il dato non sia riprodotto tale e quale; ad esempio perché inserito in una diversa banca dati assieme ad altri dati, quando non maneggiato ulteriormente al fine di trarre da esso inferenze, unitamente ad altri dati e informazioni). Oltretutto in entrambi gli esempi risulta già prevista un'autonoma condizione che vieta di alterare il senso o di lasciare intendere che l'informazione riutilizzata abbia natura ufficiale.

Reperibilità e fruibilità dei dati

Versione inglese e look & feel del sito

Si è accennato poco sopra come proprio la lingua rischi di tramutarsi involontariamente in un ostacolo alle possibilità di riutilizzo. Considerare l'eventualità di fornire anche una versione in inglese del sito web relativamente alla sezione Open Data, o per lo meno rispetto ad alcune pagine-chiave, come quelle descrittive della funzione del servizio, dei contenuti e delle feature offerte, ridurrebbe di molto le difficoltà legate alla consultazione delle risorse. Comprensibilmente, non si può pretendere che siano oggetto di traduzione anche i singoli dati e contenuti (proposte di legge, votazioni, resoconti delle sedute, documentazione tecnica etc.), ma l'ambizione di essere foreign user-friendly rappresenta di certo una buona pratica; soprattutto se si ambisce a porsi nell'ottica di agevolare e stimolare l'impiego della propria base di dati presso la più vasta platea di riutilizzatori. Quanto detto risulterà evidente mediante la diversa impressione che si ricava approdando alla homepage della piattaforma open data svedese e di quella norvegese.

Anche lo stesso livello grafico-strutturale può essere valorizzato rendendolo tanto più efficace quanto più visibile ed esplicito: il posizionamento di link testuali o icone che puntano alla sezione open data andrebbe operato in modo da far risaltare quest'ultima il più possibile. L'ideale sarebbe rappresentato da una voce “Open Data” da inserire direttamente nel sommario del sito istituzionale (la quale, constando di un termine inglese risulta una voce evidente, autoesplicativa e - ancor - più chiara di data.riksdagen.se/ o dati.senato.it/); un link o un'icona posizionata in un angolo, in testa o in calce al sito web, potrebbe invece correre il rischio di passare inosservata al visitatore meno attento.

Infine, nuovamente per le opportunità sopra esposte legate alla facilità di consultazione, non pare disprezzabile la scelta operata in alcuni paesi di riunire le sezioni relative ai due rami all'interno di un singolo sito relativo al parlamento (cosi, tra gli altri, in Austria, Australia, Svizzera e Regno Unito). Dal momento che modificare radicalmente in tal senso una differente scelta architetturale comporterebbe verosimilmente un iter procedurale non banale, da sancirsi inoltre con accordi e formalità pratico-operative, risulta probabilmente più ragionevole lo sforzo di facilitare al massimo l'accessibilità alle informazioni pubblicate o alle sezioni open data a partire da tutti i siti istituzionali esistenti (sito del parlamento, sito dei rami del parlamento, eventuali siti open data dedicati), provvedendo anche a segnalare – come già detto - nelle note legali di ognuno di essi le condizioni previste per il riutilizzo di dati e informazioni.

Buone pratiche

In questo paragrafo vengono illustrate alcune buone pratiche nella messa a disposizione dei dati, corredate dall'implementazione concreta che si è riscontrata in essere presso vari parlamenti.

Realizzare una sezione del sito o una piattaforma Open Data ad hoc entro cui raccogliere ed organizzare tutti i dati e le informazioni che si intendono aprire. Questa opzione presuppone innanzitutto una scelta consapevole; la quale (generalmente ed auspicabilmente) implica l'esame e l'adozione di modalità espositive maggiormente strutturate - soprattutto dal punto di vista tecnico - rispetto alla 'mera' possibilità di fruizione dei contenuti, in qualsiasi modo siano stati pubblicati, che dovesse discendere unicamente da una previsione di legge o dall'assenza di vincoli normativi (come nel caso di informazioni non soggette a copyright).

Predisporre una versione inglese della pagina o delle pagine che illustrano i contenuti della sezione o del sito Open Data.

  • Il sito Open Data del Riksdagen svedese fornisce una pagina introduttiva in inglese contenente sintetica descrizione delle condizioni per il riutilizzo, delle tipologie di dati disponibili, delle API e dei contatti dei responsabili del sito. Sebbene non sia disponibile una versione inglese delle altre parti del sito che ne agevoli la consultazione rispetto alle relative sezioni (Data, Dokumentation), si tratta comuque di una scelta apprezzabile, per agevolare e quindi potenzialmente ampliare la base di visitatori, che soprattutto tiene conto dell'esistenza di eventuali riutilizzatori o utenti stranieri.

Fornire una guida utente, contenente descrizione dei dataset e relativa documentazione tecnica, che accompagni l'utente nei diversi passi necessari per il download dei dati.

  • L'US Government Printing Office mette a disposizione una User Guide per i bulk data sulle proposte di legge dell'House of Representatives, forniti in XML. Il portale Open Data norvegese fornisce una guida contenente la descrizione della base dati e ulteriori ragguagli tecnici (disponibile solo in norvegese). Il parlamento svizzero ha realizzato un documento informativo sull'utilizzo del proprio web service sui dati aperti.

Corredare il sito di una nota legale esaustiva e comprensiva di tutte le informazioni rilevanti per il riutilizzatore: ad es., status giuridico dell'informazione, con particolare riguardo per la normativa sul diritto d'autore; termini di riutilizzo dell'informazione in accordo con la normativa sulla PSI e altre disposizioni relative ad accesso e riutilizzo; menzione della licenza eventualmente adottata per condividere dati e informazioni, recapiti del soggetto o dell'ufficio responsabile per il riutilizzzo dell'informazione (e-mail; contatto telefonico).

  • Il sito dell'Oireachtas irlandese contiene una copyright and re-use note che regola il riutilizzo delle informazioni (richiamandolo esplicitamente anche nel titolo della nota sul copyright) e che fornisce un quadro completo circa le condizioni previste, la normativa di riferimento, lo status di ufficialità dei dati pubblicati ed il personale incaricato di fornire informazioni sul servizio.

Esplicitare una policy sui dati personali che avvisi il riutilizzatore rispetto alle responsabilità inerenti al trattamento di dati personali che dovessero essere presenti nei dataset, richiamando ad un riutilizzo conforme alle disposizioni vigenti in materia.

  • Il sito Open Data del Riksdag svedese include tra i propri Terms of use una policy esplicita sull'impiego di dati personali secondo la quale il riutilizzatore di dati contenenti dati personali deve assicurarsi di rispettare le disposizioni previste dal Personal Data Act (1998:204).

Collegare l'iniziativa di apertura dei dati ad obiettivi strategici più ampi che mirino non solo al conseguimento di benefici socio-economici esterni in termini di conoscenza, trasparenza, inclusività e innovazione, ma anche di ricadute positive interne che influiscano sull'efficacia, efficienza e semplificazione dei processi.

  • Il Riksdag svedese ha sviluppato una Open Data Strategy volta a sfruttare le potenzialità anche internamente: il sito web del Riksdag e l'applicazione Kammarappen per iPhones (disponibile per i membri del parlamento e che tiene traccia di attività e procedure ) sfruttano gli open data. Anche l'Intranet del Riksdag sfrutta in parte i dati aperti del Riksdag ed è stato sviluppato un procedimento standard per la pubblicazione dei dati affinché questi siano resi disponibili sul sito Open Data, recuperabili attraverso motore di ricerca ed esposti inoltre sul sito istituzionale del Riksdag [fonte: risposte questionario CERPD].

Promuovere e sostenere l'iniziativa di apertura dei dati attraverso hackathon e occasioni di confronto tra il parlamento, la comunità di riutilizzatori, le imprese e i cittadini.

  • In Italia, la Camera dei deputati ha organizzato nel 2014 l'hackathon Code4Italy@Montecitorio per fornire un contesto entro cui ampliare la conoscenza sui dati aperti parlamentari resi disponibili a partire dal 2011 e per promuoverne il riutilizzo da parte della comunità di sviluppatori e di tutti i soggetti interessati. In Norvegia, il servizio Open Data data.stortinget.no è stato promosso all'nterno di un hackathon organizzato dall'Agency for Public Management and eGovernment (Difi) [fonte: risposte questionario CERPD].

Approfondimenti utili

Openingparliament.org, il forum di organizzazioni specializzate in monitoraggio parlamentare, ha diffuso una survey sulla pubblicazione di dati aperti relativi alle votazioni da parte delle Camere elettive di duecento giurisdizioni, realizzata da Kamil Gregor - data analyst presso KohoVolit.eu e l'Università di Masaryk.


Tabella riassuntiva

PaeseTipologia di Licenza?Quali informazioni?In quali formati?Dove si trovano i dati?
AustriaLicenza aperta standardAtti e processo normativoXML
RSS
https://www.data.gv.at/auftritte/?organisation=parlament
IrlandaLicenza aperta nazionaleComposizione del parlamento
Gruppi
Commissioni
Atti e processo normativo
Budget
Spese e altre informazioni contabili
Votazioni
Informazioni sui parlamentari e la loro attività
PDF
HTML
File di testo
http://www.oireachtas.ie/parliament/
ItaliaLicenza aperta standardComposizione del parlamento
Gruppi
Commissioni
Atti e processo normativo
Votazioni
Documenti non legislativi
Informazioni sui parlamentari e la loro attività
RDF
XML
CSV
JSON
HTML
NorvegiaLicenza aperta nazionaleAtti e processo normativo
Votazioni
Composizione del parlamento
Gruppi
Commissioni
JSON
XML
http://data.stortinget.no/
OlandaAtti e processo normativoHTML
PDF
XML
ODF
https://zoek.officielebekendmakingen.nl/zoeken/parlementaire_documenten
Regno UnitoLicenza aperta nazionaleComposizione del parlamento
Gruppi
Commissioni
Informazioni sui parlamentari e la loro attività
Atti e processo normativo
Votazioni
Documenti non legislativi
Budget
Spese e altre informazioni contabili
HTML
XML
PDF
http://www.data.parliament.uk/
Stati UnitiAtti e processo normativoXLMhttp://www.gpo.gov/fdsys/bulkdata
SveziaInformazioni sui parlamentari e la loro attività
Atti e processo normativo
Votazioni
Documenti non legislativi
JSON
XML
SQL
HTML
TXT
CSV
http://data.riksdagen.se/
SvizzeraComposizione del parlamento
Gruppi
Commissioni
Votazioni
Atti e processo normativo
XML
JSON
XSD
http://www.parlament.ch/e/dokumentation/webservices-opendata/Pages/default.aspx

I seguenti Parlamenti sono stati monitorati, ma non pubblicano Dati Aperti (ai sensi della Open Definition) oppure pubblicano dati senza esplicitarne chiaramente le condizioni di accesso e riutilizzo: Albania, Andorra, Australia, Bosnia, Canada, Estonia, Finlandia, Francia, Georgia, Germania, Grecia, Lituania, Nuova Zelanda, Portogallo, Repubblica Ceca, Russia, Serbia, Slovacchia, Slovenia, Ungheria.