Sicilia: ecco le informazioni per provincia sulla COVID-19, in formato machine readable e aperto
Il 23 Marzo scorso la nostra comunità ha pubblicato una lettera aperta indirizzata alla Regione Siciliana con la quale ha chiesto di rendere disponibili in un dataset machine readable dati di dettaglio relativi all’epidemia COVID-19 in Sicilia.
La richiesta era motivata dall’esigenza di colmare un vuoto rendendo disponibili dati di dettaglio a livello provinciale sull’epidemia, in modo da consentire studi e analisi non soltanto su base regionale, ma anche per ciascuna delle nove province siciliane (invero nella lettera aperta, tuttora senza risposta, si chiede anche la disponibilità di altri dati di dettaglio, disaggregati per comune, per sesso, per fasce di età, ecc.).
La Regione Siciliana dal 5 Marzo scorso pubblica con sostanziale regolarità (anche se con una certa variabilità di tipologia) le informazioni relative all’epidemia COVID-19 in Sicilia; riguardano l’intero territorio regionale, di cui per alcuni viene fornito il dettaglio per ciascuna provincia, e specificato che si tratta dei dati giornalmente trasmessi all’Unità di Crisi Nazionale (dati successivamente raccolti e resi noti dal Dipartimento della Protezione Civile).
Relativamente ai dati provinciali, il Dipartimento della Protezione Civile si limita a pubblicare dataset contenenti soltanto i dati giornalieri relativi al numero complessivo dei soggetti contagiati dal virus (nel campo totale_casi), per cui le uniche analisi possibili a livello provinciale possono limitarsi soltanto a questo valore, mentre la Regione Siciliana, sempre a livello provinciale, non rende disponibile alcun dataset, utilizzabile per l’analisi di un maggior numero di parametri, limitandosi ad includere alcuni dati all’interno dei comunicati stampa quotidiani (caratterizzati da testo discorsivo e immagini) che non sono di alcuna utilità allo scopo se non per il semplice fatto di essere comunicati; tali dati, per essere analizzati e generare qualsiasi tipo di studio, report o visualizzazione hanno bisogno di essere raccolti e strutturati all’interno di tabelle in formati open e machine readable che ne consentano appunto un proficuo utilizzo.
In attesa di ricevere una risposta nei fatti, OpenDataSicilia ha trasformato i comunicati stampa in una tabella machine readable. È accessibile al momento in due modalità:
- in 👉 formato
CSV
(encodingUTF-8
e,
come separatore), con un file di insieme che contiene tutti i dati; - come foglio elettronico online. Da notare che questo è il nostro file di lavoro, la fonte dati è il suddetto file.
I dati raccolti e strutturati in un dataset pubblicato su Github derivano quindi dai comunicati stampa della Regione Siciliana, con alcune integrazioni a partire dal dataset provinciale del Dipartimento della Protezione Civile, integrati nei primi giorni – dal 24 Febbraio al 5 Marzo 2020 – con notizie di stampa locali, e con i dati che, pur non esplicitamente comunicati, è stato comunque possibile ricavare applicando dei semplici calcoli.
Per alcuni dati invece (ad es. il numero di tamponi effettuati o il numero di pazienti ricoverati in terapia intensiva) non è stato possibile avere informazioni disaggregate per singola provincia.
I dati così raccolti sono stati strutturati, per uniformità, secondo lo schema adottato dal Dipartimento della Protezione Civile (DPC) e sottoposti a verifiche di consistenza che hanno evidenziato solo alcuni casi, pochi fortunatamente, in cui si sospetta dell’accuratezza dei dati esposti.
Quanto prodotto da DPC è prezioso, perché fa da riferimento. È infatti un caso abbastanza unico in Italia: è raro trovare dei dataset in qualsiasi portale open data della Pubblica Amministrazione, così curati, ben descritti e pronti all’uso.
È così finalmente abbiamo un dataset che consente di effettuare delle visualizzazioni e delle analisi, sui dati COVID-19 a livello di singola provincia siciliana. A seguire due esempi dimostrativi di due visualizzazioni automatiche di riepilogo che adesso è possibile fare con questi dati (la seconda, grazie Totò Fiandaca) rappresenta dati, prima non disponibili.
!function(){“use strict”;window.addEventListener(“message”,function(a){if(void 0!==a.data[“datawrapper-height”])for(var e in a.data[“datawrapper-height”]){var t=document.getElementById(“datawrapper-chart-“+e)||document.querySelector(“iframe[src*='”+e+”‘]”);t&&(t.style.height=a.data[“datawrapper-height”][e]+”px”)}})}();
!function(){“use strict”;window.addEventListener(“message”,function(a){if(void 0!==a.data[“datawrapper-height”])for(var e in a.data[“datawrapper-height”]){var t=document.getElementById(“datawrapper-chart-“+e)||document.querySelector(“iframe[src*='”+e+”‘]”);t&&(t.style.height=a.data[“datawrapper-height”][e]+”px”)}})}();
Per maggiori informazioni vi invitiamo a consultare i dati stessi e la documentazione disponibile sul repo creato partendo dal file README.
Il nostro auspicio è che la Regione pubblichi presto questi dati o in alternativa che anche i dati di dettaglio provinciale vengano resi disponibili nel repository del DPC.