Pubblica i dati della tua tesi sperimentale
Stai scrivendo una tesi sperimentale, e ti chiedi come fare per allegare i dati che hai raccolto? A stento sai accendere un PC e credi di non essere in grado di risolvere questo problema? Ecco qui una guida super easy che ti seguirà passo passo 😉
Qualche mese fa ho aiutato una mia carissima amica (ciao Chiara!) che aveva proprio questo problema e sempre più spesso arrivano da più parti richieste di aiuto in tal senso.
Il problema
L’obiettivo è quello di allegare alla nostra tesi sperimentale i dati grezzi con cui abbiamo lavorato. Come fare? Qualcuno (pazzo) potrebbe pensare di copiare una tabella da Excel e di incollarla nelle ultime pagine della tesi che si sta scrivendo in Word (che verrà poi convertita in PDF). Così facendo, non solo rischiamo di mandare in stampa decine e decine di pagine piene zeppe di tabelle illeggibili, ma limitiamo anche la possibilità di lavorare in futuro con quei dati: le persone che vorranno verificare le nostre affermazioni basandosi sugli stessi dati che abbiamo utilizzato noi non avranno la possibilità di farlo.
La soluzione
Esiste una soluzione (semplice) che consente di risolvere entrambi i nostri problemi; prendiamo due piccioni con una fava.
Basta pubblicare i nostri dati in formato aperto ovvero caricarli in una sorta di mega cartella condivisa (che le ricercatrici e i ricercatori utilizzano proprio per scambiarsi dati). Una volta che i dati sono online, ci limiteremo a incollare nella nostra tesi il link univoco e persistente che punta a quei dati. Ma come si pubblicano questi dati? E soprattutto, dove?
Step 1: prepara i dati tabellari
Se state scrivendo una tesi sperimentale e avete un paio di dati che avete analizzato e graficato, mi gioco la testa che state usando Excel (bleah) o Google Sheet (<3). Il tool utilizzato non è determinante, l’importante è seguire alcune semplici best practices:
- compilare i fogli a partire dalla cella `A1`;
- NON unire celle;
- avere una riga per ogni osservazione e una colonna per ogni variabile (leggi di più);
- non utilizzare spazi e caratteri speciali nei nomi delle colonne, preferire “_” (leggi di più);
Step 2: esporta i dati
Avendo rispettato queste condizioni, siamo prontə a esportare i dati, ovvero salvarli sul nostro PC in un formato neutro (che possa essere aperto da tuttə).
Se stai utilizzando Google Sheet, fai click su File > Scarica > Valori separati da virgole (.csv)
Partirà il download di un file con estensione .csv (uno dei formati neutri più utilizzati per la condivisione di dati).
Se invece stai utilizzando Microsoft Excel oppure Libre Office Calc (il software libero equivalente), fai click su File > Salva con nome. Dalla finestra che si apre, scegli il percorso in cui vuoi salvare i tuoi dati e un nome per il file (preferibilmente privo di spazi). Fai click sul menù a tendina disposto sotto la voce “Salva come” e seleziona CSV (delimitato dal separatore di elenco).
Step 3: descrivi i dati
Abbiamo il file .csv con i nostri dati ma chi aprirà quel file e vorrà analizzarlo per verificare le nostre affermazioni si troverà davanti ad una barriera non indifferente:
- che cosa significano i nomi delle colonne che abbiamo scelto?
- quali tipi di dati sono contenuti nelle colonne delle nostre tabelle?
- chi ha raccolto i dati?
A queste domande si può rispondere solo descrivendo i dati. Non preoccupatevi, nulla di difficile!
Possiamo usare un tool online (Data Package Creator) raggiungibile a questo link https://create.frictionlessdata.io/.
Una volta atterratə qui, sarà necessario fare click su Load e selezionare il file con estensione .csv che abbiamo prodotto nello step precedente.
Il tool ha letto i dati che abbiamo fornito. A questo punto facciamo click su + Add all inferred fields
È arrivato il momento di conferire significato ai nomi delle colonne: per ognuna di esse, infatti, è stata creata una card con dei campi che dovremo compilare.
- Title: Inserire il nome completo della colonna (puoi utilizzare maiuscole e spazi);
- Description: Scrivere una frase che sia in grado di descrivere il contenuto della colonna;
- Data Type: Selezionare il tipo di dati (`string` se le celle contengono testo, `number` se contengono numeri)
Dopo aver descritto tutte le colonne, completiamo i campi che servono a descrivere il package che contiene i nostri dati dalla barra sinistra (un package può contenere più file .csv)
- Name: nome del pacchetto che contiene i dati (minuscolo senza spazi);
- Title: titolo del pacchetto (puoi utilizzare maiuscole e spazi);
- Description: descrizione dei dati contenuti nel pacchetto;
- Author: il tuo nome e il tuo cognome;
- License: seleziona la licenza con cui vuoi rilasciare i dati. Se vuoi dare a tuttə la possibilità di riutilizzare i tuoi dati con il solo vincolo di citarti, seleziona “CC-BY 4.0”. Si tratta di una delle licenze più utilizzate per rilasciare dati (leggi di più)
Abbiamo quasi finito! Facciamo click su Validate. Se compare una finestra verde con scritto Data package is valid! possiamo stare serenə.
L’ultimo passo che dobbiamo fare è Download per scaricare il file che contiene le informazioni che abbiamo fornito. Lasciamo il nome standard `datapackage.json`
Step 4: pubblica i dati
Adesso abbiamo veramente tutto quello che ci serve: dati (file .csv) e metadati (.json). L’ultimo passo è caricare questi file nella mega cartella condivisa che abbiamo introdotto all’inizio e a cui adesso possiamo dare un nome: Zenodo.
Dirigiti su https://zenodo.org e registrati facendo click su Sign up e seguendo la procedura guidata.
Dopo aver effettuato la registrazione, fai click su Upload > New upload > Choose files. Si aprirà una finestra dalla quale potrai selezionare i due file che abbiamo predisposto. Poi sarà necessario fare click su Start upload per permettere a Zenodo di “conservare” i file che abbiamo fornito.
Scrolla un po’ per accedere alle sezioni successive. Dal box Upload type seleziona Dataset (perchè stiamo pubblicando dei dati).
Dal box Basic information fai click su Reserve DOI (per generare quel codice univoco che identificherà i nostri dati “per sempre”). Compilare poi i campi:
- Publication date inserendo la data di pubblicazione nel formato YYYY-MM-DD (e.g. 2022-05-02 che sta per 2 maggio 2022)
- Title
- Authors
- Description
- Language
Dal box License:
- Flaggare Open Access
- dal campo License, come prima, selezionare Creative Commons Attribution 4.0 international.
I campi obbligatori sono finiti, se vuoi, puoi continuare a compilare i campi opzionali (più informazioni fornisci, più i tuoi dati saranno completi e facilmente raggiungibili online).
Per concludere la procedura di pubblicazione, scrolla fino alla fine della pagina e fai click su Save > Publish > I Understand
Se vuoi saperne di più, guarda questo video su Zenodo a cura dell’Associazione onData.
Step 5: ottieni link
I nostri dati sono online e finalmente abbiamo ottenuto il link univoco e persistente che potremo incollare nella tesi. In particolare troveremo il link che ci interessa nella sezione Cite as e sarà del tipo `https://doi.org/00.0000/zenodo.00000000` (lo zero sarà sostituito da numeri che identificheranno i vostri dati).
Conclusioni
In questa piccolissima guida abbiamo visto insieme come pubblicare dati aperti per assicurare la riproducibilità e avvicinarci al magico mondo dell’Open Science. Condividila pure con le tue colleghe e i tuoi colleghi; noi di Open Data Sicilia non ci guadagniamo nulla ma ci piace pensare che questo tutorial possa essere un semino per diffondere la cultura dei dati aperti e ben descritti <3
Ricorda sempre: mai pubblicare un PDF con tabelle i cui dati non siano stati appositamente pubblicati in formato aperto!
Se vuoi saperne di più sulle best practices da seguire quando si pubblicano dati in formato CSV, puoi leggere la Guida pratica per la pubblicazione di CSV a cura dell’associazione onData.
Se invece ti incuriosisce il mondo dei dati aperti in generale, puoi valutare la possibilità di unirti a noi 😉