Uso responsabile ed etico delle mappe
Lyzi Diamond – che attualmente è docs lead presso heroku, che in precedenza ha lavorato presso glitch, mapbox, maptimehq, codeforamerica e oregongeology – circa 10 giorni fa ha redatto un thread twitter molto bello sull’uso responsabile ed etico delle mappe, per evitare di raccontare una storia sbagliata.
Quando l’ha scritto era tra le pochissime che sottolineasse l’inadeguatezza di molte scelte di rappresentazione cartografica di tante mappe sul COVID19. Lei lo ha fatto a partire proprio da quella che ad oggi è stata più diffusa.
Da quel giorno altre e altri si sono uniti.
Ci è sembrato e ci sembra ancora un contributo prezioso sul tema e abbiamo voluto crearne una traduzione in italiano. Un grazie a Paola Masuzzo per il tempo che ha dedicato alla cosa.
Il thread
Ciao a tutti, facciamo un altro Twitter-torial sulle mappe! L’argomento di oggi è la visualizzazione di dati aggregati. Si tratta per lo più di una critica a questa mappa, che probabilmente avrete visto circolare un bel po’.
È una mappa che mostra dati importanti! Ma ho qualche problema con le tecniche utilizzate.
Conosciamo tutti le mappe che visualizzano dati aggregati. La più nota tra tutte è probabilmente la mappa coropletica: mostra aree geografiche riempite con un colore o un motivo, per rappresentare informazioni relative a quelle aree.
Un esempio è questa elettorale della BBC:
I colori sulla mappa rappresentano delle informazioni: ad esempio, quale partito ha vinto le elezioni in un distretto e con quale percentuale. Le mappe coropletiche hanno dei limiti (spesso legati a ipotesi fatte su aree geografiche estese), ma sono comunque utili per mostrare dati aggregati per aree.
Esistono altri due modi comuni di visualizzare dati aggregati: le “mappe a densità di punti” e quelle con simboli di dimensioni variabili rispetto a una parametro. Le “mappe a densità di punti” usano un punto per rappresentare un determinato numero di elementi che si vogliono mappare, e raggruppano i punti in un’area geografica.
Ecco un esempio di Bill Rankin (2009):
Ciascun punto rappresenta 25 persone nella città di Chicago. Ogni punto però non fornisce la locazione geografica precisa di quelle 25 persone, ma una posizione random dentro l’area geografica di interesse (assieme agli altri punti che appartengono alla stessa area geografica). Interessante, no? È di certo un bel modo per raccontare una storia.
Esistono anche le mappe a “simboli proporzionali”. In queste viene usato un simbolo (comunemente un cerchio) per rappresentare un’area geografica, e la dimensione e/o il colore del simbolo hanno una qualche relazione con una proprietà dei dati che si vogliono rappresentare. Un esempio: la mappa della diffusione del coronavirus sviluppata dall’istituto Johns Hopkins.
Nel caso specifico di questa mappa, ciascun punto rappresenta uno stato/provincia o Paese (dipende dalla regione geografica, negli Stati Uniti d’America sono gli stati), e il raggio del cerchio di ogni punto cresce al crescere dei casi di coronavirus confermati in quell’area geografica. (Da notare che la scala non è lineare, ma logaritmica!)
Cosa ci vuole dire questa mappa? Lo scopo sembra voler essere quello di mostrare (e quindi informare l’utente su) il numero totale dei casi di COVID-19 nel mondo. La domanda è: ci riesce? La risposta? Sì e no. Ecco alcune mie critiche su questa mappa.
1 Conoscere il numero totale di casi in una determinata area geografica è utile. Conoscere il numero totale di casi entro una specifica area politica… forse un po’ meno. Se vivo al confine tra Washington e Oregon (supponiamo a Portland), quel confine di stato per me non ha molto significato…
In termini di contenimento e misure adottate da uno specifico stato, sembra essere utile sapere quanti casi sono presenti al suo interno. Da un punto di vista epidemiologico, però, ai virus non importa granché di confini di stato. Si parla infatti di un concetto chiamato il “Problema delle unità areali modificabili”.
Questo problema riguarda il modo in cui la modifica dei limiti delle aree di studio può cambiare completamente i risultati di un’analisi spaziale. Questo conduce ad un errore ecologico: l’idea che questi confini abbiano importanza nell’interpretazione dei dati (per saperne di più, guardate questo Twitter-torial).
La mia modesta opinione, quindi, è che mostrare il numero di casi per area geografica è utile, ma solo in termini di risposta “ufficiale” di quell’area geografica/amministrativa (risposta ai dati che si stanno interpretando).
2 Questa è una mappa “slippy”, il che significa che posso scorrerla, ingrandirla e rimpicciolirla. Una cosa utile! Posso quindi fare zoom sulla mia città per verificare se ci siano casi riportati. Vivo a New York, dove so che ci sono casi. Ma cosa succede quando aumento lo zoom?
Non trovo niente! E sapete perché? Perché il simbolo graduato che rappresenta il numero di casi nello stato (stato=area geografica) è situato nel suo centroide geografico, triangolato approssimativamente tra Binghamton ed Oneonta.
Il centroide di un’area è la posizione media di tutti i suoi punti — non è proprio il “centro” dell’area, ma ci si avvicina. Se stessimo parlando di una mappa analogica (di carta), tutto ciò avrebbe molto più senso. È molto più semplice leggere la mappa quando facciamo zoom out! Ma..
… se io non sapessi come funzionano le mappe con simboli proporzionali, se non sapessi come vengono costruite, e quale messaggio cercano di trasmettere… ipotizzerei che NYC non abbia nessun caso di COVID-19 e che tutti i casi di New York sono concentrati intorno alla città di Downsville, New York. È lì che si trova il simbolo!
Inoltre, i simboli graduati scompaiono quando si fa uno zoom in avanti oltre il livello 7. Questo vuol dire che, anche se credessi che tutti i casi di New York sono localizzati in quell’area, non saprei nemmeno di preciso dove localizzarla, perché i simboli scompaiono sinché non si fa zoom indietro.
Dunque, come possiamo rendere questa mappa più chiara? Quali accorgimenti può prendere un cartografo per raccontare questa storia in modo più chiaro?
Un’opzione è quella di impostare dei limiti allo zoom. Semplicemente, non lasciare che l’utente possa fare zoom in avanti oltre un certo livello. Questa impostazione farebbe capire all’utente che non ci sono dati disponibili oltre una certa risoluzione/scala, e allo stesso tempo chiarisce che i simboli rappresentano un dato aggregato.
Onestamente, però, non riesco a capire del tutto che cosa sta cercando di mostrare o di raccontare questa mappa. Mostrare i casi confermati aggregati per stato o nazione non mi sembra una cosa molto utile. Piuttosto, che andamento hanno i casi nel tempo? Come potremmo visualizzare questo andamento? E le statistiche normalizzate per popolazione?
Sono consapevole che questi dati sono recenti e non sappiamo di preciso quanto siano affidabili, e so che è importante ottenere quante più informazioni possibile, che ci aiutino a capire che cosa sta succedendo. Il problema è che tutte queste mappe sono rischiose perché raccontano una storia sbagliata.
Un consiglio generale: quando si aggregano dei dati, bisogna per forza di cose rimuovere dettagli e sfumature. È nostra responsabilità, come cartografi, assicurarci di farlo in modo responsabile ed etico, in particolare condividendo la metodologia che adoperiamo e spiegando i risultati che otteniamo.
Inoltre, L’ALFABETIZZAZIONE SULLE MAPPE È IMPORTANTE E DOBBIAMO CONTINUARE A FARLA E TRASMETTERLA, ANCHE NELL’ERA DI GOOGLE MAPS. Le mappe sono strumenti storici di oppressione e spetta a noi essere critici sulla visualizzazione dei dati di tutti i tipi, piuttosto che accettarla come un dogma.