Guida pratica ai numeri del coronavirus (e non) – Parte 1

di: S.L.F. 07/05/2020

In questi giorni, volenti o nolenti, una buona dose di dati ci vengono forniti giorno per giorno, riguardo la situazione del virus in Italia e nel mondo. Molto spesso sono lasciati crudamente all’analisi dello spettatore/lettore, altre volte sono accompagnati da considerazioni di dubbia ragionevolezza e meno frequentemente se ne parla in maniera appropriata. Si assiste poi alla manifestazione del pensiero di chi magari rifiuta i dati per complottismo perché “falsati”, di chi è invece illuminato dalla sacra luce del numero, o da chi magari non sa nemmeno che ci siano dei dati e apre la bocca per dargli fiato. Questi solo per citarne alcuni. Ma quindi cosa ci possono dire questi famigerati numeri? Quanto ci possiamo fidare dei numeri? Mah… in teoria quanto volete voi. “Risposta del ca…volo” direbbe giustamente qualcuno. Si e no, ma in due articoli cercheremo di soddisfare qualche curiosità e qualche dubbio a riguardo. In questo primo elaborato si proveranno ad analizzare alcuni principi delle discipline matematiche alla base dell’analisi dati, soffermandosi perlopiù sugli aspetti concettuali; nel secondo, fatto tesoro di quanto detto precedentemente, potremo scendere nel caso odierno e fare considerazioni più specifiche. Come è prevedibile che sia, siamo interessati in questo periodo a monitorare tutta una serie di parametri riguardanti la diffusione del virus che sono esprimibili attraverso dei numeri. Non è ridondante dire che non conosciamo inizialmente il valore di questi parametri; siamo dunque in uno stato di incertezza e dobbiamo effettuare delle operazioni di “misura” per raccogliere informazioni. Sperando di non incappare in qualche lettore onnisciente, è inoltre ragionevole affermare che i dati che accumuliamo non corrispondono ai valori veri, e anche per diversi motivi: può darsi che gli strumenti in qualche modo influiscano sul misurando, che l’apparato sperimentale non sia adeguato, che le condizioni in cui vengono effettuate le misure creino dei disturbi e che tutta una serie di effetti di cui non siamo a conoscenza agiscano in maniera cosiddetti casuali. Riferendoci direttamente al numero di contagio, per esempio, si è sempre detto che il numero di contagi fosse superiore a quello che viene dichiarato; questo proprio perché può darsi non si disponga di tamponi a sufficienza o non sia possibile rintracciare tutti i possibili contagiati. Per esigenza di sintesi ci auspichiamo queste motivazioni siano sufficienti a convincerci che si deve utilizzare qualche disciplina matematica che ci permetta di fare delle stime, più che delle asserzioni assolutiste. Vengono dunque in nostro soccorso la probabilità e la statistica. La teoria della probabilità ha una base assiomatica (assiomi di Kolmogorov) che definisce formalmente la struttura dei numeri utilizzati in questo ambito, ma noi, in questo caso, siamo più interessati ad una definizione concettuale e che arricchisca la nostra trattazione. Partiamo dal dire che la probabilità dipende dallo stato di informazione a cui si ha accesso e non ha senso parlare di probabilità “assoluta”. Le nostre valutazioni sono sempre legate alla conoscenza di uno o più fattori che possono influenzare il corso degli eventi. Tutto questo per dire, udite udite, che la probabilità dipende dal nostro “personale” grado di fiducia. Ovviamente dobbiamo in qualche modo parametrizzare il nostro grado di fiducia ed interviene in nostro aiuto il concetto di “scommessa coerente”; sì stiamo parlando di una vera e propria scommessa, a patto che sia equa e non contempli una direzione di puntata preferenziale a priori. Questo perché è intuitivo che un’eventuale puntata massima, che chiamiamo A, che siamo disposti a scommettere su un evento per vincere una somma, chiamata S, è proporzionale a quanto si crede che l’evento possa accadere (la probabilità P(E)). Inoltre questa puntata massima è proporzionale anche all’importo S che si può vincere. Possiamo allora scrivere

A=P(E)\cdot S

Questa definizione rispetta gli assiomi formali di Kolmogorov. Quindi non solo la probabilità non è così vera, ma incita anche al gioco d’azzardo! Potrebbe però suonare ridondante ridefinire la probabilità di un evento, quando già è spesso intesa come i “successi” sui tentativi totali. L’importanza cruciale di questa formalizzazione va quindi ricercata nella sua potenza concettuale. La probabilità in questo modo viene sviscerata da pretese di oggettività e sposta il problema alle capacità di comprensione del singolo individuo che presenta le proprie tesi, acquistando una dimensione del tutto umana. Ma c’è di più. Tornando leggermente indietro abbiamo affermato che tutte le valutazioni di probabilità sono condizionate da una o più condizioni iniziali, e possiamo chiamarle “cause”. Attraverso i processi di misura possiamo conoscere la probabilità che avvenga un determinato evento date una serie di cause, ma spesso e volentieri, come anche nelle analisi del Covid-19, si è interessati a sapere quale sia la probabilità che una certa causa abbia “influenzato” un evento. Per fare un esempio, se abbiamo a disposizione un dado truccato, che fa uscire solo un numero, possiamo calcolare quale siano le probabilità che escano determinati numeri (in questo caso è banale!); potremo invece domandarci, in presenza di un dado di cui non conosciamo il livello di “bontà”, capire se questo sia truccato o meno a seconda dei risultati che otteniamo e quindi risalire alle “cause” dagli “effetti”, notare bene le virgolette. Quest’ultimo processo, chiamato inferenza, è regolato dal Teorema Di Bayes che possiamo approssimare come: “consideriamo un evento E e una classe completa di ipotesi H_i , allora la probabilità che E sia stato influenzato da una causa H_i è uguale alla probabilità che E avvenga data H_i per la probabilità che avvenga H_i diviso la probabilità che avvenga E per qualsiasi ipotesi”.

Scritto in formule

P(H_i|E) = \frac{P(H_i)\cdot P(E|H_i)}{P(E)}

Dove la notazione P(E|H_i) indica che l’evento E è condizionato da H_i. Tra i tanti aspetti fondamentali di questo teorema, ci interessa proprio quel termine P(H_i) (detto anche prior), poiché ci potremmo chiedere: “come possiamo valutare la probabilità che sia avvenuta quell’ipotesi a priori?”. Ebbene, lor signori, quel termine è proprio quanto scommettereste voi, quanto voi siete fiduciosi che sia quel particolare modello a descrivere i fenomeni; ancora una volta è il vostro grado di fiducia a priori. Ovviamente non si possono tirare numeri a casaccio e si tende ad utilizzare delle prior che siano condivisibili in larga parte. Viene però ribadita la centralità di chi maneggia i dati, e della sua soggettività: a volte l’esperienza di chi “misura” è più importante dei risultati che ottiene. Facendo i più sentiti complimenti agli audaci lettori che hanno attraversato questa seppur breve trattazione prevalentemente formale, vorrete dunque sapere come possiamo arricchire la nostra visione delle analisi dati di questi giorni. Ebbene non lo saprete! Cioè non ora… ma avrete una buona possibilità di venirne a conoscenza nel vostro futuro prossimo con l’articolo successivo.

Categorie: Tag:

Un commento

Lascia un commento