Supponiamo che una persona abbia indossato un maglione rosso e pochi minuti dopo venga colpita da un infarto. Pensereste che sia solo una coincidenza o avreste il sospetto che ci debba essere qualche problema con il maglione che i rivenditori tessili non ci vogliono dire? Starete pensando che sono pazzo a fare questa domanda. Ma se iniziassi a sottoporvi diversi casi analoghi, relativi ad infarti occorsi proprio pochi minuti dopo che sono stati indossati dei maglioni rossi probabilmente a qualcuno il dubbio verrebbe. Uno, due, tre, quattro casi.....e via dicendo, caspita! I maglioni rossi causano infarti quindi? Se la storia è presentata in questo modo il dubbio ci viene, ma è umano che ci venga. Vediamo perché e cerchiamo di capire i vari passaggi che dovremmo prendere in considerazione per distinguere un nesso di causa da una semplice coincidenza, come tante ce ne sono nella nostra vita. Se volessimo indagare sul nesso tra infarti e maglioni rossi come potremmo fare? Dobbiamo inventarci uno studio, ma come andrebbe strutturato?
IL CHERRY PICKING E LA TENDENZA A CONSIDERARE SOLO I DATI A NOI FAVOREVOLI
Di fronte a un gran numero di casi simili, nel nostro caso l'infarto conseguente all'aver indossato maglioni rossi, siamo naturalmente portati a pensare che ci debba per forza essere qualcosa di vero, un nesso di causa. Al nostro cervello la statistica non piace e questo ha anche una giustificazione evolutiva del tipo:"ho sentito un rumore nel cespuglio, sarà mica una tigre dai denti a sciabola?". Questo meccanismo non è per forza negativo, tuttavia prende degli abbagli e questa volta abbiamo fatto un errore, abbiamo considerato i casi in cui vi è stato l'infarto dopo che la persona ha indossato il maglione, ma abbiamo completamente trascurato tutti i casi in cui questo non è avvenuto. Se li avessimo considerati avremmo scoperto che i casi di infarto dopo aver indossato il maglione non erano 4 ma 4 su 100 o 4 su 1000 e così via. Ciò che abbiamo istintivamente fatto è il "cherry picking", vale a dire considerare solo i dati che supportano una certa tesi, scartando gli altri. Il cervello umano non è naturalmente portato per la statistica e questo può portare a volte a sottostimare o sovrastimare nettamente la dimensione di un fenomeno. Dobbiamo sempre ricordarci che un aneddoto per quanto ci colpisca non fa statistica. Da qui possiamo dedurre la prima buona abitudine che dovremmo seguire quando ci troviamo ad analizzare delle informazioni: non considerare solamente i singoli dati che ci danno ragione ma considerare anche quelli che ci danno torto.
IL GRUPPO DI CONTROLLO E LA SCELTA DEL CAMPIONE
Abbiamo dimostrato quindi che maglioni rossi e infarto non c'entrano nulla? Non proprio. Abbiamo fatto un passo in avanti considerando anche i dati che sconfessano la nostra tesi, ma tuttavia non possiamo sapere se quei 4 casi su 1000 abbiano una qualche attinenza. Per saperlo dovremmo provare a fare un confronto con un gruppo di persone che il maglione rosso non lo ha indossato. Vediamo cosa succede dopo che 1000 persone hanno indossato un maglione blu ad esempio [1], e confrontiamo i risultati. Supponiamo che 2 persone su 1000 abbiano avuto un infarto dopo averlo indossato. Abbiamo quindi 4 casi di infarto dopo aver indossato il maglione rosso e 2 casi dopo aver indossato il maglione blu, quindi possiamo capire che gli eventi verificatisi nel caso dei maglioni rossi non si discosta poi cosi’ tanto da quelli con altri indumenti[1]. Con il confronto tra maglioni blu e maglioni rossi abbiamo introdotto un rudimentale gruppo di controllo (vediamo meglio più avanti con che criteri questo gruppo dovrebbe essere introdotto). Gruppi di controllo ben studiati sono usati nei trial clinici relativi a farmaci e vaccini, perché permettono di verificare se ciò che si sta studiando fa davvero la differenza rispetto a un gruppo a cui quel farmaco non è stato somministrato. Più intuitivamente, supponiamo di avere delle pile di due marche diverse e di dover verificare quale dura di più. Ciò che dovremmo fare è prendere due telecomandi dello stesso modello, entrambi funzionanti e ad ognuno mettergli una pila di marca diversa e vedere quale dura di più.
Se avete notato qui abbiamo introdotto un nuovo requisito: la scelta del campione. I telecomandi infatti devono essere funzionanti , perché se uno dei due non funzionasse bene il nostro giudizio sulla durata delle batterie ne verrebbe falsato (lo stesso se fossero di marche diverse). Non potremmo sapere se uno dei due telecomandi è durato più a lungo perché le batterie funzionavano meglio o perché l'altro telecomando aveva un difetto. Questo è un bias e può portarci a prendere fischi per fiaschi. Tuttavia non potremo mai essere sicuri di avere sotto controllo tutte le variabili, esistono molte variabili aleatorie e indipendenti tra loro su cui non abbiamo il pieno controllo. Ad esempio i telecomandi potrebbero avere piccoli difetti di fabbrica non conosciuti, che incidono sulla durata delle batterie. D’altronde anche in una produzione in serie è impossibile pensare che tutti i telecomandi escano dalla fabbrica perfettamente identici. Come tenere conto quindi di queste variabili sconosciute? La statistica ci viene in aiuto. Secondo il teorema del limite centrale variabili aleatorie e indipendenti tra loro tendono, in un campione sufficientemente grande, a distribuirsi secondo una curva gaussiana, la classica curva a campana. La distribuzione delle variabili aleatorie diventa quindi nota. Con un campione piccolo non possiamo sapere se variabili nascoste hanno inciso sul risultato e quanto. Con un campione sufficientemente grande invece potremo dire di avere un campione omogeneo.
Torniamo dunque al nostro studio sui maglioni e infarti un tot di persone che consideriamo sane: per quanto appena detto, non possiamo conoscere eventuali variabili nascoste che ci sono sfuggite. Se avessimo selezionato proprio le persone con fattori di rischio nascosti? Questo è possibile. Con un campione grande e accuratamente selezionato saremo più sicuri che la maggior parte delle persone sarà mediamente sana, qualcuno un po’ di più, qualcuno un po’ di meno (nel complesso possiamo dire che gli effetti di queste variabili si annullano). Ma ciò diventa noto e nel complesso non inciderà sui risultati in maniera tale da invalidarli. Questo consente di avere risultati “liberi” dall’influenza di variabili nascoste. Sulla grandezza del campione comunque ci torniamo più avanti.
RANDOMIZZAZIONE
Un'altra fase delicata è l'assegnazione dei volontari a uno piuttosto che all'altro gruppo. I nostri pregiudizi e le nostre considerazioni personali potrebbero portarci, consciamente o meno, ad assegnare i volontari in maniera non omogenea tra i due gruppi. L'assegnazione casuale dei volontari al gruppo è l'unico modo per ridurre i rischi di bias dovuti a pregiudizi personali. Per quanto il campione sia scelto accuratamente è impossibile sapere vita, morte e miracoli dei volontari. Sapere certe cose su alcuni dei candidati, per esempio chi fa una vita sana e chi meno, potrebbe portarci ad assegnare quei soggetti a un gruppo piuttosto che all'altro, trascurando altri fattori rilevanti (chi fa un alimentazione migliore ad esempio) e condurre quindi ad un'assegnazione sbilanciata nei due gruppi. La casualità bilancia questi errori.
DOPPIO CIECO
Abbiamo già capito molte cose fino a qui, abbiamo appreso che bisogna considerare anche i dati relativi alle persone che non hanno avuto l'infarto dopo aver indossato il maglione rosso, e non solo quelli che lo hanno avuto. Abbiamo imparato che i risultati andrebbero confrontati con un gruppo di controllo in cui i volontari indossano un maglione blu, i cui volontari devono essere scelti in maniera accurata e assegnati ai due gruppi in maniera casuale. Ma ancora non basta per dire che i nostri risultati sono affidabili, servono altri passaggi. Dobbiamo fare in modo che né gli sperimentatori né i volontari sappiano a quale gruppo sono stati assegnati i partecipanti (ad esempio potremmo bendare i volontari). Questa accortezza si chiama doppio cieco e consente agli sperimentatori di non lasciarsi condizionare nella valutazione dei risultati e di capire se i risultati sono migliori rispetto all’effetto placebo. Il partecipante potrebbe evitare di comunicare certi sintomi se sapesse di avere indossato un maglione blu, "non sarà pericoloso" potrebbe pensare, anche lo sperimentatore potrebbe avere lo stesso bias nel valutare il caso se avesse questa informazione, e nell’interagire con i soggetti potrebbe interpretare comunicazioni - specialmente di natura qualitativa - in modi diversi a seconda del gruppo. Forse con i maglioni è meno evidente, ma proviamo a pensare al trial di un vaccino. Se i partecipanti sapessero a quale gruppo sono stati assegnati potrebbero modificare il proprio comportamento. Chi ha ricevuto il vaccino potrebbe abbassare la guardia e chi ha ricevuto il placebo al contrario potrebbe prendere precauzioni aggiuntive. Buon per lui, ma questo non è un bene per lo studio, perché introduce variabili su cui non si ha controllo e che possono invalidare i risultati. Per esempio: la conclusione dello studio pare suggerire che il vaccino non sia molto efficace. Ma è così o sembra meno efficace di quello che in realtà è perché il gruppo dei placebo, sapendo di non aver ricevuto il vaccino, ha fatto particolare attenzione, si sono verificati quindi meno casi nel gruppo di controllo e quindi la differenza con il gruppo dei vaccinati non sembra alta?
LA GRANDEZZA DEL CAMPIONE
Dulcis in fundo, ultimo ma non ultimo, il campione deve essere sufficientemente grande. Questo è importante perché ci permette di distinguere un risultato significativo da uno che non lo è. In generale più è raro il fenomeno che vogliamo indagare più il campione deve essere grande. Se il campione è troppo piccolo potremmo non essere in grado di distinguere un risultato casuale da uno che non lo è. Se il fenomeno è troppo raro potrebbe anche non verificarsi mai. È abbastanza intuitivo che uno studio condotto su 10000 soggetti sia più affidabile di uno condotto su 100 soggetti. Ecco un semplice esempio con i dadi (non truccati): la probabilità di fare 6 per due volte di fila è 1 su 36, la probabilità di fare 6 quattro volte di fila è 1 su 1296. Raddoppiando il numero di lanci abbiamo cambiato di moltissimo le probabilità. Questo per dire cosa? Supponiamo che un vostro amico vi dica di avere poteri magici e che è in grado di fare sempre sei lanciando i dadi. Supponiamo faccia due lanci e che entrambe le volte faccia effettivamente sei, non sarebbe una grande dimostrazione. In quanto è molto probabile che il risultato sia casuale. In ogni caso non possiamo distinguere il potere magico dalla finzione. Facesse 6 dieci volte di fila sarebbe già un altro discorso, la probabilità che il risultato sia casuale sarebbe davvero basso. Sostituiamo gli infarti ai dadi e il risultato non cambia. Su un campione piccolo diventa difficile distinguere un risultato casuale da uno che non lo è, e una differenza di infarti tra il gruppo di chi ha indossato maglioni rossi e il gruppo di chi ha indossato maglioni blu sarebbe difficilmente distinguibile da una casuale.
Ma come si decide che un campione è abbastanza grande? Non c’è una risposta univoca. La grandezza del campione dipende essenzialmente dal fenomeno che vogliamo osservare. Una volta osservato un certo risultato dovremmo chiederci: quanto è probabile che il tal risultato sia casuale e qual è invece la probabilità che non lo sia? La risposta dipende essenzialmente dal tipo di fenomeno che vogliamo osservare e dalla grandezza del campione. Più quest’ultimo è grande meno è probabile che i risultati si discostino dalla media (pensiamo all’esempio dei dadi). Nel caso dei maglioni la media è l’incidenza di infarti nella popolazione generale. Supponiamo di aver trovato un risultato superiore alla media nel gruppo di chi ha indossato il maglione rosso. Quante probabilità ci sono che un risultato simile possa accadere in maniera casuale? Uno strumento matematico che viene spesso utilizzato per avere un’idea di questa probabilità e’ il teorema di Bayes, il quale ci permette di combinare le probabilità a priori (l’incidenza dell’infarto nella popolazione generale in questo caso) con il risultato in nostro possesso. In ogni caso, la probabilità di ottenere un risultato casuale diverso dalla media diventa sempre più bassa mano a mano che il campione cresce in dimensioni ed e’ per questo motivo che in ultima analisi un risultato più robusto e accurato lo si ottiene compiendo studi via via più grandi e osservando il punto in cui la dimensione del campione non influisce più in modo apprezzabile sul risultato ottenuto.
Siamo arrivati in fondo al nostro studio sui maglioni rossi. Quello che abbiamo appena costruito nei vari passaggi sopra è uno studio randomizzato, in doppio cieco con gruppo di controllo, tipico dei test clinici, in particolare quelli di fase 3 . La scienza si avvale di questi accorgimenti dettati dalla logica, dalla teoria della probabilità e dal buon senso per distinguere le coincidenze da quelle che non lo sono. Senza queste accortezze saremmo portati a mettere in relazione davvero qualsiasi cosa, persino il numero dei film in cui compare Nicolas Cage e gli annegamenti in piscina [2]. Conoscere questi principi può aiutarci a essere più vigili, a chiedere le prove giuste e a non saltare subito alle conclusioni ogni qualvolta veniamo sorpresi da titoli del tipo:"Giorgio ha avuto un infarto, aveva appena indossato un maglione rosso".
[1] Qui per semplicità abbiamo scelto i maglioni blu per il nostro gruppo di controllo, ma si dovrebbe usare qualsiasi altro indumento. Qui infatti non stiamo costruendo un esperimento per capire se i maglioni rossi danno un rischio maggiore di infarto di quelli blu, ma uno per capire se i maglioni rossi danno un rischio maggiore rispetto alla popolazione generale che non li indossa.
[2] http://tylervigen.com/spurious-correlations
Immagine di Copertina:
“woman wearing red sweater holding white and black ceramic mug”
John Beans
Licenza CC BY 2.0