di Giulia Virtù (SISSA, Trieste)
L’11 novembre del 1999 Gregg Easterbrook, giornalista statunitense, pubblicò sulla rivista progressista “The new Republic” una frase destinata a rimanere nella storia:
“Se torturi i numeri abbastanza a lungo, confesseranno qualsiasi cosa”[1].
Al di là delle controversie legate al contesto in cui questa frase venne scritta (effetto serra e riscaldamento globale), questa affermazione contiene una allarmante verità.
Non dobbiamo dimenticarci che i numeri, per loro natura così neutri e onesti, non sono entità a sé stanti: non esistono cioè indipendentemente dall’uomo che li manipola e li utilizza. Già solo questo dovrebbe farci capire quanto sia ingiustificata gran parte dell’oggettività che attribuiamo loro.
Eppure è innegabile che, quando si parla di numeri, di dati, di grafici e percentuali, tendiamo a fidarci di più, a dimenticarci che spesso non sono altro che marionette nelle mani di chi regge i fili.
Siamo abituati a credere a tutti gli aumenti/diminuzioni di prezzi senza chiederci come si è arrivati a quel risultato. Ci beviamo tutte le percentuali che ci vengono propinate senza chiederci quale sia il valore assoluto a partire dal quale sono state calcolate. Ci fidiamo delle stime senza conoscere il campione da cui sono tratte. Pretendiamo di fare medie aritmetiche, o addirittura ponderate, tra numeri che derivano da valutazioni completamente arbitrarie, le cui griglie sono state costruite da noi o da altri come noi (un esempio lampante sono i voti scolastici).
Questa aura di oggettività che i numeri emanano può trarci in inganno anche quando si tratta di cifre estrapolate da paper scientifici. Ecco perché è fondamentale la lettura critica: perché ovunque si può nascondere la possibilità di errore, sia esso dovuto a manipolazione, superficialità di analisi o incompetenza, distrazione, fretta o pregiudizio.
Bias di conferma (cherry picking)
Nessuno di noi è immune dal pregiudizio. In effetti, il bias di conferma può essere inteso come un vero e proprio pregiudizio, che si manifesta come una cecità parziale. Esso ci porta a raccogliere, selezionare e interpretare solo le informazioni che confermano le nostre convinzioni o ipotesi, e viceversa, ignorare o sminuire informazioni che le contraddicono. A causa di questo fenomeno cognitivo le persone tendono a muoversi entro un ambito delimitato.
Già Dante lo descriveva perfettamente quando, nel Paradiso, affermava che
più volte piega / l’opinion corrente in falsa parte / e poi l’affetto l’intelletto lega (cioè: spesso l’opinione corrente si rivolge al falso, e l’attaccamento a quell’opinione imbriglia l’intelligenza)
Per questo motivo, anche all’interno di un paper scientifico, bisogna tenere conto delle credenze pregresse di chi l’ha scritto e delle nostre convinzioni che potrebbero ostacolarci nell’acquisire nuove informazioni ‘dissonanti’.
Alcune insidie degli articoli scientifici
Il bias di conferma non è l’unica insidiosa minaccia alla verità (ammesso che esita) cui bisogna prestare attenzione mentre si scorrono le righe di un articolo scientifico. Aggirandosi tra le sue parole, sono molti i tranelli in cui si può cadere. Si tratta di trabocchetti, il più delle volte, tesi in buona fede, spesso con l’unico intento di esaltare i risultati della ricerca, ma questo non toglie la necessità di una lettura autonoma, attiva e critica.
Di seguito vengono messe in luce alcune delle più comuni insidie in cui il lettore può imbattersi, dagli errori di campionamento ai modi tendenziosi in cui si possono presentare i risultati.
1.1 Campionamento
Immaginiamo di avere un enorme sacco stracolmo di fagioli, alcuni borlotti rossi e alcuni bianchi di Spagna. C’è un solo modo per sapere esattamente quanti ne abbiamo di ciascun colore: contarli tutti. Tuttavia, se il sacco è davvero enorme e davvero stracolmo, l’operazione potrebbe risultare lunga e complicata. Quindi potremmo decidere, per velocizzare un po’ la pratica, di tirarne fuori una manciata e contare quanti borlotti rossi e quanti bianchi di Spagna abbiamo in mano. Immaginando che la proporzione sia la stessa per tutto il sacco, possiamo arrivare ad una stima approssimativamente corretta del numero di fagioli di ciascun colore. Se la manciata (campione) è abbastanza grande e correttamente pescata dal sacco, rappresenterà il totale (popolazione) in modo adeguato. Se non lo è, il procedimento potrebbe essere molto meno affidabile di una stima fatta “tirando a indovinare”.
Si parla spesso di numerosità del campione come sinonimo di attendibilità. Tuttavia, la bontà dei risultati non dipende unicamente da quanti individui compongono il campione stesso, ma anche dal modo con cui essi sono stati selezionati. Il campione, per essere attendibile, dovrebbe rispecchiare ‘in piccolo’ tutte le caratteristiche dell’intera popolazione che si vuole studiare, o si rischia di incappare in errori madornali. Un classico esempio di campionamento inefficace ci viene dalle elezioni presidenziali degli Stati Uniti nel 1936. L’indagine venne condotta dalla rivista Literary Digest e, dai risultati, si prevedeva la vittoria di Landon su Roosevelt. Il campionamento avvenne per mezzo degli elenchi del telefono e del registro automobilistico e le interviste furono condotte telefonicamente. Il campione era numeroso (2,3 milioni di americani), ma non attendibile. In questo modo, infatti, il Digest aveva finito per intervistare troppi repubblicani (mediamente più ricchi e quindi più facilmente in possesso di un’utenza telefonica o di una automobile), sottostimando l’elettorato democratico. Il 3 novembre del 1936, come ben sappiamo, Franklin Delano Roosevelt venne riconfermato presidente.
Un campione può dirsi rappresentativo del proprio universo quando c’è l’identità delle proporzioni secondo le quali sono presenti, nell’uno e nell’altro, i vari caratteri della popolazione. A cominciare dai caratteri cosiddetti sociodemografici (il sesso, l’età, il grado di istruzione, la condizione professionale, ecc.) e geografici (la regione di residenza, l’ampiezza demografica del comune, ecc.), comprendendo anche altre caratteristiche di tipo antropometrico (come la statura o il peso), socioculturale o psicologico.
Se la proporzionalità tra campione e universo sussiste rispetto a ciascuna delle caratteristiche (o variabili) prese in esame, potremo aspettarci che tale proporzionalità sia mantenuta anche rispetto alle variabili ancora incognite, sulle quali ci proponiamo di indagare. Questa identità di proporzioni tra campione e popolazione costituisce il presupposto della rappresentatività statistica.
Quando si legge un articolo scientifico, dunque, è necessario prestare attenzione a come è stato eseguito il campionamento e se il gruppo scelto è rappresentativo dell’intera popolazione oggetto di indagine. Inoltre, soprattutto per quanto riguarda gli studi che prevedono di sondare credenze, opinioni, pensieri e motivazioni, è necessario tenere conto di altri due fattori: l’onestà di chi risponde e l’influenza che può creare chi fa l’intervista. Di questo, purtroppo, il lettore dell’articolo non può essere a conoscenza.
1.2 Media – Moda – Mediana
La più proverbiale osservazione a proposito delle medie statistiche è quella del pollo di Trilussa. Secondo questo componimento umoristico in dialetto romanesco, se qualcuno mangia due polli, e qualcun altro no, in media hanno mangiato un pollo ciascuno.
«[…] Me spiego: da li conti che se fanno
seconno le statistiche d’adesso
risurta che te tocca un pollo all’anno:
e se nun entra nelle spese tue
t’entra ne la statistica lo stesso
perché c’è un antro che ne magna due»
Come appare chiaro dalla storiella del ‘pollo statistico’, la media è un dato spesso poco significativo o addirittura fuorviante, se non si sa esattamente su quale base è calcolata e con quali criteri è definita. Basti pensare all’inattendibilità del dato sul reddito medio nazionale: può risultare elevato grazie alla presenza di pochi individui multimiliardari a fronte di una massa di persone sotto la soglia di povertà.
Inoltre, alcune volte la parola media viene utilizzata impropriamente anche per indicare la moda o la mediana. È necessario prestare attenzione al contesto in cui il termine viene utilizzato. Infatti, mentre la media aritmetica è il rapporto tra la somma dei dati numerici e il numero di dati, la moda rappresenta il valore che si presenta con la maggior frequenza e la mediana il valore centrale. Infine, è bene ricordare che la media non ha alcun significato se non viene riportata la varianza.
La varianza, infatti, identifica la dispersione dei valori della variabile intorno al valore medio: rappresenta cioè quanto i dati che abbiamo raccolto si scostano dalla media, il nostro errore rispetto al valore atteso.
1.3 L’importanza dell’errore e della significatività
Durante la lettura di un paper scientifico, tenere conto sia della significatività che dell’errore associato ai dati statistici (sia esso sotto forma di varianza, deviazione standard o errore standard) è fondamentale per capire la rilevanza di certe affermazioni. Talvolta, infatti, nella presentazione dei risultati viene posta un’enfasi esagerata su differenze/uguaglianze/correlazioni che sono sì matematicamente reali e dimostrabili, ma di poca importanza. Durante la lettura di un articolo scientifico è necessario tenere a mente che:
- Non sempre le differenze presentate sono effettivamente significative
- Non sempre a una significatività statistica corrisponde una significatività clinica (cioè una rilevanza per il soggetto)
- Non sempre viene riportato l’errore.
L’espressione “statisticamente significativo” indica una bassa probabilità che la differenza osservata nello studio tra i due gruppi (per esempio trattati e non) sia dovuta al caso. Fornisce quindi indicazioni su quanto sia alta la probabilità che l’effetto osservato (per esempio l’efficacia di un farmaco nel ridurre la mortalità) sia dovuto all’intervento preso in esame piuttosto che al caso. La significatività viene espressa attraverso il valore P.
La P è il livello di significatività che viene definito a priori dai ricercatori, di solito p<0,05. Si parte dall’ipotesi che non ci siano differenze tra i gruppi (ipotesi nulla): la P esprime la probabilità di errore nel rifiutare l’ipotesi nulla, cioè nel dire che le differenze che osservo non siano dovute al caso, e quindi siano dovute proprio all’intervento che si sta valutando. Quando la probabilità di errore è bassa, cioè inferiore al 5% (p<0,05) significa che la differenza osservata è statisticamente significativa[2].
Parafrasando un esempio tratto dal libro di Darrel Huff “Mentire con le statistiche”[3]: supponiamo, per assurdo, che, nell’articolo scientifico che stiamo leggendo, sia enfatizzata la differenza tra due misurazioni del Q.I. eseguite con il test Revised Stanford-Binet. Il primo soggetto, S., presenta un Q.I. di 98, mentre il secondo, B., di 101. Entrambi i valori sono riferiti a una media o livello atteso pari a 100. Come ogni prodotto di un metodo basato su un campione, anche la nostra media 100 è dotata di relativo errore statistico, che ne determina la precisione e l’affidabilità.
Utilizzando il test di Stanford-Binet il valore atteso o media presenta un errore del 3%. Quindi il Q.I. di S. si trova tra 95 e 101 con una probabilità non superiore a ½, mentre quello di B. tra 98 e 104 con una probabilità del 50%. C’è, quindi, una probabilità su 4 che il Q.I. di S. sia in realtà superiore a quello di B.
1.4 Numero pseudo-connesso[4]
Il numero pseudo-connesso indica una strategia secondo la quale, se non si riesce a dimostrare quello che si vorrebbe, si può dimostrare qualcos’altro e fingere che sia la stessa cosa.
Cerchiamo di capirlo con un esempio. Supponiamo che, in un periodo in cui il pregiudizio razziale è in aumento, l’agenzia pubblicitaria per la quale lavoriamo abbia deciso di promuovere un sondaggio per dimostrare il contrario.
L’intervista è strutturata e presenta una serie di quesiti volti a stabilire o no la presenza di pregiudizio razziale, compresa la domanda: “Pensa che i neri abbiano la stessa probabilità dei bianchi di trovare lavoro?”.
Il risultato, ottenuto con questa strategia, è che i soggetti con forti pregiudizi razziali rispondono positivamente alla domanda sulle possibilità di lavoro.
Le risposte a questa domanda, estrapolate dal contesto, danno una percezione diversa delle opinioni della popolazione campione.
Non tutti i numeri pseudo-connessi sono il prodotto di un inganno intenzionale. Molte statistiche, comprese quelle mediche, sono distorte da un errore di definizione all’origine. Ad esempio, non è corretto affermare “più di un giovane su tre è disoccupato”. Infatti, in base agli standard internazionali, il tasso di disoccupazione è definito come il rapporto tra i disoccupati e le forze di lavoro (ovvero gli “attivi”, i quali comprendono gli occupati e i disoccupati). Se, dunque, un giovane studente non cerca attivamente un lavoro perché impegnato negli studi, non è da considerarsi disoccupato. È una questione di uniformità e universalità delle definizioni adottate.
1.5 Correlazione e causalità
Osservando un fenomeno notiamo che, al verificarsi di alcuni eventi (X), segue (si correla) il verificarsi di altri eventi (Y). Allora X ha causato Y? No.
Talvolta si nota, in alcuni articoli scientifici, una certa confusione tra due concetti statistici non equivalenti: la correlazione e la causalità. Il termine ‘correlazione’ si riferisce a una relazione tra due (o più) variabili che cambiano insieme. Può essere positiva (quando all’aumentare della prima variabile si riscontra un aumento anche nella seconda) o negativa (quando, all’aumentare della prima la seconda diminuisce).
La causalità, invece, si riferisce ad una relazione tra due (o più) variabili che soddisfi questi tre criteri:
- le variabili devono essere correlate;
- una variabile deve precedere l’altra variabile;
- deve essere dimostrato che non esiste una terza variabile tale da generare un cambiamento nelle due variabili di interesse (assenza di correlazione spuria)
Per chiarire la differenza tra casualità e correlazione pensiamo ad alcuni esempi:
- Causalità o causazione: se mettiamo una pentola piena d’acqua sul fornello dopo qualche minuto l’acqua comincerà a bollire. Siamo di fronte a una relazione causale infatti il fornello (variabile causa) provoca il verificarsi dell’ebollizione (variabile effetto).
- Correlazione: si può osservare che la vendita di gelati e l’incidenza di scottature solari sono correlate. All’aumentare della vendita di gelati, infatti, aumenta anche la percentuale di scottature. Si potrebbe erroneamente pensare che consumare gelato provoca scottature solari. In realtà esiste una terza variabile, calde giornate estive, che fa da denominatore comune alle prime due.
Un simpatico sito creato da Tyler Vigen (studente alla Harvard Law School) “Spurious correlations”[5] offre divertenti spunti per comprendere appieno come correlazione non significhi causalità:
La curva della spesa statunitense per scienza, spazio e tecnologia e la curva dei suicidi per impiccagione, strangolamento o soffocamento appaiono correlate al 99,79%.
La curva che mostra il numero di persone annegate dopo essere cadute in piscina appare inquietantemente correlata al numero di film in cui appare Nicolas Cage.
La curva dei divorzi nel Maine e la curva del consumo pro-capite di margarina appaiono correlate al 99,26%.
La coincidenza delle curve è davvero suggestiva, ma la correlazione è casuale e tra i fenomeni non c’è alcun tipo di legame.
1.6 Bias di pubblicazione
Il bias di pubblicazione riguarda in particolare (anche se non solo) gli studi su farmaci e presidi. In questi casi capita spesso che ricerche con risultati negativi non arrivino mai alla pubblicazione. Ciò ha conseguenze rilevanti anche per la nostra lettura critica. Quando consultiamo una ‘revisione sistematica’, cioè un articolo riassuntivo che dovrebbe mettere insieme tutti i dati disponibili sul tema, positivi e negativi, per poter condurre metanalisi adeguate, non dovremmo mai dimenticarci di tutti gli studi disastrosi svaniti nel nulla.
Perché non vengono pubblicati gli studi con risultati negativi? Perché nessuno ha interesse a farlo: non le aziende farmaceutiche che hanno sponsorizzato lo studio, non i ricercatori, che arrivano a un risultato negativo e quindi poco utile per ottenere nuovi fondi in futuro, non le riviste su cui andrebbero pubblicati perché finirebbero col ridurre l’impact factor, cioè la rilevanza, della rivista stessa[6].
Quali sono le conseguenze di questo bias?
Nel 2008 è stato condotto uno studio che riguardava la pubblicazione delle ricerche condotte su 12 antidepressivi e presentate alla FDA statunitense per chiederne l’autorizzazione alla commercializzazione[7]. Nell’analisi si andava a controllare se gli studi presentati alla FDA erano stati effettivamente pubblicati negli anni successivi sulle riviste scientifiche. Risultato? Dei 74 studi presentati il 97% di quelli che avevano raggiunto risultati positivi (37 in tutto) erano stati pubblicati e quindi letti dai medici, mentre solo il 33% di quelli che avevano portato a risultati negativi o dubbi ha visto la luce.
Di conseguenza, dei 12.564 pazienti coinvolti negli studi presentati, ben 3.369 (i pazienti degli studi con esiti negativi) non hanno potuto esprimere la propria opinione sui farmaci in questione. In altre parole, la visione che abbiamo dell’efficacia di quei farmaci è distorta.
La soluzione a questo problema, in atto da qualche anno (con scarso successo a dire il vero), è stata la creazione di registri di studi clinici, il più importante dei quali è clinicaltrial.gov[8]. Questo registro prevede l’obbligo di protocollare ogni ricerca all’inizio, aggiungendo via via i dati ottenuti, siano essi positivi o negativi. Qualora il trial non sia stato registrato, il lavoro non viene accettato dalle più importanti riviste mediche internazionali.
Ciononostante, solo il 45% degli studi viene registrato correttamente nei database, gli altri o sono incompleti o vengono registrati alla fine[9]
[1] Our Warming World, in New Republic, 11 November 1999, vol. 221, page 42.
[3] Darrell Huff, Irving Geis, Mentire con le statistiche, traduzione di Giancarlo Livraghi, Riccardo Puglisi, Monti&Ambrosini editori, 2007, p. 206, ISBN 978-88-89479-09-4.
[4] Darrell Huff, Irving Geis, Mentire con le statistiche, traduzione di Giancarlo Livraghi, Riccardo Puglisi, Monti&Ambrosini editori, 2007, p. 206, ISBN 978-88-89479-09-4.
[5] http://www.tylervigen.com/spurious-correlations
[7] Turner E, Matthews A, et al. Selective publication of antidepressant trials and its influence on apparent efficacy. New Engl J Med 2008;358:252-60.
[9] Mathieu S, Boutron I, et al. Comparison of registered and published primary outcomes in randomized controlled trials. JAMA 2009;302:977-84.