Riprendiamo la nostra serie di post dedicata ai miti che circondano gli studi randomizzati, affrontando una critica piuttosto comune: gli esperimenti con gruppo di controllo randomizzato riguardano solo “microcontesti”!  Al di fuori del contesto ristretto nel quale lo studio è stato realizzato, i risultati prodotti perdono la loro validità e dunque la loro utilità.

Cosa significa “microcontesto”?
La critica prende le mosse dal fatto che, in molti casi, l’esperimento riguarda un ambito circoscritto, limitato. Ma qual è il senso di questa critica? Il fatto che nell’esperimento siano coinvolte poche persone? Pochi soggetti? Che sia realizzato in un’area territorialmente delimitata?

A dire il vero, esistono molti esperimenti che hanno coinvolto migliaia di persone e che sono stati anche condotti in luoghi diversi. Ad esempio, uno degli esperimenti più famosi applicati alla scuola è il programma STAR (Student Teacher Achievement Ratio), realizzato nel 1985, nello Stato del Tennessee (USA). L’esperimento ebbe lo scopo di verificare gli effetti sul rendimento scolastico della dimensione della classe: frequentare classi composte da pochi alunni produce qualche effetto sulle conoscenze e le competenze degli studenti?  Per rispondere a questa domanda venne condotto uno studio che vide la partecipazione di circa 11.600 studenti distribuiti su 79 scuole primarie. Alcuni tra questi studenti furono assegnati a classi piccole (13/17 alunni), altri alle classi normali (22/25 alunni), altri ancora a classi normali accompagnate da una persona che aveva il compito di assistere l’insegnante. Gli esiti dell’esperimento sono raccontati in questa nota di IPSEE (Inventario dei Problemi, delle Soluzioni e dell’Evidenza sugli Effetti).

Per restare ai “classici” possiamo citare anche Moving to Opportunity for Fair Housing (MTO), l’esperimento condotto negli anni Novanta in cinque città degli Stati Uniti – Baltimora, Boston, Chicago, Los Angeles e New York – dal Department of Housing and Urban Development (HUD). L’intervento coinvolse più di 4600 famiglie a basso reddito. Lo scopo era capire se aiutare famiglie indigenti con minori a scegliere come luogo di residenza quartieri meno degradati avrebbe prodotto effetti positivi sulle loro condizioni di vita e sulle prospettive di uscita dal loro stato di povertà. In questa nota sono raccontati gli esiti dello studio.

Oppure possiamo ricordare PROGRESA, l’esperimento condotto in Messico, a partire dal 1997, condotto in 7 diversi Stati, coinvolgendo più di 500 villaggi. Questo esperimento è uno degli esempi più noti di conditional cash transfer realizzati su una popolazione molto ampia e su una vasta area. Chi desidera qualche informazione in più può leggersi questa sintesi dei risultati.

Infine, per venire ai giorni nostri, possiamo segnalare la sperimentazione di TeachUP che, nell’anno scolastico 2018/2019, ha coinvolto più di 3770 insegnanti in 9 Stati membri dell’Unione Europea, più la Turchia. Il progetto è stato al centro di uno dei nostri post.

L’elenco degli esperimenti condotti su ampia scala potrebbe continuare. Chi è interessato ad approfondire può visitare il sito web di J-PAL (Abdul Latif Jameel Poverty Action Lab), o quello dell’American Economic Association Randomized Controlled Trial Registry, e farsi un’idea.

Non appare dunque molto giustificata la critica riservata agli esperimenti di applicarsi solo a progetti di scala ridotta o a “microcontesti”. La sperimentazione controllata non richiede numeri piccoli. Tutt’altro. Più i numeri sono elevati, più sono precise e attendibili le stime degli effetti che si osservano.

Naturalmente è vero che realizzare un esperimento coinvolgendo molte persone e molti territori differenti rappresenta una sfida assai impegnativa. A volte non ci sono le risorse, le capacità, o anche solo la volontà, per gestire al meglio tale sfida e si finisce per dar vita a progetti di dimensioni più limitate. Ma questa difficoltà non è una caratteristica tipica dello studio randomizzato. Si tratta di un problema di ordine generale, sempre presente quando si mette in piedi una politica che ha l’ambizione di produrre un cambiamento.

Andando oltre la questione dei piccoli numeri
Nel rapporto “Why Government Needs More Randomized Controlled Trials: Refuting the Myths” – il documento che ha ispirato la nostra serie di post dedicata ai miti sulla sperimentazione controllata – Stuart Buck e Josh McGee citano una frase di Jason Saul, fondatore e amministratore delegato della società di consulenza Mission Measurement. Questa frase sintetizza bene la critica rivolta agli studi randomizzati.

“La sperimentazione randomizzata fornisce un alto grado di prova per un insieme molto ristretto di fatti: un particolare programma, realizzato sotto un particolare insieme di condizioni, rivolto ad una particolare popolazione, in un particolare momento, ha fatto la differenza.”

La critica in questo caso, più che al problema dei piccoli numeri, rinvia alla questione della “validità esterna”. Cosa si intende con questa espressione? Per capirlo riprendiamo uno degli esempi illustrati in precedenza: ciò che si è osservato in Tennessee, con riferimento agli effetti della dimensione della classe, potrebbe non essere valido per l’Arkansas o per il Kentucky. Giusto per citare due Stati limitrofi. Tanto meno può essere ritenuto sicuramente valido nel caso in cui la politica venisse estesa all’intera popolazione studentesca degli Stati Uniti o a quella di qualche Paese europeo.

In sostanza, siamo del tutto certi che i risultati dell’esperimento possano essere generalizzati al di fuori dello specifico ambito nel quale lo studio è stato condotto? Naturalmente no. Nessuna certezza assoluta. Anche se il fatto che ha funzionato altrove, è un’informazione importante a sostegno dell’adozione di una politica. Così come il fatto che non ha funzionato può dissuadere dall’idea di adottare l’intervento in un altro contesto. In ogni caso esiste sempre il rischio che ciò che si è osservato in condizioni sperimentali, in un certo luogo, in un determinato momento storico, possa non verificarsi in altri luoghi, quando si tenta di esportare la politica.

Ma questo più che essere un argomento a sfavore della conduzione di esperimenti, è un argomento a favore della loro estensione e della loro ripetizione in luoghi e contesti differenti. Solo così facendo si avranno evidenze solide e generalizzabili su ciò che funziona e su quali sono i meccanismi causali che possono spiegare perché le cose funzionano o meno.

In sintesi, i dubbi sulla validità esterna dell’esperimento hanno una soluzione: la realizzazione simultanea dello studio in più contesti (multisite randomized controlled trials) o la replica dello stesso studio in luoghi e tempi differenti.

L’esperimento come realtà a sé stante
Per alcuni critici il principale limite dell’esperimento – sempre legato al tema della validità esterna – consiste nel fatto che esso dà vita ad una realtà a sé stante, una situazione eccezionale che ha poco in comune con quello che avviene nella vita normale. Per quanto possa essere ripetuto in luoghi e in circostanze diverse l’esperimento conserverebbe questo vizio di fondo.

A questo proposito viene citato l’effetto Hawthorne: i comportamenti delle persone impegnate nell’esperimento si modificano non a causa dell’intervento sottoposto a valutazione, ma per la presenza di osservatori speciali – i valutatori – che condizionano fortemente i soggetti osservati. Come accadde nel caso dello stabilimento dell’azienda elettrica di Hawthorne, studiato negli anni Venti da alcuni ricercatori guidati da Elton Mayo, chi partecipa all’esperimento sa di essere oggetto di un’osservazione attenta e scrupolosa e per questo è motivato a cambiare il proprio modo di agire. Solitamente nella direzione desiderata da coloro che hanno disegnato l’esperimento. Tutto il cambiamento osservato sarebbe dunque spiegato da questo fattore psicologico. Se questo è vero, gli effetti osservati nel corso di un esperimento non dureranno molto a lungo. Terminato l’esperimento, gli effetti scompariranno.

A ben guardare, anche questa appare una critica un po’ forzata. In primo luogo, perché non sempre l’osservazione è così evidente e invasiva da poter davvero incidere sui comportamenti delle persone. Nel caso dell’azienda elettrica di Hawthorne il personale migliorava le prestazioni lavorative, perché era molto sollecitato dal team di ricerca. I ricercatori passavano molto tempo con i dipendenti e discutevano con loro le innovazioni organizzative prima che queste venissero introdotte. Ma negli esperimenti randomizzati questo non accade spesso.

In secondo luogo, perché possono essere utilizzate diverse strategie per scongiurare il rischio di un eventuale effetto Hawthorne. La strategia più drastica è realizzare un esperimento con un doppio cieco, come avviene nelle sperimentazioni cliniche, dove i beneficiari della politica e i soggetti attuatori non sono in grado di distinguere chi appartiene al gruppo sperimentale e chi al gruppo di controllo. Eventuali fattori psicologici vengono così disinnescati.

Infine, come sottolineano nel loro scritto Stuart Buck e Josh McGee, se in ogni esperimento emergesse davvero un effetto Hawthorne, come sostengono alcuni detrattori, non si spiegherebbe come mai gli esperimenti randomizzati ben disegnati e rigorosi mostrino una così elevata probabilità di produrre effetti nulli. Come recita la legge d’acciaio sulla valutazione formulata da Peter Rossi: The better designed the impact assessment of a social program, the more likely is the resulting estimate of net impact to be zero.

In conclusione
1. Non è vero che gli esperimenti si applicano solo a piccoli contesti. E’ vero il contrario: gli studi randomizzati hanno bisogno di numeri piuttosto grandi e sono sempre più numerosi gli esperimenti che vengono condotti simultaneamente su popolazioni molto ampie e in Paesi diversi. Questo grazie anche al recente sviluppo della tecnologia digitale.

2. Replicare studi in contesti, luoghi e tempi diversi permette di affrontare il problema della validità esterna degli esperimenti. D’altra parte, la conoscenza si basa sulla stratificazione delle evidenze. Per questo motivo è importante investire nella realizzazione di molti esperimenti randomizzati.

3. L’esperimento randomizzato dà vita ad una situazione speciale. Ciò non significa necessariamente che anche i comportamenti osservati nei soggetti attuatori o nei beneficiari siano speciali, ovvero differiscano da quelli che avremmo osservato in una situazione normale. Dipende dal tipo di politica e dalle modalità di realizzazione dell’esperimento. Esiste sempre la possibilità di adottare alcune strategie per limitare il rischio che le condizioni eccezionali dell’esperimento influenzino i comportamenti e gli esiti dello studio.

Renato Bertasi, Alberto Martini, Marco Sisti e Paola Versino



Per leggere i primi post sugli altri miti:
1. la lentezza degli studi randomizzati
2. il costo eccessivo degli studi randomizzati
3. la questione etica