Una tra le principali critiche rivolte agli studi randomizzati, spesso utilizzata come la pallottola d’argento in grado di smontare le argomentazioni dello sperimentalista più convinto, può essere riassunta nella seguente frase: “Gli studi randomizzati non sono adatti a valutare programmi complessi!”.

A questa affermazione solitamente si accompagna la constatazione che tutto (o quasi) merita di essere annoverato nella categoria della complessità. Sono complessi i fenomeni sociali ed economici che caratterizzano la nostra società; sono complessi i programmi d’intervento costruiti per affrontare tali fenomeni; sono complesse le organizzazioni chiamate ad attuare tali programmi; certamente appartengono all’insieme dei sistemi complessi anche gli esseri umani che, a ben vedere, costituiscono il target principale di ogni programma.

Il passaggio da questa constatazione di pervasiva complessità ad un giudizio di scarsa applicabilità e di ridotta rilevanza degli studi randomizzati è assai breve.

Nel testo “Why Government Needs More Randomized Controlled Trials: Refuting the Myths”, che ha ispirato questa nostra serie di post sui miti che circolano intorno agli studi randomizzati, Stuart Buck and Josh McGee citano un paio di passaggi che ben rappresentano questa posizione.

Il primo è tratto da un articolo di Peter York, ricercatore della BCT Partners: gli studi randomizzati (RCTs) “non si prestano all’apprendimento in tempo reale e ai rapidi adattamenti dei programmi richiesti dall’ambiente complesso e tumultuoso in cui le organizzazioni non profit operano oggi”.

Il secondo passaggio è tratto da un testo redatto dal Center for Medicare & Medicaid Innovation Model Evaluations (CMS), una struttura interna al Ministero della Salute degli Stati Uniti: “quando si testano interventi discreti e “concettualmente accurati” CMS utilizza studi randomizzati. Per interventi che sono multimodali o in costante evoluzione, la randomizzazione potrebbe non essere fattibile o appropriata”.

Valutare gli effetti di programmi semplici è già una bella sfida
È vero che gli esperimenti controllati nascono – e si sviluppano – per identificare gli effetti di interventi circoscritti e ben riconoscibili. Interventi che possiamo anche definire “semplici”, in contrapposizione all’uso del termine complesso. Non siamo però convinti che questo possa essere considerato un vero limite.

Come sappiamo, nella sperimentazione clinica il presupposto per pronunciare un giudizio robusto sull’efficacia di un’eventuale cura è che la somministrazione ai pazienti del farmaco (o della terapia) segua un protocollo ben preciso, che si ripete uguale a sé stesso in tutti i casi sottoposti ad osservazione. Se questo protocollo non è rispettato, o addirittura se ad ogni paziente viene somministrato un mix diverso di farmaci e di terapie, la validità dello studio è seriamente compromessa.

La stessa cautela vale per le politiche pubbliche: occorre fare molta attenzione al fatto che l’intervento sia riconducibile ad un trattamento ben definito, mirato, se vogliamo valutarne gli effetti. È chiaro che il rispetto del protocollo di trattamento sarà più facile per gli interventi più semplici.

Ad esempio, uno studio randomizzato può essere utilizzato, senza troppi problemi, per capire in che misura una lettera minacciosa, inviata ai contribuenti, li induce a pagare le imposte entro i termini previsti per legge. O per valutare se un incentivo dato agli insegnanti, sotto forma di aumento nella retribuzione riconosciuto in base alla performance degli studenti, produce degli effetti positivi sulla preparazione e sul rendimento delle classi. O ancora per verificare fino a che punto la partecipazione ad un corso di formazione molto intensivo aiuti i giovani disoccupati a trovare lavoro.

Da questo breve elenco di casi si deduce una prima lezione importante. Il fatto che l’intervento sottoposto a valutazione sia relativamente semplice – una lettera, un incentivo economico o un corso di formazione – non significa che esso vada ad incidere su problemi banali e non influenzati, direttamente o indirettamente, da una molteplicità di cause, magari tra loro interconnesse. L’evasione fiscale, la preparazione scolastica degli studenti e la propensione a trovare un lavoro da parte dei giovani sono fenomeni sociali compositi, che presentano un elevato grado di complessità.

Inoltre, dagli esempi citati discende una seconda lezione: l’apparente semplicità delle soluzioni sottoposte a test non rende gli esiti della valutazione scontati o poco interessanti per i decisori. Tutt’altro; la conoscenza prodotta in questi casi è un aiuto prezioso per chi vuol disegnare interventi efficaci (per quanto semplici). È dall’attenzione a queste “piccole cose” che passa il successo (o l’insuccesso) di una politica pubblica.

In sostanza, la valutazione degli effetti di interventi “semplici” è già una bella sfida, tanto impegnativa quanto utile. Se anche fosse vero che gli studi randomizzati mal si adattano a valutare gli effetti di programmi complessi, questo non limiterebbe più di tanto il campo d’azione – o la rilevanza – degli esperimenti controllati. Anche senza occuparsi di programmi molto complessi, possiamo rassicurare i nostri lettori che c’è comunque tantissimo da sperimentare e da imparare.

La complessità come indeterminatezza
Per capire però se gli studi randomizzati siano o meno in grado di affrontare la sfida della complessità, dobbiamo fare lo sforzo di definire che cos’è un programma complesso.

A volte il termine complessità viene impiegato come sinonimo di indeterminatezza. Tale indeterminatezza può riguardare diverse componenti del programma: può accadere che non sia possibile distinguere chi è esposto alla politica e chi ne viene escluso; oppure che non sia possibile definire a priori quali strumenti d’intervento verranno impiegati, perché la decisione su questo punto è affidata agli operatori impegnati nel tradurre un mandato generale nell’erogazione di servizi e prestazioni concrete; o ancora che non sia possibile stabilire con precisione quando un intervento inizia e quando finisce, perché esso ha lunghi periodi di phase-in e phase-out o non presenta discontinuità evidenti con interventi precedenti.

Se nella fase di disegno del programma è impossibile rinunciare a questa indeterminatezza, perché un’attuazione senza certezze risponde a precise esigenze organizzative, o perché si ritiene che ciò aumenti l’efficacia dell’intervento, migliorando la sua capacità di adattarsi rapidamente “all’ambiente complesso e tumultuoso” nel quale opera, prendere in considerazione la conduzione di uno studio randomizzato può essere un’operazione del tutto velleitaria. Possiamo dire di più: se non si è in grado di stabilire esattamente chi riceve cosa, per quanto tempo, come e perché, anche altre strategie controfattuali, di tipo non sperimentale, risulteranno inapplicabili. In questi casi dovremo semplicemente rinunciare all’idea di usare metodi quantitativi per verificare l’esistenza di nessi di causa effetto tra ciò che viene realizzato e il cambiamento osservato nel fenomeno d’interesse.

La ricercata mutevolezza del programma, che si modifica in base ai cambiamenti di contesto o all’evolversi del fenomeno che si vuol affrontare, comporta quindi un costo evidente: portarsi dietro il dubbio che tutto ciò che si sta facendo, per quanto motivato dal meritorio tentativo di adattarsi a nuove situazioni e bisogni emergenti, sia poco utile, o addirittura del tutto inutile, alla risoluzione del problema che motiva l’intervento stesso.

La complessità come multi-trattamento
L’indeterminatezza non è il solo modo di definire la complessità. A volte l’attributo di complessità viene utilizzato per descrivere programmi che semplicemente ricorrono ad una varietà di strumenti d’intervento.

Secondo questa accezione il programma consiste “nell’erogazione di un pacchetto di trattamenti di natura diversa, che può variare da beneficiario a beneficiario. Si pensi a quei casi in cui vengono erogati servizi integrati a soggetti portatori di una certa problematica. Ad esempio, un intervento di sostegno abitativo integrato con uno di assistenza economica e con il supporto dei servizi sociosanitari. Oppure un’agevolazione concessa alle imprese di recente costituzione assieme all’offerta di servizi formativi e consulenziali. In tutte le situazioni di servizi integrati, o di politiche multi-intervento, la valutazione quantitativa degli effetti diventa più difficile da condurre”. [Martini e Sisti, 2009]

Attenzione però: questo non significa sia impossibile – e tanto meno che sia inutile – condurre uno studio randomizzato su un intervento multi-trattamento. Certamente la presenza simultanea di più trattamenti rende l’esperimento più difficile da organizzare e gestire, ma spesso i risultati che si ottengono sono più interessanti.

Nel loro testo Stuart Buck and Josh McGee menzionano alcuni interventi ad elevata complessità che sono stati oggetto di studi randomizzati.

Interventi multi-trattamento sottoposti a sperimentazione controllata
Success for All è un ampio programma di riforma che riguarda i primi anni della scuola elementare. Si tratta di un programma indirizzato ad istituti con un’alta percentuale di studenti provenienti da famiglie molto povere.

Lo scopo dell’intervento è intercettare e ridurre i problemi di lettura, prima che questi si cronicizzino. L’intervento si basa su una trasformazione radicale della didattica e prevede: (1) classi di lettura quotidiana ad alta voce, dalla durata di 90 minuti, alle quali partecipano studenti di diverse età (5-8 anni); (2) una serie di lezioni basate sullo sviluppo del linguaggio sulla consapevolezza fonetica e sulla capacità di leggere in modo scorrevole per chi frequenta il primo anno (6/7 anni); (3) un’attività giornaliera personalizzata per chi presenta particolari difficoltà; (4) attività di apprendimento cooperativo condotte da studenti che lavorano in squadra e tra pari, nel corso del secondo anno.

Questo intervento multi-trattamento è stato al centro di due esperimenti controllati: il primo, realizzato tra il 2001 e il 2006, ha coinvolto 41 scuole elementari in 11 Stati; il secondo, realizzato tra il 2011 e il 2014, ha coinvolto 37 scuole presenti in 4 Stati. I risultati dei due studi sono riportati in una pagina del sito web di Success for All e sono illustrati sinteticamente in una scheda predisposta dall’iniziativa Social Programs That Work.

Ultra Poor Graduation Approach è un programma contro la povertà, che nasce con l’obiettivo di aiutare persone estremamente indigenti a migliorare il loro benessere economico. Ciò che caratterizza questo intervento è la scelta di mettere insieme, in un unico pacchetto, una molteplicità di azioni finalizzate a produrre un cambiamento duraturo nelle condizioni di vita dei beneficiari. Alle persone che partecipano al programma – le più povere delle comunità coinvolte dall’intervento – si offre, oltre ad un trasferimento monetario temporaneo che le aiuta a sostenere il consumo di beni primari (vitto e alloggio), una sovvenzione per avviare un’attività produttiva e la formazione necessaria per svilupparla, un servizio di coaching per la gestione dei problemi quotidiani, l’apertura di un conto corrente nel quale depositare i risparmi, informazioni sull’accesso ai servizi sanitari. Si tratta di un intervento multiforme, che prevede di adattarsi ai diversi contesti e alle differenti culture dei Paesi, nei quali viene realizzato. Alla base vi è l’idea che l’insieme di queste azioni, tra loro variamente combinate, possa dare la spinta necessaria e sufficiente ad uscire in modo permanente dallo stato di povertà assoluta.

Un team di ricerca, diretto dai due recenti Premi Nobel Abhijit Banerjee e Esther Duflo, ha sottoposto a valutazione questo composito programma, mediante la conduzione di studi randomizzati in diversi Paesi: Etiopia, Ghana, Honduras, India, Pakistan, Perù e Yemen. L’evidenza prodotta da questi studi è disponibile sul sito web dell’IPA (Innovations for Poverty Action) ed è di grande utilità per il disegno di nuovi interventi di contrasto alla povertà da adottarsi in altri Paesi e in diversi contesti culturali.

Naturalmente l’elenco degli studi randomizzati che hanno tentato di valutare l’efficacia di interventi multi-trattamento è molto lungo e potrebbe continuare per qualche pagina. Ci occuperemo di fare una rassegna più completa in un prossimo post, anche sulla base delle indicazioni dei nostri lettori (e del nostro Comitato Promotore).

In conclusione

1. Gli studi randomizzati nascono per valutare gli effetti di interventi ben definiti e mirati, che prevedono lo svolgersi di una sequenza lineare di azioni e risultati. Qualcuno definisce questi interventi “semplici” o comunque “non complessi”. Se anche gli studi randomizzati si concentrassero esclusivamente su interventi di questo tipo, l’evidenza prodotta da tali studi sarebbe molto ampia e assai rilevante per i decisori pubblici.

2. È vero che gli studi randomizzati sono poco adatti a valutare interventi indeterminati nelle loro componenti di base. D’altra parte, se tutto (o quasi) è lasciato all’estemporaneità o alla discrezione degli operatori chiamati a dare attuazione all’intervento, manca un vero trattamento da sottoporre a valutazione. Questa indeterminatezza nella costruzione di un programma ha un costo: non avere a disposizione robuste evidenze sull’efficacia di ciò che è stato realizzato.

3. Non è vero che gli studi randomizzati non sono adatti a valutare programmi complessi, se per complessità si intende il fatto che essi sono composti da più trattamenti. Vi sono ormai numerosi esperimenti controllati che tentano sia di valutare se un certo intervento multi-trattamento, preso nel suo complesso, riesce a produrre gli effetti desiderati, sia di comprendere qual è il peso dei diversi trattamenti adottati, anche tra loro variamente combinati, nel determinare l’impatto complessivo del programma.

Renato Bertasi, Alberto Martini, Samuele Poy, Marco Sisti e Paola Versino

Per leggere i post sugli altri miti:
1. la lentezza degli studi randomizzati
2. il costo eccessivo degli studi randomizzati
3. la questione etica
4. il problema dei microcontesti
5. la scatola nera

Riferimenti bibliografici
Martini A., Sisti M., Valutare il successo delle politiche pubbliche, Il Mulino, 2009