foto blaco
Introduzione Recentemente ho pubblicato un articolo scientifico su
un nuovo metodo di indagine che permette di conoscere alcuni parametri di una
popolazione statistica senza dover sapere quello che riguarda i singoli
individui (rif. “Quantifying a phenomenon
without knowledge of individual data: the Erased Respondent Method (ERM)”,
Ann.Ig. 2007; 19: 193-202). Per fare un esempio concreto, col detto metodo possiamo
valutare quanti stiano guidando sotto l’influenza di droghe senza che sia
necessario conoscere chi stia guidando in tale stato. Come sarà immediato a
molti addetti ai lavori, il fatto di non conoscere i risultati dei singoli può
essere di grande facilitazione in tante situazioni, in particolare se i
controlli sono condotti in maniera casuale, e non per fondato sospetto.
Incautamente, nel corso di una recente intervista al Centauro, ho promesso al
dott. Biserni di spiegare in modo semplice questo metodo. La cosa non è facile,
in quanto il tutto ha una complessità intrinseca; tuttavia, siccome ogni
promessa è un debito (specie quelle fatte al dott. Biserni… altrimenti sono
guai!), mi accingo a mantenerla. Cosa verrà fuori… non ne ho idea: spero,
comunque, sia qualcosa di chiaro. Se ci riesco, lodatemi; altrimenti,
insultatemi pure (peraltro, recenti sentenze hanno arricchito le possibilità in
questo senso).
Armiamoci di un mazzo di carte… e facciamo un esperimento
“approssimato” Lasciando per un momento da parte il problema dei controlli su
strada, utilizziamo un modello più semplice per capire a fondo il metodo.
Costruiamo a questo scopo uno speciale mazzo di 90 carte, 18 rosse e 72 nere
(ad esempio, con quelle francesi). Il mazzo sarà la nostra “popolazione”. Le
carte rosse indicheranno i soggetti positivi; quelle nere i soggetti negativi. Sicché,
nel mazzo c’è una percentuale di carte rosse (soggetti positivi) pari a 18/90 =
0.20 → 20.0% di positivi. Si
osservi che questo dato viene fuori subito perché conosciamo lo stato di ogni
carta (se è rossa o se è nera). Contiamo quante sono le rosse (18), dividiamo
questo numero per il totale delle carte (90), e la percentuale è bella e
calcolata. Il problema che abbiamo davanti è stimare tale proporzione senza
conoscere il colore delle singole carte. Ora, mescoliamo bene il mazzo e poi facciamo
mucchietti di 3 carte. Avremo 30 mucchietti. Diremo che un mucchietto è
“Pulito” se le carte sono tutte nere; diremo invece che è “Sporco” se qualche
carta è rossa (una sola, o due o tutte e tre). Un risultato di questa
operazione può essere quello di tab.1, assolutamente casuale, ottenuto per
simulazione col computer. Ora… ragioniamo. In ogni mucchietto ci sono 3 carte.
Poiché nel mazzo 8 carte su 10 sono nere (80%), la probabilità che la prima
carta sia nera è 8 su 10, ovvero 0.80; ma anche la probabilità che la seconda
sia nera è ancora 0.80; così pure la probabilità che la terza sia nera è 0.80.
Quindi, la probabilità che le tre carte del mucchietto siano tutte nere è:0.803
= 0.80 . 0.80 . 0.80 = 0.512. Dunque, la probabilità che il mucchietto venga
tutto nero (cioè “Pulito”) è data dalla probabilità che la carta sia nera
(0.80) elevata al numero di carte del mucchietto, in questo caso 3. Questo è un
risultato elementare del Calcolo delle Probabilità: se in una popolazione
una certa caratteristica è presente con probabilità , la probabilità π che
facendo n prove si presenti sempre quella caratteristica è pari a πn. Fine.
Ricordiamoci questo risultato, e andiamo avanti. Supponiamo ora che i
mucchietti di tre carte li abbia fatti un nostro amico (voi non li potete
vedere), e che lui vi dica semplicemente che sono venuti fuori 16
mucchietti puliti e 14 sporchi (come risulterebbe se fossero quelli della
tabella). Se fate caso (attenzione, questo è il punto cruciale!!!), il fatto
che siano venuti fuori 16 mucchietti puliti su 30 mucchietti vi segnala
sperimentalmente che la probabilità che un mucchietto risulti pulito è pari a
16/30 = 0.533. D’altra parte, voi già sapete che questa probabilità è pari al
cubo della probabilità che una carta risulti nera elevata alla terza. Sicché,
se calcolate la radice terza della frequenza empirica che avete osservato per i
mucchietti puliti (16/30 = 0.533), il risultato vi deve fornire una stima della
probabilità che una carta sia nera! Avremo, quindi:
{foto3c} Questo valore è una stima
della probabilità che una carta del mazzo sia nera (si ricordi che quella vera,
che non conosciamo, è per costruzione pari a 0.80). Ora, poiché le carte sono o
rosse o nere, se la probabilità che una carta sia nera è 0.811, allora la
probabilità che la carta sia rossa non potrà che essere pari a (1-0.811) =
0.189, che tradotto in percentuale fa il 18.9%. La nostra valutazione della
proporzione di carte rosse nel mazzo sarà quindi del 18.9% (contro il 20% che
era il valore esatto). Facciamo ora un parallelo con un controllo su strada per
la guida sotto l’influenza di cocaina. Adesso, le carte nere sono i conducenti
che non hanno preso cocaina, quelle rosse sono coloro che l’hanno usata. Un
“mucchietto” è un pool delle salive di tre conducenti. I conducenti che sono
stati controllati sono 90, e quindi abbiamo 30 pools di salive (analoghi ai 30
mucchietti). Se in un pool c’è un conducente (o due o tutti e tre) che ha preso
cocaina, il pool risulta “positivo” all’analisi (“Sporco”); se nessuno dei tre
ha preso cocaina, risulta “negativo” (“Pulito”). I pool negativi sono 16… i
conducenti sotto l’influenza di cocaina sono quindi stimabili intorno al 18.9%.
Elementare, Watson.
Perché l’esperimento è “approssimato” Ho dovuto sacrificare
il rigore alla chiarezza. In effetti, se ho 90 carte, 18 rosse e 72 nere, se la
prima carta viene nera, la probabilità che la seconda venga anch’essa nera non
è del 20%, ma un poco meno: nel mazzo ci sono ora 89 carte, 18 rosse e 71 nere.
Quindi, detta probabilità è pari a 71/89 = 0.798. E se anche la seconda carta
viene nera, la probabilità che lo sia anche la terza è ancora minore (due carte
nere sono già uscite!), ed è ovviamente pari a 70/88 = 0.795. E così di
seguito: a mano a mano che escono carte nere e carte rosse le probabilità si
modificano. Comunque, niente paura: se il mazzo ha tantissime carte, le
probabilità non si modificano più di tanto, come nei fatti avviene se fermo
qualche conducente, uno dei 34.000.000 di possessori di patente attiva. Quindi,
l’esperimento, pur essendo “approssimato”, ha il suo valore didattico; e il
modello ERM mostrato è certamente adeguato al fenomeno che si vuole trattare.
Conclusioni In base a quanto mostrato possiamo dire che conoscendo il numero di
mucchietti puliti siamo in grado di stimare la proporzione di carte rosse del
mazzo, come pure in base al numero di pools negativi alla sostanza
indagata, quanti conducenti della popolazione guidavano sotto l’influenza della
sostanza. Se le carte del mucchietto sono 3, useremo la radice cubica della
proporzione dei mucchietti puliti; se sono due, la radice quadrata; se sono
quattro, la radice quarta; ecc. ecc. . Quali carte erano rosse? Chi dei
conducenti era sotto l’influsso della sostanza? Con questo metodo non lo
sapremo mai, né ci interessa in termini di conoscenza generale. L’ERM non si
interessa dello stato dell’individuo, ma dello stato della “popolazione” Per la
conoscenza specifica ci sono già i controlli individuali per fondato sospetto,
che funzionano egregiamente per sapere “Chi”, controlli che a mio avviso
andrebbero sostanzialmente potenziati. Non dimenticando, però, di utilizzare
anche l’ERM per una visione globale delle cose.
*Reparto “Ambiente e Traumi” Dipartimento Ambiente e connessa Prevenzione
Primaria Istituto Superiore di Sanità
da
"il Centauro n.115"
|