3.4.4 Tecniche di inferenza Bayesiana

Il teorema di Bayes 

P(A|B) P(B) = P(B|A)P(A) 

tratta il calcolo della probabilità condizionata, cioè la probabilità che si verifichi l'evento A in seguito al verificarsi dell'evento B. Per Ak eventi incompatibili e corrispondenti a tutte le possibilità, possiamo calcolare

P(B) = Sommak[ P(B|Ak) P(Ak) ]

e avere una prima esperienza di inferenza Bayesiana. Vediamo il seguente esempio.

Prendiamo due vasi A e B, sapendo che vi sono rispettivamente 10 palline gialle e 30 rosse nel primo, 20 e 20 nel secondo. Qual è la probabilità di estrarre una pallina rossa, nel caso prima si scelga il vaso e poi la pallina? Abbiamo P(A)=P(B)=1/2 e P(G|A) = 1/4, P(R|A) = 3/4, P(G|B) = 1/2, P(R|B) = 1/2, per cui P(R) = P(R|A) P(A) + P(R|B) P(B) = (3/4) (1/2) + (1/2) (1/2) = 5/8 = 0.625. Ora ci poniamo un'altra domanda: se abbiamo estratto una pallina rossa, qual è la probabilità che il vaso da cui l’abbiamo estratta sia il vaso A? Conoscendo il modello fisico (cosa c'è nella scatola) la probabilità a priori è P(A)=1/2=0.5, mentre secondo il teorema di Bayes abbiamo la probabilità a posteriori P(A|R) = P(R|A) P(A) : P(R) = 0.6 che è maggiore di quella a priori (tale meccanismo si può iterare, aggiungendo la conoscenza dell'informazione precedente I).

Un altro esempio preso nella sfera medica: dati due eventi malattia (infetto o non infetto) e test (positivo o non positivo) abbiamo che P(positivo|infetto)=100% e P(non infetto|positivo)=0,2%. Quanto vale P(infetto|positivo)? Se diciamo 99,8%  siamo in errore! Infatti per calcolare tale P dobbiamo usare il teorema di Bayes che coinvolge P(infetto) e P(non infetto), i quali con 1000 persone infette su 1 milione di persone valgono 0,1% e 99,9%. Dunque dal teorema troviamo che P(infetto|positivo)=0,33=33% minore rispetto quanto pensavamo prima. Se si ripete la misura sulla popolazione dei positivi si ha P(infetto)=33% e P(non infetto)=67% con questi valori esce P(infetto|positivo)=99,9% il che fa capire quanto sia importante in taluni casi compiere due volte lo stesso test, per avere sicurezza di avere tra le mani un risultato significativo.

E importante anche non confondere gli eventi nella probabilità condizionale, in quanto il loro scambio porta a situazioni diverse: nel caso del test di compatibilità del DNA e dell'innocenza in un delitto in una città di 200001 abitanti non è P(DNA compatibile|innocente)=0,002% che vogliamo, ma P(innocente|DNA compatibile,I)=0.8.

Come altro esempio, alla Laplace, prendiamo la probabilità che il sole sorga domani P(S)  e quella che il sole sorga domani se esso è già stato visto sorgere N volte precedenti. Allora P(S|N)=1-1/(N+2) e per chi ha venti anni tale valore sarà 1-0.00014.

Formalizzando dunque l'inferenza Bayesiana sulla verità di certe ipotesi abbiamo che la probabilità a poateriori che l'ipotesi Hk sia vera se si osservano i dati D e data l'informazione precedente I è il prodotto della probabilità di osservare i dati D nel caso Hk sia vera (likelihood normalizzata/marginalizzata) con quella a priori che l'ipotesi stessa sia vera. Nel confronto tra due ipotesi Hk e Hn con uguali probabilità a priori allora il rapporto delle due probabilità a posteriori è dato dal fattore di Bayes 

P(Hk|D,I) / P(Hn|D,I) = P(D|Hk,I) / P(D|Hn,I)

mentre nell'analisi dell'iteratività nella stima di un parametro l'assunzione che dati successivi siano indipendenti tra loro semplifica i calcoli, da cui  P2(x|d1,d2,I) = (P(d2|x,I) / P(d2|I)) P1(x|d1,I) .

 


 

DISTRIBUZIONE BINOMIALE. Passando al continuo e considerando la probabilità (con C(n;k) coefficiente binomiale "n su k")

P(n|x,N) = C(n;N) (1-x)^(N-n) x^n

e volendo stimare x rispetto a distribuzione a priori uniforme otteniamo - usando il teorema di Bayes - nei parametri una distribuzione beta B definita con gamma di Eulero come B(a,b)=Γ(a)Γ(b)/Γ(a+b), per cui

P(x|n,N) = (1-x)^(N-n) x^n / B(n+1,N-n+1) = [(N+1)!/n!(N-n)!] (1-x)^(N-n) x^n

il cui valore medio è  xm=(n+1)/(N+2)~n/N  e varianza  var(x)=(N-n+1)(n+1)/[(N+3)(N+2)^3] .

Osservazione: se la probabilità a priori è diversa da quella uniforme (esempio P=2x oppure P=(k+1)x^k con k alto) allora per N finito avremo punti di partenza ben differenti.

DISTRIBUZIONE POISSONIANA. Per stimare il rate di eventi poissoniani

P(n|λ,Δt) = Δt)^n e^(-λΔt) / n!

troviamo, partendo a priori da una step function (impropria), la probabilità a posteriori

P(λ|n,Δt) = Δt)^n e^(-λΔt) / n!

con λ aleatoria, valor medio e varianza di λΔt uguali a  n+1  .

DISTRIBUZIONE GAUSSIANA. Per la stima della media m di una distribuzione con varianza fissata (k è l'inverso della radice di due pi-greco var)

P(x|m,var) = k exp[-(x-m)^2/(2 var^2)]

si usa una distribuzione a priori uniforme p(m) impropria, e si ottiene a posteriori (con m aleatoria)

P(m|x,var) = k exp[-(x-m)^2/(2 var^2)]

Se sappiamo che la media è positiva possiamo usare una distribuzione a priori diversa e ottenere anche qui risultati adeguati.

Ma il calcolo più impegnativo si ha quando la distribuzione a priori presenta una struttura gaussiana con media a priori m1. In questo caso, studiando la struttura dell'esponente, si ha distribuzione a posteriori gaussiana con media e varianza

m2 = (var1^2 x + var^2 m1)/(var1^2 + var^2)            

e

var2^2 = var^2 var1^2 / (var1^2 + var^2)

Tale processo di inferenza è tuttavia ricorsivo e si può scrivere la media come media pesata tra x e m1, ottenendo una struttura per m2 tipo filtro di Kalman con guadagno  var1^2/var1^2 +var^2  più una variazione lineare con rumore bianco gaussiano.

MINIMIZZAZIONE DEL CHI-QUADRATO. Se abbiamo una distribuzione a priori impropria l'obiettivo per ottenere la distribuzione a posteriori adeguata è massimizzare la likelihood minimizzando (con espansione e uso dell'hessiano e della matrice di covarianza) il cosiddetto chi-quadrato, che nel contesto guassiano (con dati indipendenti xi=(ai,bi) e errore trascurabile su ai) è

Chi-quadrato^2 = Sommak[(bk-b(ak;x))^2/2vark^2]

DISTRIBUZIONI A PRIORI. Quali scegliere? Due metodi: il primo considera l'invarianza per traslazioni generiche (L è likelihood e se è gaussian m è la media, d sono i dati)  P(d|m,I) = L(d,m) = g(m-f(d))  e ottiene una distribuzione uniforme (in generale impropria); il secondo considera l'invarianza di scala  P(d|t) = (1/t) e^(-d/t)  per cui con t'=k t otteniamo una distribuzione del tipo C/t (con C costante e solitamente impropria, è la Jeffreys' prior).

Tratto dal corso di ph.D di Edoardo Milotti.