Il teorema di Bayes
tratta il calcolo della probabilità condizionata, cioè la probabilità che si verifichi l'evento A in seguito al verificarsi dell'evento B. Per Ak eventi incompatibili e corrispondenti a tutte le possibilità, possiamo calcolare
e avere una prima esperienza di inferenza Bayesiana. Vediamo il seguente esempio.
Prendiamo due vasi A e B, sapendo che vi sono rispettivamente 10 palline gialle e 30 rosse nel primo, 20 e 20 nel secondo. Qual è la probabilità di estrarre una pallina rossa, nel caso prima si scelga il vaso e poi la pallina? Abbiamo P(A)=P(B)=1/2 e P(G|A) = 1/4, P(R|A) = 3/4, P(G|B) = 1/2, P(R|B) = 1/2, per cui P(R) = P(R|A) P(A) + P(R|B) P(B) = (3/4) (1/2) + (1/2) (1/2) = 5/8 = 0.625. Ora ci poniamo un'altra domanda: se abbiamo estratto una pallina rossa, qual è la probabilità che il vaso da cui l’abbiamo estratta sia il vaso A? Conoscendo il modello fisico (cosa c'è nella scatola) la probabilità a priori è P(A)=1/2=0.5, mentre secondo il teorema di Bayes abbiamo la probabilità a posteriori P(A|R) = P(R|A) P(A) : P(R) = 0.6 che è maggiore di quella a priori (tale meccanismo si può iterare, aggiungendo la conoscenza dell'informazione precedente I).
Un altro esempio preso nella sfera medica: dati due eventi malattia (infetto o non infetto) e test (positivo o non positivo) abbiamo che P(positivo|infetto)=100% e P(non infetto|positivo)=0,2%. Quanto vale P(infetto|positivo)? Se diciamo 99,8% siamo in errore! Infatti per calcolare tale P dobbiamo usare il teorema di Bayes che coinvolge P(infetto) e P(non infetto), i quali con 1000 persone infette su 1 milione di persone valgono 0,1% e 99,9%. Dunque dal teorema troviamo che P(infetto|positivo)=0,33=33% minore rispetto quanto pensavamo prima. Se si ripete la misura sulla popolazione dei positivi si ha P(infetto)=33% e P(non infetto)=67% con questi valori esce P(infetto|positivo)=99,9% il che fa capire quanto sia importante in taluni casi compiere due volte lo stesso test, per avere sicurezza di avere tra le mani un risultato significativo.
E importante anche non confondere gli eventi nella probabilità condizionale, in quanto il loro scambio porta a situazioni diverse: nel caso del test di compatibilità del DNA e dell'innocenza in un delitto in una città di 200001 abitanti non è P(DNA compatibile|innocente)=0,002% che vogliamo, ma P(innocente|DNA compatibile,I)=0.8.
Come altro esempio, alla Laplace, prendiamo la probabilità che il sole sorga domani P(S) e quella che il sole sorga domani se esso è già stato visto sorgere N volte precedenti. Allora P(S|N)=1-1/(N+2) e per chi ha venti anni tale valore sarà 1-0.00014.
Formalizzando dunque l'inferenza Bayesiana sulla verità di certe ipotesi abbiamo che la probabilità a poateriori che l'ipotesi Hk sia vera se si osservano i dati D e data l'informazione precedente I è il prodotto della probabilità di osservare i dati D nel caso Hk sia vera (likelihood normalizzata/marginalizzata) con quella a priori che l'ipotesi stessa sia vera. Nel confronto tra due ipotesi Hk e Hn con uguali probabilità a priori allora il rapporto delle due probabilità a posteriori è dato dal fattore di Bayes
mentre nell'analisi dell'iteratività nella stima di un parametro l'assunzione che dati successivi siano indipendenti tra loro semplifica i calcoli, da cui P2(x|d1,d2,I) = (P(d2|x,I) / P(d2|I)) P1(x|d1,I) .
DISTRIBUZIONE BINOMIALE. Passando al continuo e considerando la probabilità (con C(n;k) coefficiente binomiale "n su k")
e volendo stimare x rispetto a distribuzione a priori uniforme otteniamo - usando il teorema di Bayes - nei parametri una distribuzione beta B definita con gamma di Eulero come B(a,b)=Γ(a)Γ(b)/Γ(a+b), per cui
il cui valore medio è xm=(n+1)/(N+2)~n/N e varianza var(x)=(N-n+1)(n+1)/[(N+3)(N+2)^3] .
Osservazione: se la probabilità a priori è diversa da quella uniforme (esempio P=2x oppure P=(k+1)x^k con k alto) allora per N finito avremo punti di partenza ben differenti.
DISTRIBUZIONE POISSONIANA. Per stimare il rate di eventi poissoniani
troviamo, partendo a priori da una step function (impropria), la probabilità a posteriori
con λ aleatoria, valor medio e varianza di λΔt uguali a n+1 .
DISTRIBUZIONE GAUSSIANA. Per la stima della media m di una distribuzione con varianza fissata (k è l'inverso della radice di due pi-greco var)
si usa una distribuzione a priori uniforme p(m) impropria, e si ottiene a posteriori (con m aleatoria)
Se sappiamo che la media è positiva possiamo usare una distribuzione a priori diversa e ottenere anche qui risultati adeguati.
Ma il calcolo più impegnativo si ha quando la distribuzione a priori presenta una struttura gaussiana con media a priori m1. In questo caso, studiando la struttura dell'esponente, si ha distribuzione a posteriori gaussiana con media e varianza
e
Tale processo di inferenza è tuttavia ricorsivo e si può scrivere la media come media pesata tra x e m1, ottenendo una struttura per m2 tipo filtro di Kalman con guadagno var1^2/var1^2 +var^2 più una variazione lineare con rumore bianco gaussiano.
MINIMIZZAZIONE DEL CHI-QUADRATO. Se abbiamo una distribuzione a priori impropria l'obiettivo per ottenere la distribuzione a posteriori adeguata è massimizzare la likelihood minimizzando (con espansione e uso dell'hessiano e della matrice di covarianza) il cosiddetto chi-quadrato, che nel contesto guassiano (con dati indipendenti xi=(ai,bi) e errore trascurabile su ai) è
DISTRIBUZIONI A PRIORI. Quali scegliere? Due metodi: il primo considera l'invarianza per traslazioni generiche (L è likelihood e se è gaussian m è la media, d sono i dati) P(d|m,I) = L(d,m) = g(m-f(d)) e ottiene una distribuzione uniforme (in generale impropria); il secondo considera l'invarianza di scala P(d|t) = (1/t) e^(-d/t) per cui con t'=k t otteniamo una distribuzione del tipo C/t (con C costante e solitamente impropria, è la Jeffreys' prior).
Tratto dal corso di ph.D di Edoardo Milotti.