3.4.5 Metodi MaxEnt

Applichiamo in alcuni casi il metodo MaxEnt, ricordando l'entropia di Shannon:

S = - Sommak[ pk ln(pk) ]

IL PROBLEMA DEI CANGURI (Jaynes)

In una distesa un terzo dei canguri ha gli occhi azzurri e un terzo è mancino. Qual è la frazione dei canguri che sono mancini e hanno gli occhi azzurri? Abbiamo tre casi estremi: nessuna correlazione, massima correlazione negativa e massima positiva, con le probabilità associate Pbl, P_bl, Pb_l, P_b_l (con b=azzurro, l=mancino e il simbolo '_' di negazione logica). Nel caso generico dobbiamo trovare 4 incognite ma abbiamo solo tre vincoli: Somma(P)=1, Somma(P)b=1/3 e Somma(P)l=1/3. Scriviamo dunque l'entropia

S = Pbl log(1/Pbl) + P_bl log(1/P_bl) + Pb_l log(1/Pb_l) + P_b_l log(1/P_b_l)

e la massimizziamo con il metodo dei moltiplicatori di Lagrange (tre parametri e derivate di S poste a 0) ottenendo Pbl=1/9, P_bl=2/9, Pb_l=2/9, P_b_l=4/9  (che sono gli stessi risultati per nessuna correlazione) e tale risultato coincide con quella meno informativa.

SOLUZIONE DI SISTEMI SOTTODETERMINATI (ill-posed)

Se abbiamo un sistema di equazioni con numero di incognite maggiore del numero di equazioni, possiamo trovare la soluzione ragionevole con il metodo MaxEnt, cioè quella meno informativa (con la correlazione minima tra le variabili). Si considerano vincoli le equazioni e il fattore di probabilità tra le incognite è (per x y z) del tipo P=x/(x+y+z).

DISTRIBUZIONI A PRIORI CON IL METODO MAXENT
Se abbiamo come unica informazione il vincolo di normalizzazione si ottiene  pk=1/N. Se abbiamo come unica informazione il valore medio m si ottiene  pk=e^(a0+a1xk-1)  con due vincoli determinabili con metodi numerici dalle seguenti equazioni   e^(a0-1) Sommak[e^(a1 xk)] = 1   e   Sommak[xk e^(a1 xk)] = m Sommak[e^(a1 xk)] .

ESEMPIO: IL DADO TRUCCATO. Se il valor medio di un dado è (1+2+3+4+5+6)/6=3.5 allora per un dado truccato abbiamo m=3.5(1+e). L'obiettivo è conoscere i singoli valori, dato per noto m. Con il metodo MaxEnt abbiamo la distribuzione meno informativa con vincoli nell'equazione  1 - 6e^(6a1)/(1-e^(6a1)) + e^(a1)/(1-e^(a1)) = 3.5(1+e)  risolubile numericamente. Si ottengono dunque per medie tra 3.0 e 4.0 le diverse probabilità a posteriori p1,...,p6. Questa distribuzione skewed (obliqua) è un esempio tra le DISTRIBUZIONI A PRIORI NON INFORMATIVE.

ENTROPIA RELATIVA. Per distribuzioni continue a causa di divergenze si utilizza l'entropia relativa

Sp|m = - Integrale[ p(x) ln(p(x)/m(x)) dx ]

e se abbiamo una conoscenza parziale dei momenti delle distribuzioni a priori possiamo usare MaxEnt, ottenendo una p(x) calcolabile a partire dalla scelta di m(x) e dalle equazioni vincolari (come già Boltzmann avevo esposto in meccanica statistica). In prima analisi se non si conoscono i momenti e abbiamo solo il fattore di normalizzazione e p(x) è definita in [a;b] allora si sceglie una funzione uniforme m(x)=1/(a-b) e dai vincoli esce  p(x)=1/(a-b) . Secondariamente se conosciamo anche il primo momento, la media, abbiamo equazioni vincolari risolubili numericamente, in generale. Nel caso particolare di intervallo [-L/2;L/2] e media nulla abbiamo p(x)=1/L . Invece se la media è non nulla e vale "e", si ottengono equazioni simili a quelle non lineari nella teoria del ferromagnetismo e p(x)=(1/L) (1 - 12 e x/L) . Un ultimo caso speciale lo abbiamo quando a è 0 e b tende a infinito (e media m), da cui si ottiene la funzione esponenziale p(x)= (1/m) e^(-x/m) . In terzo luogo se conosciamo la media, la varianza e l'intervallo è l'asse reale allora la probabilità che massimizza l'entropia è una gaussiana.

 


 

Facciamo una carrellata di esempi di applicazione delle tecniche Bayesiane.

1) Test di ipotesi. Sia T la temperatura di un liquido che può essere acqua oppure etanolo. Supponiamo che il liquido sia acqua e poi etanolo, per ogni caso scegliamo appropriata distribuzione a priori, apparato come funzione likelihood P(D|T,I), errore di misura massimo di ±5°C, acquisiamo un dato: il termometro legge D=-3°C, calcoliamo l'evidenza (che quantificano la preferenza verso una ipotesi rispetto all'altra) P(D)=P(D|ipotesi), applichiamo il teorema di Bayes e troviamo P(T|D,I).

2) Fit di una retta. Sia  yi = a xi + b + err  , con yi la quantità misurata, xi la variabile indipendente nota con precisione, a e b i parametri di cui dobbiamo conoscere a priori le distribuzioni, err l'errore sulla misura distribuito gaussianamente. Se la likelihood sulla yi ha forma gaussiana e la distribuzione a priori di "a" è uniforme rispetto all'angolo (a=tg(z)) e quella di "b" uniforme impopria correlata alla precedente, allora si trova dopo molti calcoli la distribuzione a posteriori (approssimando una integrazione "piccata").

3) Media pesata. Se abbiamo errori noti con distribuzione gaussiana e scegliamo una distribuzione a priori uniforme impropria otteniamo, col teorema di Bayes e riarrangiando l'esponente, la probabilità a posteriori e si osserva che anche la media è distribuita gaussianamente.

4) Trattazione di errori sistematici. Come caso precedente ma con in aggiunta errori di scala, per cui il teorema di Bayes corrisponde alla marginalizzazione della likelihood rispetto alla media (che qui viene trattata come nuisance parameter) e si prende prendiamo una densità di probabilità a priori uniforme (invariante per traslazione). Nei calcoli si usa l'argomento di invarianza di scala già visto e si ottiene la distribuzione a posteriori.

5) Un problema bidimensionale. Un faro posto in P(x0;y0 emette luci casualmente in tutte le direzioni). Ci sono dei rilevatori sulla linea di costa (asse x) e l'evento è l'arrivo di tale luce. Allora bisogna trovare dove si trova il faro. Si sceglie una prob. a priori uniforme rispetto all'angolo di emissione della luce scritta rispetto a x, si calcola la likelihood e poi col teorema di Bayes la prob. a posteriori (osservazione in prima istanza marginalizziamo rispetto a y0, non interessandoci di tale posizione, oppure se la conosciamo già y0=1). Da esperimenti numerici si trova il valore di x0 molto piccato.

 


 

ALGORITMI. Una sezione molto importante delle applicazioni del principio MaxEnt, che non tratteremo, riguarda l'algoritmo EM di Dempster, Laird e Rubin per l'elaborazione delle immagini.

Inoltre siccome si incontrano molti integrali da risolvere numericamente (marginalizzazione della likelihood, calcolo dell'evidenza) è centrale utilizzare i metodi di Monte Carlo. Per approfondire si veda: acceptance-rejection sampling, bootstrap statistico, calcolo Bayesiano in una prospettiva di campionamento-ricampionamento (Smith e Gelfand), introduzione all'algoritmo di Metropolis-Teller-Hastings e al Markov Chain Monte Carlo (MCMC).

Infine un ulteriore approfondimento si trova in "On the relationship between Bayesian and MaxEnt Inference" (from Cheeseman & Stutz - 2004, dove si considerano tre problemi più complessi di quelli tratteggiati finora e si riprende anche il problema dei canguri) e nello studio MCMC di BioBayes.
 

Tratto dal corso di ph.D di Edoardo Milotti.