3.4.3 Sul fondamento dei metodi di massima entropia secondo Jaynes

In questo paragrafo vediamo come il principio di entropia può superare l'originario ambito della termodinamica e aspirare a diventare un fondamentale principio alla base dell'inferenza scientifica, qualunque sia il sistema fisico in esame.

Consideriamo un sistema fisico senza rumore esterno e del quale abbiamo informazione incompleta. A partire da uno stato iniziale vogliamo trovare i fondamenti logici/combinatoriali/teorici per predire/inferire quale sarà lo stato finale del sistema in seguito ad una evoluzione temporale. E' un obiettivo arduo, ma potremo ottenere alcuni risultati in talune situazioni.

Si dimostra infatti la validità del teorema di concentrazione di entropia, il cui enunciato e le cui conseguenze tratteggiamo qui di seguito. 

 


 

A) Sia dato un esperimento casuale con n esiti possibili e sia compiuto per N tentativi. Avremo allora nN sequenze di uscite con frequenze Ni/N (ad esempio in meccanica statistica Ni potrebbe essere lo stato quantistico della i-esima particella di un sistema di N particelle) e l'entropia del sistema può essere definita come

H(fi) = - Σi(fi log(fi))

dove la sommatoria va da 1 a n e il logaritmo è in base naturale.

B) Consideriamo ora una sottoclasse C delle nN sequenze di uscite con m<n vincoli della forma

Σi(Aji fi ) = dj          (x)

con j che varia tra 1 e m. Allora le quantità fisiche misurate m presentano una natura definita dalla matrice Aji e dj sono i dati che otteniamo dalle misure.

C) Attenzione che i dati non ci forniscono informazioni sulle frequenze, mentre l'entropia sì. Come? Se prendiamo una frazione F della sottoclasse C di sequenze di uscite allora l'entropia sarà compresa entro questo intervallo

[ Hmax - ΔH ; Hmax]

con Hmax calcolato con un algoritmo noto in meccanica statistica (moltiplicatori di Lagrange e funzione di partizione).

D) Con queste premesse vale il teorema combinatoriale asintotico per cui (si veda la dimostrazione nell'articolo di Jaynes)

2N ΔH = χ2k(1-F)

che coinvolge il chi-quadro di 1-F per k=n-m-1 gradi di libertà del sistema. Si noti bene che questo teorema è una affermazione sul conteggio degli stati possibili, non sulle probabilità che il sistema raggiunga un certo stato. Frequenze e probabilità coincidono solo nel caso si consideri valido il principio di equiprobabilità a priori.

 


 

E) Facciamo un esempio con il lancio di un dado. Sia N=1000 e n=6, cosa possiamo dire? Ebbene, tutti convengono nell'affermare che "la frequenza di uscita di un numero qualsiasi del dado è fi*=1/6". Ma... come giustificare tale affermazione?

Con Σfi = 1 ho Hmax = loge6 = 1,79176 proprio per la distribuzione uniforme fi*, mentre con k = 5 abbiamo χ25(0,05) = 11,07. In tal modo il 95% di tutte le possibili sequenze di uscite presentano entropia compresa nell'intervallo [1,786 ; 1,792] e possiamo affermare che una vasta maggioranza di sequenze presenta frequenze prossime a quella fi*. Questo teorema giustifica dunque la scelta a priori. Dalle stesse parole di Max Planck: "la natura ha una forte preferenza per situazioni di maggior entropia".

Se N=1023 questo teorema possiamo chiamarlo secondo principio della termodinamica.

F) Immaginiamo ora che dai dati emerga un nuova evidenza, per cui un'influenza sistematica porta per N=1000 lanci non un valore 3,5 della relazione (x), con matrice A=i, ma un valore 4,5. Che fare? Ebbene, l'algoritmo di massima entropia funziona ancora e dai calcoli numerici si trova

fì = e -λi (Σe -λi)-1

con i che va da 1 a 6, λ = -0,37105 e Hmax = 1,61358, valore esterno persino all'intervallo di confidenza trovato prima. Siamo in presenza di una forte discrepanza e senza ulteriori informazioni sul nuovo vincolo possiamo sfruttare ancora il teorema, trovando per F al 95% e con k = 4 un intervallo di entropie H = [1,609 ; 1,614].

Quindi avendo informazione incompleta sul sistema possiamo concludere che non solo l'entropia massima fornisce la più probabile sequenza di uscite, ma che qualsiasi valore di entropia sarà molto vicino al massimo per tutte le possibili sequenze di uscite, con ΔH ~ N-1.

G) Una tecnica di conteggio ad opera di Laplace e Bernoulli permette di calcolare la molteplicità dei microstati

W = N!/(N1! N2! ... Nn!)

e usando Stirling per N tendente a inifinito esce la nota formula dell'entropia (che anche Shannon utilizzò nei suoi lavori di teoria dell'informazione). Allora possiamo dire (lo abbiamo anche già affermato nel paragrafo precedente) che distribuzioni a maggior entropia hanno maggior molteplicità di microstati.

Tuttavia arriviamo ad affermare che pur con N=50 e senza avere formule asintotiche nell'esempio dei dadi otteniamo i numeri Nk=(3,4,6,8,12,17) e dal calcolo di W abbiamo un numero talmente elevato di microstati che è prudente seguire comunque (anche senza una certezza data da implicazioni logiche) le predizioni date dal metodo di massima entropia. Se scegliessimo altre stime staremmo considerando una sottoclasse di sequenze di uscite piccola e non rappresentativa (non tipica ma "criptica") che potrebbero accadere sì, ma con una frequenza talmente bassa che non si potrebbero ripetere, controllare e osservare negli esperimenti. Questo in conclusione risulta essere un principio guida molto utile nell'attuazione di inferenze scientifiche.

 

Estratto da un vecchio articolo di Edwin Jaynes (1982) "On the rationale of Maximum-Entropy Methods".

  • p V / T = p0 V0 / T0

    pV = n R T            

    p V = N kB T          

    (N = n Na    n = m / Mmol     kB = R / Na)