Il dottorato prossimo venturo

Per completezza rispetto ai molti che me lo chiedono, sì, alla fine ho accettato il dottorato, anzi, sapevo già che alla fine l’avrei fatto.

Il punto che mi preoccupa di più è il cambiare settore: per chi non lo sapesse, sono sul menù le neuroscienze computazionali. Il passaggio da fisica allo studio delle reti di neuroni è abbastanza comune, soprattutto dalla parte della teoria e della simulazione, e tutti i fisici neuroscienziati che ho conosciuto mi sono sembrati soddisfatti della scelta. Il mio futuro professore ha a sua volta una formazione da fisico. Ho solo un po’ paura che mi mancheranno certi meravigliosi aspetti della fisica, come la sua eleganza profonda e profondamente significativa. Recentemente mi sono accorto che la mia memoria mi tradisce già su molti dettagli della meccanica quantistica che un tempo conoscevo bene.

Bisogna dire che anche alla fine del liceo, anche se non ne potevo più, mi dispiaceva specializzarmi lasciando da parte tanti dei miei interessi, per esempio per la letteratura. Mi ricordo bene che fu la mia prof di greco e latino a dirmi di scegliere senza indugio un curriculum scientifico, per poi eventualmente coltivare l’interesse per le lettere per conto mio. E sono convinto, per inciso, che avesse ragione, e che il contrario non si possa fare (c’è bisogno di qualcuno che ti costringa, a memorizzare certe formulacce). Quando poi mi sono trovato sui banchi di università, la curiosità per tutte quelle materie nuove mi ha catturato immediatamente e ha cancellato le esitazioni. Conto che qualcosa di simile si applichi in questo caso.

Ci sono poi un gran numero di ragioni per scegliere di farlo: la più ovvia sono quattro anni di stipendio sicuro, che non fanno male in questo periodo, in cui sembra che un laureato possa solo disperarsi in un angolo (non mi sembra che sia così vero, dopotutto). Soldi che ti vengono dati perché tu possa studiare cose interessanti, cosa vuoi di più? Posso anche continuare a insegnare, che è una delle mie attività preferite, facendo tutorati. Si viaggia molto, con un fondo appositamente dedicato a visitare altre università, convegni, eccetera.

Il programma dottorale è un Erasmus Mundus finanziato dalla commissione europea e per il quale, fra l’altro c’erano pochi posti per molte domande. La maggior parte dei posti è riservata a studenti extracomunitari (molti brasiliani, indiani, statunitensi, iraniani), quindi c’è un bell’ambiente multiculturale. L’associazione degli studenti erasmus mundus è attiva in tutto il mondo. Il progetto sarà all’Università di Edimburgo ma prevede un minimo di sei mesi e un massimo di metà del periodo di studi da spendere in un’altra università, che sarà probabilmente Friburgo. Ho già visitato il dipartimento di Edimburgo ed è bellissimo:

ba-ed-uni-int-1

Immagine rubata senza pietà da http://www.architecturetoday.co.uk, che aggiunge ” it has something of the early Californian Apple or Google atmosphere […]. The Californian connection is very real too, as a key justification for the building is to attract the finest brains, often from that state, but for half the salary.”

Per gli “scienziati” che vogliono sapere qualcosa di più, al programma partecipa un numero di studenti e professori provenienti da fisica, matematica, informatica, biologia e neuroscienze, che si occupano di molti aspetti disparati, dal livello molecolare a quello della rete neurale, in modo più o meno sperimentale, più o meno astratto. A me è stato proposto, con relativa camionata di articoli da leggere, di lavorare in alternativa sull’omeostasi delle reti (in due parole: per “imparare” è necessario cambiare tutte le varie connessioni tra i neuroni; ma allora, come fa il cervello a mantenere invariate certe altre proprietà?) oppure a una ricerca, che mi sembra molto interessante, basata su dati sperimentali ottenuti, tra l’altro, all’IIT di Genova, relativi alle proprietà della rete neurale della rétina sottoposta a impulsi luminosi di diverso genere, in modo da ricostruire la dinamica elettrica della rete quando, effettivamente, vede.

Insomma, ad agosto si vedrà. Nel frattempo sono a casa a fare poco o nulla, a parte qualche ripetizione. Intanto, sto preparando (con moooolta calma) il paper con i risultati della mia tesi, sulla quale dovrò prima o poi scrivere un post.

Advertisements

La macchina di Galton

Come saprete, vi scrivo da un villaggio nel mezzo del bush, in Tanzania, a un’ora di auto dalla città più vicina. Questa è un’eccellente scusa per aver scritto un post poco approfondito e privo di immagini.

Il carnevale della matematica di questo mese ha come tema le “macchine matematiche”. Da fisico, obietterei subito che le “macchine” appartengono alla Fisica, in particolare alla meccanica, parola che ha la medesima etimologia, il greco μηχανή (mekhané). Vi appartengono necessariamente in quanto realizzazioni concrete, nello spazio fisico reale, che i matematici non conoscono che per sentito dire. D’altra parte ogni fenomeno fisico (ogni? forse – il discorso sarebbe complesso: c’è anche chi ha tirato fuori il primo teorema di incompletezza di Gödel in proposito, ma dovrebbe essere vero almeno per la meccanica classica) ammette una descrizione matematica, anzi, più di una, a seconda del livello a cui si vuole lavorare. Ci concediamo quindi di confondere questi due livelli: la teoria matematica e la fisica che ne viene descritta. Tra l’altro, è un lusso che il nostro cervello ama concedersi: gli esseri umani sono eccezionalmente bravi a praticare l’astrazione, ossia a cercare l’idealizzazione di un fenomeno (che si sappia, nessun altro o niente altro lo è nel sistema solare; resta da decidere se questo sia un record interessante o se il fatto che sia interessante lo pensiamo solo noi).

Questo sproloquio per introdurre l’argomento. È da un po’ che volevo fare una serie di post su dei teoremi particolarmente importanti o che mi piacciono particolarmente. Ne approfitto per parlare del primo attraverso una bellissima macchina che ne descrive perfettamente le deduzioni in un caso particolare (il caso più interessante, in realtà). Prima di spiegare ricordo ancora una volta che qui non ci sono teoremi, solo atomi, siamo noi a dare l’interpretazione. Se questo valga a tutti livelli della fisica è una domanda che andrebbe sottoposta ad un’apposita sottocommissione di filosofi delle scienza, che probabilmente litigherebbe per duemila anni e poi risponderebbe “boh”.

La macchina in questione è detta tavola di Galton, inventata, secondo Wikipedia, da un certo sir Francis Galton nel 1894. In alto, un imbuto rilascia, una alla volta, delle palline che cadono su un chiodo posto immediatamente sotto di esso, al centro, in modo che la pallina cada alla sua destra o alla sua sinistra grossomodo con uguale probabilità. Qualunque delle due vie essa scelga, troverà un nuovo chiodo ad aspettarla, e così via per un numero grande di passaggi, finché non raggiunge la base della “macchina”, dove viene fermata in una scanalatura in modo da osservare la sua posizione finale. Il tutto è più facile a vedersi che a spiegarsi: vi consiglio di andare a cercare una delle molte immagini e applet che ne mostrano il funzionamento (scusate se lascio a voi questo lavoro, ma la mia connessione internet rende ogni ricerca una sofferenza).

Mettetevi ora nei panni di una pallina. Chiamiamo asse x quello orizzontale, con origine in corrispondenza dell’imbuto. Ad ogni chiodo, determinate casualmente se spostarvi a destra o a sinistra, cioè se sommare o sottrarre un valore \delta x (dipendente dalla distanza tra i chiodi) alla vostra posizione corrente. La posizione finale dopo N chiodi è la somma di N valori, ognuno dei quali può essere, con uguale probabilità, +\delta x o $latex-\delta x$.

Indubbiamente, la clausola che il passo a destra e quello a sinistra siano egualmente frequenti fa subito pensare che, in media, la pallina resti attorno alla posizione zero. Ma sapere la media non dice tutto sulla distribuzione di probabilità: si può ottenere media zero con qualsiasi distribuzione finale di palline, purché simmetrica attorno all’origine. Anche se la media è zero, di sicuro non tutte le palline si troveranno esattamente sotto all’imbuto da cui sono partite. Mi aspetto che siano diffuse attorno ad esso, ma di quanto?

Qui entra in gioco il Teorema del Limite Centrale.

«La somma di N variabili casuali estratte dalla medesima distribuzione di probabilità, avente media M e deviazione standard S finite, è distribuita, per N grande, come una funzione gaussiana di media NM e deviazione standard S\sqrt{N}

Nel caso particolare della tavola, la somma di variabili casuali è la somma dei passi a destra o a sinistra, che avvengono con probabilità uguale e costante. La distribuzione esatta è una binomiale, che, per numero di passi sufficientemente grande, converge alla gaussiana.

Dal punto di vista matematico ha una sua eleganza perché si può vedere dal punto di vista degli spazi di funzioni: il ruolo particolare della gaussiana è dato dall’essere il punto fisso di una certa trasformazione; ma su questo non mi soffermo, innanzitutto perché non ne so abbastanza.

La bellezza di questo teorema consiste nel giustificare la presenza della distribuzione gaussiana un po’ dappertutto: l’altezza delle persone e molte altri dati biometrici sono distribuiti gaussianamente, così come molti tipi di errori di misurazione, eccetera. Ogni volta che il valore di una quantità è determinato dalla somma di un numero elevato di fattori imprevedibili, ci aspettiamo che il teorema entri in gioco, e le osservazioni lo confermano in molti casi.

Il random walk
Un caso molto simile si osserva realmente in fisica: considerate una particella “grande” rispetto alle molecole di un gas, nel quale è immersa. Essa riceve in continuazione spinte dalle molecole che la urtano casualmente, spingendola a destra o a sinistra. Applicando esattamente lo stesso ragionamento di cui sopra, si dimostra che la probabilità di trovare la particella ad una certa distanza dalla posizione iniziale è gaussiana, con una deviazione standard (l’ampiezza della gaussiana) che aumenta nel tempo. Questo è uno dei modi per risolvere il più semplice problema di DIFFUSIONE. In alternativa, si scrive un’equazione alle derivate parziali e la si risolve: è interessante notare che il modo più semplice per trovare la soluzione di quest’ultima (che naturalmente è la stessa: la gaussiana) è identico a quello usato per dimostrare il teorema del limite centrale (trasformare e antitrasformare alla Fourier, per chi fosse interessato).

A quanto pare non sono l’unico a trovarlo bello. Concludo con quello che Francis Galton scriveva: I know of scarcely anything so apt to impress the imagination as the wonderful form of cosmic order expressed by the “Law of Frequency of Error”. The law would have been personified by the Greeks and deified, if they had known of it. It reigns with serenity and in complete self-effacement, amidst the wildest confusion. The huger the mob, and the greater the apparent anarchy, the more perfect is its sway. It is the supreme law of Unreason. Whenever a large sample of chaotic elements are taken in hand and marshaled in the order of their magnitude, an unsuspected and most beautiful form of regularity proves to have been latent all along.

I neuroni secondo i matematici

Questo mese mi concedo generosamente ai pochi che mi leggono (i cosiddetti “venticinque lettori”, ma è brutto da dire, ché Manzoni, quando parlava dei Venticinque intendeva Milioni e faceva il Brillante, mentre io non voglio) e secerno un post che rispetta il vero tema del Carnevale della Matematica prossimo venturo, cioè la matematica e gli organismi viventi. Caso vuole che io abbia scritto la mia tesi triennale su una cosa chiamata reti neurali artificiali, che se la riguardo adesso, era sullo 0.01% di quello che si può dire sulle suddette, e anche la parte meno interessante, ma è stato bello e istruttivo farla, comunque.

Insomma, volevo farvi vedere il modello matematico di un neurone, il più semplice di tutti nonché il primo (che io sappia), che è stato inventato da McCulloch e Pitts as early as 1943. Un neurone è fatto così:

Neurone al microscopio

Neurone al microscopio elettronico. (microscopy.ucsd.edu)

i rametti tutto intorno, che si chiamano dendriti, raccolgono i segnali elettrici da altri neuroni. Lo stato del neurone è rappresentato dalla differenza di potenziale che c’è attraverso la sua membrana cellulare, cioè tra il corpo della cellula (soma) e l’esterno. Quando questa raggiunge una certa soglia, il neurone scarica di botto una corrente attraverso il dendrite, cioè quella coda più grossa che va verso il basso nell’immagine.

Il matematico descrive il neurone così:

percettrone

tutti i potenziali in ingresso \mathbf{x} vengono pesati su dei parametri \mathbf{w} e sommati tra loro e ad un valore di partenza \theta. Il neurone scarica al raggiungimento di una certa soglia: quindi in modo non lineare. La funzione \phi tiene conto di questo, basta scegliere una funzione a gradino o una sigmoide. In uscita dal neurone c’è un segnale elettrico

\phi(\mathbf{x}\cdot\mathbf{w}+\theta)

A cosa serve tutto questo? A due cose bellissime.

La prima è farsi un’idea di come funziona il cervello. Questo modello non basta assolutamente a descrivere cosa succede lì dentro, ma non è così lontano dalla realtà (in effetti, è direttamente ispirato alla realtà…). Suggerisce perlomeno che l’informazione deve essere principalmente nascosta in due posti: la struttura della rete (a quali altri è collegato ogni neurone?) e i valori di tutti i pesi delle connessioni tra un neurone e l’altro e delle costanti iniziali \theta di ogni neurone. È stato abbastanza per produrre simulazioni interessantissime, le più semplici delle quali si possono fare su un PC in poche ore, ma che arrivano a richiedere supercomputer ad hoc.

La seconda è costruire piccoli cervellini per pensare al posto nostro. Le reti neurali artificiali sono uno strumento di calcolo. Per esempio, reti già semplicissime (meno di dieci neuroni) riescono a fare il fit di dati sperimentali, cioè a intuire come dovrebbe essere fituna funzione dati alcuni punti estratti da essa. È un comportamento “intelligente”, perché non c’è una vera risposta (o meglio, ce ne sono infinite), dal punto di vista matematico, a questo problema, ma l’occhio umano intuisce quali sono risultati migliori e quali peggiori. Nella figura a fianco, presa dalla mia vecchia tesi, ci sono dati del satellite COBE sullo spettro di corpo nero, con le loro incertezze. La curva è il comportamento “imparato” dalla rete neurale a cui era stato fatto osservare un insieme (diverso) di dati dello stesso satellite, in modo da aggiustare i pesi fino a che non ri ottenevano risultati accettabili. C’azzecca, eh.

Nel campo delle reti neurali, fisici e matematici lavorano da anni, per due ragioni: il fatto che servano a fare conti come questi, che è stato sfruttato per esempio per produrre una libreria di distribuzioni partoniche (sono funzioni che descrivono la densità dei quark e gluoni dentro ad un adrone) a partire dai dati di LHC; e poi perché sono un soggetto di studio interessante per la matematica non lineare e per la fisica dei sistemi complessi e la meccanica statistica.

Edit (8 nov): Anche se ho specificato che questo modello è molto basilare e ormai vecchio, mi sento in dovere, anche in seguito a una conversazione con un amico, che oggi si ritiene insufficiente per il primo scopo, cioè la simulazione del cervello. Le simulazioni che si fanno ora fanno uso di modelli realistici, che possono scendere nei dettagli fino allo scambio di cariche nei singoli canali ionici. Chiaramente la potenza computazionale richiesta è decisamente maggiore: si può simulare un neurone, ma fare una rete di migliaia di cellule è dura. Per questo sono in via di costruzione supercomputer dedicati allo Human Brain Project, un progetto che comprende la simulazione, l’analisi teorica, l’applicazione robotica, lo studio fisiologico del cervello sia umano che dei topi, e chi più ne ha più ne metta. Comprenderà anche un team dedicato allo studio di dispositivi di calcolo che emulano il neurone già a livello hardware (neuromorphic computing). È un progetto enorme finanziato dall’UE e dalle decine di università partecipanti per un totale di 1.2 miliardi di euro (!) in dieci anni. Ambizioso. Ma non mi viene in mente niente di più importante, interessante e meritevole del cervello umano.

La matematica è una scienza?

La matematica non è una scienza, dal nostro punto di vista, nel senso che non è una scienza naturale. La verifica della sua validità non è l’esperimento. Incidentalmente, dobbiamo chiarire fin dall’inizio che se qualcosa non è una scienza, non è necessariamente sbagliato. Per esempio, l’amore non è una scienza. Quindi, se si dice che qualcosa non è una scienza, non significa che ci sia qualcosa di male; significa solo che non è una scienza.

R. Feynman, Feynman Lectures on Physics, Vol. 1 Cap. 3 Par. 1

Come funziona Google PageRank?

Google Search, il motore di ricerca più famoso del mondo, è una macchina che funziona incredibilmente bene. Un paio di parole chiave accuratamente scelte ed ecco che compaiono migliaia di risultati. Sì, migliaia: in questo 2013 il web è talmente esteso che la maggior parte delle ricerche che possiamo fare quotidianamente riguardano argomenti già trattati ampiamente un po’ dappertutto. Eppure, se ci fate caso, in mezzo a migliaia di risultati, raramente è necessario spingersi molto avanti, anzi in genere non bisogna neppure disturbarsi a leggere la seconda pagina.

Vi siete mai chiesti come fa Google a dare la precedenza a Wikipedia o a un sito autorevole rispetto a qualche sconosciuto blog di autore ignoto? E soprattutto, a sapere già cosa avete in mente, come a volte dà l’impressione (con occasionali errori grossolani)? Gli stessi fondatori di Google, Brin e Page, presentando l’algoritmo che fu una soluzione di questo dilemma, scrivevano nel 1999:

L’importanza di una pagina Web è una questione in sé soggettiva, che dipende dagli interessi, dalle conoscenze e dalle attitudini dei lettori. Ma c’è comunque molto da dire oggettivamente sull’importanza relativa delle pagine Web. [PageRank è] un metodo per valutare le pagine Web oggettivamente e automaticamente, misurando di fatto l’interesse e l’attenzione umani a queste rivolti.

Il Web è una grande rete (web vuol dire “ragnatela”, come saprete) i cui nodi sono pagine e i cui collegamenti sono i link (da non confondere con Internet, che è una rete di computer). In particolare è una rete direzionale perché se la pagina A ha un link verso B, non necessariamente è vero il contrario. L’algoritmo assegna a ogni pagina un rango (rank appunto), una sorta di misura del suo prestigio, o della sua autorevolezza. Il punto è come determinarla. Un punto di partenza ragionevole e intuitivo è il seguente: una pagina è tanto più autorevole quanto più autorevoli sono le pagine che parlano di essa. In altre parole, se Wikipedia, che è un sito importante e famoso, mette un link al mio piccolo blog, il prestigio del mio sito aumenta. Mettendo giù una formuletta, mi aspetto una dipendenza del mio ranking dagli altri come segue:

r_i =\sum_{j:j\to i} \frac{r_j}{k_j}

dove la sommatoria è su tutte le pagine j che hanno un link che punta verso la mia, i. Il valore k al denominatore è il numero di link che escono dalla pagina j: se la stessa pagina di Wikipedia cita centinaia di altre fonti, io sono solo uno in mezzo a mille altri e questa influenza positiva ragionevolmente diminuisce.

Questa equazione è autoconsistente, nel senso che la sua soluzione dipende dai rank di tutte le altre pagine, che è determinato dalla stessa equazione. Questo gatto che si morde la coda ha comunque una soluzione, che si può, tra l’altro, ottenere numericamente scegliendo degli r di partenza casualmente e applicando più e più volte la formula fino a raggiungere un risultato stabile con la precisione desiderata. Nonostante questo, ha dei difetti: innanzitutto, ha sempre una soluzione in cui tutti i rank sono zero. Anche la soluzione non banale ha un problema di fronte a un loop come questo:Loop1

i tre nodi “acquisiscono prestigio” dall’esterno senza mai distribuirne. A ogni iterazione dell’algoritmo, il loro prestigio aumenta fino a divergere. Per un loop isolato così

Loop2qualunque numero, purché uguale sulle tre pagine, è soluzione. Inoltre, ogni nuova pagina, che non ha ancora nessun link in ingresso, otterrà sempre un punteggio nullo che la destina a restare per sempre inosservata.

Il problema è risolto aggiungendo al ranking un piccolo termine “in regalo” alle pagine per il solo fatto di esistere, la cui importanza è determinata da un parametro p (che Google ha fissato a 0.15):

r_i = \frac{p}{N} + (1-p)\sum_{j:j\to i}\frac{r_j}{k_j}

La stessa espressione può essere interpretata (e anzi di solito è spiegata in questi termini) come la probabilità di trovare sulla pagina un “surfer” che naviga casualmente su internet, prendendo link a caso e, con probabilità p, spostandosi su una pagina qualunque anziché cliccare un link.

Oggi, l’algoritmo di Google Search tiene in conto un grande numero di fattori, compresi la lingua, l’area geografica di origine di un sito, la sua data di aggiornamento. Ma il PageRank è ancora il modo usato per determinare l’autorevolezza di un sito, ed è fondamentalmente una misura del suo ruolo all’interno di una rete complessa.

Oltre a funzionare palesemente bene, ha un vantaggio indispensabile per un motore di ricerca importante come Google: è praticamente impossibile influenzarlo o manometterlo, perché non c’è altro modo di aumentare il proprio ranking che convincere un’altra pagina autorevole, o molte piccole, a citarti. In una parola, è profondamente democratico.

PageRank list

I 15 maggiori PageRank del Web a luglio 1996. Il Web delle origini era abbastanza autoreferenziale. A parte la pagina del CERN, che fu la prima. Dall’articolo citato.

ResearchBlogging.orgL Page, S Brin, R Motwani, & T Winograd (1999). The PageRank citation ranking: bringing order to the web. Technical Report. Stanford InfoLab.

Reti parte 2: Gradi di separazione

Un modo molto sintetico di descrivere la differenza tra le due reti di linee aeree del post precedente è attraverso la dimensione di una rete. Non intendo dimensione nel senso di grandezza o estensione, ma un concetto più simile a quello di dimensioni dello spazio, una su una retta, due su un piano, e così via. Per le reti è rilevante una definizione di dimensione abbastanza esotica, che è lo stessa che si usa per i frattali. Questa non fa uso, come si fa di solito, del numero di variabili usate per descrivere un punto, e grazie a questo non è necessariamente un numero intero!

Cercherò di spiegare il senso di questo strano concetto. Partiamo da una rete fatta così:1dchiamiamo distanza tra due nodi della rete il numero minimo di passi che dobbiamo compiere per passare dall’uno all’altro. Inoltre si dice diametro D la distanza tra i due nodi più lontani. In questo caso è facile vedere che il diametro è lineare in n, in particolare è uguale a n-1. I due nodi più lontani sono, ovviamente, quelli agli estremi.

Se invece consideriamo un reticolo quadrato

2d

i due nodi più lontani sono quelli negli angoli, che distano il doppio del lato del quadrato. D’altra parte, se il quadrato contiene n nodi, il lato ne contiene un numero dell’ordine della radice di n.

Potremmo andare avanti, ma dovrebbe cominciare a intuirsi un pattern: con un reticolo cubico il diametro scalerà come la radice cubica del numero di nodi, e così via. Dal momento che è intuitivo definire il primo esempio come rappresentativo di reti unidimensionali e il secondo come bidimensionale, chiamiamo dimensione della rete il numero d che dà la legge di potenza attesa:

D = n^{1/d}.

In poche parole, il diametro indica quanto è ben connessa la rete, mentre il numero di nodi quanto è grande. Allora la dimensione è una misura di quanto è compatta. Più avanti vedremo degli esempi.

I reticoli non sono gli unici casi mono o bi-dimensionali: considerando un anello, cometoro

si vede che questa volta il diametro è n/2, diverso dal reticolo rettilineo, ma con la stessa legge di potenza rispetto a n, che fa di lui ancora una volta una rete a una dimensione, come vuole l’intuito.

L’intuito però può rapidamente fallire quando esaminiamo casi più strani.

cayley

Questo è un Cayley tree. Potete divertirvi a far vedere che il diametro scala come il logaritmo del numero di nodi! Non esiste un d abbastanza grande da soddisfare la definizione! Per questo si dice che la rete ha dimensione infinita. Reti di questo tipo si chiamano small worlds, “mondi piccoli”.

Da quando il loro studio si è diffuso, negli anni Novanta, reti small world sono state trovate dappertutto. È molto nota l’ipotesi dei sei gradi di separazione, secondo cui ognuno di noi è collegato a chiunque altro nel mondo, da un contadino cinese al presidente Obama, attraverso non più di sei “passi” di conoscenza personale. Perché qualcosa del genere sia possibile, su sette miliardi di individui, il diametro non può scalare con una legge di potenza!

Un altro esempio, quello da cui eravamo partiti, è Internet: immaginate che sia, per esempio, una rete bidimensionale. Ogni volta che volete raggiungere un server in Nuova Zelanda, i dati che inviate e ricevete dovrebbero passare attraverso un numero di intermediari dell’ordine della radice di n, qualcosa come dieci, centomila computer o più. Non sarebbe di sicuro un metodo efficiente di costruire una “world wide web”. Ecco perché l’informazione sulla struttura della rete è cruciale per il suo funzionamento.

Con questo volevo spiegare perché tutte queste reti sono strutturate in modo da avere una dimensione infinita. Il problema è che spiegare il perché non è sufficiente. Il “perché” presuppone un fine; ma questo è in contraddizione con quello che dicevo nel post precedente, cioè che Internet, il WWW, e molte altre reti di rilevanza quotidiana si sono sviluppate (“evolute” è un bel modo di dirlo) per auto-organizzazione, senza che ci fosse un progettista o Creatore con la C maiuscola che vede dall’alto gli scopi della sua opera. Abbiamo quindi ancora una volta bisogno di trovare un modo per rendere conto di come hanno fatto a emergere una dimensione, e una degree distribution, che sono proprio quelle che ci servono. La rete deve essersi sviluppata secondo un criterio particolare che ha portato a questo risultato momento per momento, ognuno pensando per sé, senza sapere quale fosse l’obiettivo globale.

Disgraziatamente, mi sono dilungato troppo.

Recensione: «Consciousness, confessions of a romantic reductionist»

Paul Gauguin’s haunting masterpiece, D’où venons nous? Que sommes nous? Où allons nous?, painted in Tahiti in the closing years of his life, perfectly encapsulates the three questions I am obsessed with: Where do we—humans, dogs, and other sentient beings—come from? Who are we? Where are we going? I’m a natural scientist. I have a deep-seated desire to find answers to these questions and to understand the physical universe, as well as consciousness.

Non c’è dubbio che le premesse di Christof Koch e del suo ultimo libro – tradotto in italiano da S. Ferraresi con il titolo Una coscienza: confessioni di uno scienziato romantico – sembrino ambiziose. Nonostante le apparenze, però, è subito evidente che l’autore non ha lo scopo di fornire una verità assoluta relativamente a quel problema che chiama addirittura hard problem per antonomasia, cioè come sia possibile che ognuno di noi esista, riceva delle sensazioni dal mondo esterno, provi emozioni e perfino abbia un’idea di sé, della sua mente, come di qualcosa di separato da tutto il resto dell’universo.

Koch sceglie di prenderla alla leggera. Inizia descrivendo la sua esperienza di studente, il lavoro e il rapporto umano – che lo ha segnato profondamente – con Francis Crick, che dopo la scoperta del DNA si è dedicato al problema della coscienza insieme a lui. Ma nonostante il punto di vista profondamente personale del libro, riesce anche a trasmettere, soprattutto nei capitoli centrali del libro, delle idee di grande interesse e soprattutto, fatto non scontato visto l’argomento, basate su fondamenti perfettamente scientifici. Si dilunga sul libero arbitrio, e fa sì che il lettore si renda conto di come abbia un ruolo molto più marginale nella nostra vita di quanto si creda: migliaia e migliaia di processi gestiti automaticamente dal nostro cervello, che chiama gli “zombie”, si occupano della grande maggioranza delle nostre azioni. Ho trovato poi particolarmente interessante una discussione sul perché la coscienza esiste, e se può essere spiegata in termini di evoluzione darwiniana. Naturalmente non si dimentica di dare una definizione di coscienza, e anche qui, i risultati non sono scontati.

Verso la fine forse si lascia andare a qualche speculazione di cui non sono evidenti, almeno dalle sue parole, le prove materiali; mi sembra però che questo gli si possa perdonare alla luce di un capitolo conclusivo che torna ad essere autobiografico anche per lo scopo di confessare le debolezze e incertezze del suo pensiero, e per discutere liberamente di quelli che chiama “temi conclusivi considerati fuori dai confini del discorso scientifico beneducato”, come la relazione tra scienza e religione. In questo confessa, alla fine, che il vero scopo del libro non era solo la divulgazione, ma descrivere il suo viaggio personale alla ricerca delle radici materiali della coscienza, i suoi fallimenti personali, e la sua visione dell’universo, messi su carta perché «I care about questions of free will. I know through encounters with students and colleagues that more than a few lie awake at night, wondering about these things.»

Penso che il messaggio del libro si possa riassumere in una frase, che secondo me non solo qualunque scienziato con una passione per il suo lavoro, ma da sempre più persone che condividono una visione laica del mondo:  «I wake up each morning to find myself in a world full of mystery and beauty. And I am profoundly thankful for the wonder of it all.»

(Forse non mi sono soffermato abbastanza sul fatto che sì, il libro ha anche dei contenuti seri, e a leggerlo si imparano un sacco di cose sia sulla mente che sul cervello. A questo punto non vi resta che controllare personalmente. Tra l’altro, l’incipit della traduzione italiana è stato pubblicato sul sito di Internazionale.)

A slower speed of light

Un po’ di tempo fa mi sono imbattuto, non mi ricordo come, in questo giochino del MIT, che ha l’obiettivo di insegnare quali sono gli effetti della relatività speciale su un viaggiatore che si muove a velocità prossime a quelle della luce. È un videogioco in prima persona, in cui il protagonista si muove in un piccolo ambiente raccogliendo sfere che hanno la proprietà di ridurre la velocità della luce quando entrano in suo possesso.

Perché questo dovrebbe permetterci di osservare effetti relativistici? Facendo un passo indietro, senza però voler annoiare chi sa già tutto, vi ricordo che, prima di Einstein e Lorentz, si pensava che per passare da un sistema di riferimento a un altro, in moto rettilineo e uniforme con velocità v rispetto al primo, valessero le trasformazioni

x' = x - vt \qquad t'=t

che si chiamano galileiane. Quando nell’ottocento si scoprì che le leggi dell’elettromagnetismo (che regolano, tra le altre cose, proprio la luce), erano incompatibili con queste trasformazioni, si dimostrò (sperimentalmente) che Galileo aveva scoperto solo un’approssimazione delle vere trasformazioni, che vale solo quando v è piccola. Piccola rispetto a cosa? Ma rispetto alla velocità della luce, naturalmente. E infatti se prendiamo le trasformazioni di Lorentz, salta fuori che si discostano da quelle di Galileo di un fattore

\gamma = \frac{1}{\sqrt{1 - \frac{v^2}{c^2}}}

questo si avvicina sempre di più a 1, recuperando la fisica pre-relativistica, quanto più v/c è piccolo. Questo succede, nella realtà, quando la velocità in gioco è trascurabile rispetto a quella della luce. Ma è lo stesso se, al contrario, faccio finta che sia la velocità della luce ad aumentare: di fatto, se supponessi che la luce si muova a velocità infinita, non ci sarebbe nessun effetto relativistico (avrei problemi con l’elettromagnetismo, ma questa è un’altra storia). (Tra parentesi, lo stesso succede con la meccanica quantistica: in questo caso devo portare la costante di Planck a zero per ottenere un universo classico)

I creatori del gioco hanno deciso di fare il contrario, cioè di ridurre c in modo da far muovere la luce a velocità comparabile con quella del protagonista. Non solo: man mano che il gioco va avanti, c diminuisce sempre di più, in modo da permetterci di osservare effetti relativistici con diverse intensità. Il risultato si vede nel “trailer” pubblicato sul sito:

Cosa sta succedendo? Innanzitutto tutti gli effetti che si notano cambiano a seconda che il protagonista sia fermo o si muova. Finché non cammina, come ho spiegato sopra, v/c = 0 e quindi vive in un mondo perfettamente non-relativistico. Quando comincia a correre, la conseguenza che si nota subito è che cambia il colore dell’ambiente circostante. Questa è una conseguenza dell’effetto Doppler (quello delle ambulanze, che cambiano tono a seconda che si stiano avvicinando o allontanando, ma per la luce), per cui la luce cambia di lunghezza d’onda, e quindi di colore, quando vado incontro o mi allontano dall’oggetto che la emette (si arriva addirittura a vedere l’infrarosso e l’ultravioletto). Inoltre è considerato un effetto di aberrazione relativistica per cui risulta più intensa la luce che proviene dalla direzione verso cui mi muovo. Infine, si notano cambiamenti della geometria nelle zone più esterne del campo visivo.

A slower speed of light non è un vero gioco, nel senso che oltre a raccogliere sfere non c’è molto da fare, e dopo pochi minuti spesi ad osservare il mondo con gli occhi di una particella ad alta energia le novità scarseggiano. Tuttavia è stato progettato innanzitutto con uno scopo didattico, che assolve egregiamente e per cui consiglio a tutti di provarlo (si può scaricare gratuitamente per Win, Mac e Linux). E può interessarvi sapere che gli stessi autori hanno progettato una libreria open source per il futuro sviluppo di giochi fisicamente accurati.

ResearchBlogging.org
Gerd Kortemeyer, Philip Tan, and Steven Schirra (2013). A Slower Speed of Light: Developing intuition about special relativity with games FDG 2013, FDG ‘13 Proceedings of the International Conference on the Foundations of Digital Games, 400-402

Reti parte 1 – degree distribution

Il cervello. Il world wide web. Internet. Le interazioni tra le proteine in una cellula. L’espressione dei geni. Le ferrovie europee. I miei amici su Facebook. Che cosa hanno in comune tutti questi sistemi, che provengono da aree completamente diverse tra loro? Una delle maggiori gioie dello scienziato che lavora con un punto di vista teorico è scoprire che uno stesso modello si adatta a realtà diverse: è una delle sorgenti della bellezza matematica.

L’oggetto matematico di cui stiamo parlando è la rete. Tutti gli esempi sopra hanno in comune la possibilità di essere descritti come un insieme di elementi collegati tra loro con una geometria particolare. Chiamiamo nodi questi elementi, proprio come nelle reti da pesca, ogni volta che trama e ordito si incrociano, si annodano tra loro. I neuroni, le pagine del web, i computer connessi a internet, gli snodi ferroviari, gli aeroporti, sono tutti esempi di cose che possono essere rappresentate come nodi di una rete. I nodi sono collegati tra loro da sinapsi, collegamenti ipertestuali, cavi in fibra ottica, strade ferrate, voli regolari o altre forme di interazione più o meno concrete. Per esempio, supponiamo che Edimburgo non sia collegata a Milano da un volo diretto, mentre lo sono Londra e Francoforte, aeroporti in cui posso fare scalo per andare in Scozia. Visto che Londra e Francoforte, incidentalmente, sono anche collegate tra loro, posso schematizzare il tutto così:grafo cittQuesto è quello che i matematici chiamano un grafo. Si comincia a parlare di reti quando si fa uno studio dei grafi dal punto di vista statistico. Pensate ad estendere uno schema del genere a un sistema enormemente grande, come i cento miliardi di neuroni di un cervello medio, ognuno connesso a una media stimata di mille altri. È chiaro che a questo punto non ci interessa – e se ci interessasse sarebbe comunque un’impresa impossibile – studiare ogni neurone come un’entità singola, con un’etichetta come “Milano” o “Londra” per ognuno. Possiamo invece raccogliere informazioni preziose su come è fatta la struttura su grande scala. Il numero di nodi e di archi che li collegano è la prima, fondamentale, informazione. Ma c’è molto altro: per esempio, c’è un piccolo numero di nodi che domina la rete, nel senso che su di essi sono concentrati la maggior parte dei collegamenti? O tutti hanno più o meno lo stesso ruolo? C’è un solo modo di passare da un punto all’altro, come per le ramificazioni di un albero, o sono possibili più percorsi e circoli chiusi?

Torniamo all’esempio di prima. Supponete che i collegamenti aerei tra alcune città europee siano disponibili solo secondo gli schemi seguenti:

Senza titoloNonostante abbiano lo stesso numero di nodi e lo stesso numero di archi, sono due grafi molto diversi! Nel primo c’è uguaglianza tra tutte le città, nel secondo Londra ha un ruolo privilegiato. Mentre nel primo, per andare da Milano a Copenhagen, devo cambiare aereo tre volte (!), nel secondo è garantito che qualunque destinazione può essere raggiunta con al massimo uno scalo, e tuttavia, resta l’assurdità di dover passare da Londra per andare da Helsinki a Mosca. Questo illustra l’importanza che la struttura della rete ha sul suo funzionamento, qualunque esso sia.

Per poter fare affermazioni quantitative, i teorici delle reti (che sono matematici, fisici, biologi, informatici e altro, rendendo multidisciplinare questo campo) hanno definito delle quantità che misurano queste caratteristiche. La prima che ci interessa è la distribuzione dei gradi. Il grado q di un nodo è il numero di connessioni che forma con altri nodi. La distribuzione di questa quantità è una funzione P(q) che dice ci sono P(1) nodi con grado 1, P(2) nodi con grado 2, eccetera eccetera.

Se dovessi scegliere una distribuzione P, troverei naturale lavorare con funzioni con un picco, tali per cui tutti i nodi hanno all’incirca lo stesso numero di connessioni, come negli esempi disegnati sopra. Oppure con distribuzioni di Poisson, perché si presenterebbero spontaneamente quando la rete è stata prodotta con un processo casuale. Internet, anche se non tutti lo sanno, non è stato progettato, ma la sua struttura ha origine da gruppi di calcolatori che si collegavano alla rete preesistente nel modo che sembrava più conveniente; il WWW, che non è la stessa cosa, bensì l’insieme delle pagine web, a sua volta, ha subito un processo di crescita in cui nuovi siti si collegavano ai vecchi senza uin progetto, in modo autonomo. Ci si aspetterebbe che reti che non solo sono enormi e intricate, ma non hanno un progettista unico siano evolute in modo abbastanza casuale, no?

Le cose si cominciano a fare interessanti quando si scopre che una classe molto vasta di reti ben diverse tra loro hanno i gradi distribuiti allo stesso modo. E per giunta, non nel modo che ci si aspetta da una crescita a casaccio: sono dotate di una struttura particolare, che emerge dal modo in cui crescono.

La rete sociale degli attori, la rete elettrica degli Stati Uniti, le citazioni degli articoli scientifici, il WWW, sono stati tutti studiati e per tutti questi si è trovata la stessa distribuzione, che decade con una legge di potenza. Lo stesso risultato è stato più tardi confermato per altri esempi ancora, mostrando una sorprendente somiglianza tra sistemi che sono fisicamente realizzati in modo diverso, interagiscono in modo diverso, e soprattutto nascono ed evolvono in modo diverso.

Vi lascerò nel dubbio sul perché questo accada fino al prossimo post.

(Se volete stare aggiornati, non dimenticate di iscrivervi al feed.)

Millennium Bridge

Buongiorno a tutti! Prima di iniziare a leggere, per capire di cosa stiamo parlando, vi invito a dare un’occhiata al (breve) video qui sotto.

Dovreste aver notato (si vede bene alla fine), che il ponte vibra lateralmente in un modo che sembra piuttosto preoccupante, anche se trovo abbastanza buffa la camminata sincronizzata della folla. Si tratta del Millennium Bridge di Londra nel giorno della sua inaugurazione.

Ultimamente sto lavorando con un modello matematico della sincronizzazione: questo è un ottimo esempio per introdurre il problema. Come sempre, aver capito un argomento non significa saperlo spiegare, ma ci proverò.

Per capire perché tutti i partecipanti all’inaugurazione si sono messi ad oscillare insieme, partiamo da un postulato:

1. se il ponte oscilla, devo adeguare il mio passo al ponte per restare in equilibrio.

Bisogna specificare che una vibrazione molto piccola non necessariamente costringe tutta la gente sul ponte a sincronizzarsi. Tuttavia, se la vibrazione fosse forte, chi non compensasse opportunamente rischierebbe di cadere. Perchiò correggiamo il primo postulato come segue:

1b. maggiore l’ampiezza delle oscillazioni, più gente deve adeguare il proprio passo alla vibrazione del ponte.

Con piccole oscillazioni si sincronizzerà chi, spontanemente, ha una “frequenza di camminata” più vicina a quella naturale del ponte; se aumentano, pian piano anche gli altri saranno costretti a rallentare o accelerare il passo.

Tuttavia, non abbiamo ancora spiegato come abbia fatto una oscillazione così forte del ponte a instaurarsi. Dobbiamo però considerare che, quando qualcuno cammina alla frequenza di risonanza del ponte e in fase con esso, alimenta il suo moto. Aggiungiamo allora

2. più gente cammina in risonanza col ponte, più le oscillazioni sono ampie.

Non si può mancare di notare che è esattamente simmetrica alla 1!

Possiamo riassumere il procedimento come segue: è sufficiente che una persona, casualmente, cammini alla frequenza di vibrazione naturale del ponte, perché questo cominci a vibrare impercettibilmente. Inconsciamente, un’altro pedone si mette a seguire questa frequenza per equilibrarsi meglio. Questo aumenta l’ampiezza delle oscillazioni, e recluta ancora altre persone nella “fase sincrona”, che aumentano ancora le oscillazioni, e così via: è un esempio di feedback positivo, in cui un fenomeno emerge spontaneamente e si autosostenta. Aumenterebbe addirittura esponenzialmente, se non fosse che il numero di persone disponibili è limitato, e le oscillazioni del ponte sono smorzate dalla sua struttura.

Per concludere, il ponte fu chiuso il giorno stesso della sua inagurazione, e riaperto due anni dopo. Verifiche tecniche appurarono che era stato progettato per smorzare vibrazioni verticali (come quelle delle auto, immagino) e non orizzontali. E casualmente, la sua frequenza di oscillazione propria orizzontale era pericolosamente vicina a quella dei passi dell’inglese medio. Incidentalmente, la “rottura del passo” che si ordina alle truppe in marcia all’attraversamento di una struttura, si deve proprio a questo. Immaginate cosa succederebbe se il passo dei soldati, già sincronizzati coincidesse con la frequenza di risonanza di un viadotto: verrebbe giù tutto.

Mi accorgo ora che questo interessante problema ha ispirato dei modelli matematici abbastanza sofisticati. Tra questi, una pubblicazione su Physical Review di Eckhardt et al. (dove tra gli “al.” c’è anche Steven Strogatz, famoso matematico autore di Sync, un saggio divulgativo sulla sincronizzazione), “Modeling walker synchronization on the Millennium Bridge” (Phys. Rev. E 75, 021110 (2007)). Al variare dei parametri rilevanti per il problema (numero di pedoni, variabilità della frequenza a cui camminano, intensità dell’interazione con il ponte, smorzamento delle oscillazioni dovuto alla struttura), gli autori trovano una transizione tra lo stato in cui l’interazione è troppo piccola da superare le differenze tra i diversi modi di camminare e quello in cui, uno dopo l’altro, si trovano a oscillare come una famiglia di anatre ubriache: quello che è successo a Londra.

strogatz

La figura a lato, tratta dall’articolo, mostra l’evoluzione del sistema nel tempo. Il grafico sopra è facile da capire: sono le oscillazioni laterali del ponte, che crescono pian piano. L’immagine colorata si può interpretare con un po’ di impegno: i punti rossi indicano un pedone che sta posando a terra il piede destro, i punti blu il sinistro. Sull’asse verticale ci sono i pedoni, su quello orizzontale il tempo. Sul lato sinistro del grafico si vede che , a un tempo fissato, ci sono sia puntini blu sia puntini rossi. Sul lato destro, al contrario, per un dato istante troviamo una banda verticale rossa o blu, cioè tutti stanno posando contemporanemente lo stesso piede: è lo stato sincrono.

Più in generale, con il modello da cui si sono ispirati per l’applicazione al ponte, il modello di Kuramoto, si possono descrivere molti sistemi anche assai diversi tra loro, dalla fisica dei superconduttori al lampeggiare all’unisono delle lucciole, dalla sincronizzazione di pendoli e metronomi alle scariche dei neuroni nel cervello umano. Tornerò sull’argomento in un prossimo post.

ResearchBlogging.org
Eckhardt, B., Ott, E., Strogatz, S., Abrams, D., & McRobie, A. (2007). Modeling walker synchronization on the Millennium Bridge Physical Review E, 75 (2) DOI: 10.1103/PhysRevE.75.021110