+ All documents
Home > Documents > Le Matematiche del Linguaggio

Le Matematiche del Linguaggio

Date post: 15-Nov-2023
Category:
Upload: unime
View: 0 times
Download: 0 times
Share this document with a friend
213
Tesi di Dottorato Filosofia del Linguaggio, Teoria e Storia - XV ciclo sede amministrativa: Universit` a degli Studi di Palermo sedi consorziate: Universit` a della Calabria e Universit` a di Messina Le Matematiche del Linguaggio Alessio Plebe [email protected] 5 dicembre 2003 Tutor: Prof. Franco Lo Piparo Il coordinatore del Dottorato Prof. Franco Lo Piparo
Transcript

Tesi di DottoratoFilosofia del Linguaggio, Teoria e Storia - XV ciclo

sede amministrativa: Universita degli Studi di Palermosedi consorziate: Universita della Calabria e Universita di Messina

Le Matematiche del LinguaggioAlessio Plebe

[email protected]

5 dicembre 2003

Tutor: Prof. Franco Lo Piparo

Il coordinatore del DottoratoProf. Franco Lo Piparo

2

Indice

1 Introduzione 91.1 Cosa vuol dire “una matematica del linguaggio” . . . . . . . . . . . . . . . . . . . . . . . 91.2 Alcuni candidati eccellenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3 Reazioni antimatematiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.4 Nuove proposte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Il periodo aureo della logica 152.1 George Boole, la logica fa il suo ingresso nel mondo matematico . . . . . . . . . . . . . . 15

2.1.1 Logica come algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.1.2 L’attenzione verso il mentale e il linguaggio reale . . . . . . . . . . . . . . . . . . 252.1.3 Il mestiere dell’assicuratore sulla vita . . . . . . . . . . . . . . . . . . . . . . . . 27

2.2 Gottlob Frege, i fondamenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.2.1 Un nuovo linguaggio per la logica . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2.2 Dove Socrate e pur sempre mortale . . . . . . . . . . . . . . . . . . . . . . . . . 372.2.3 E i greci sono bevitori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.2.4 Ma ricompare l’ombra del mentitore . . . . . . . . . . . . . . . . . . . . . . . . . 49

3 Ambizioni matematiche della grammatica, desiderio di grammatiche del computer 533.1 Noam Chomsky e i calcoli della grammatica . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.1.1 Giochi di parole per matematici . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.1.2 Il gioco si fa serio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.1.3 Un polmone linguistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.1.4 Meno matematica e piu principi . . . . . . . . . . . . . . . . . . . . . . . . . . . 613.1.5 La parsimonia di matematica si fa principio . . . . . . . . . . . . . . . . . . . . . 69

3.2 Alan Turing e la macchina che non invecchia mai . . . . . . . . . . . . . . . . . . . . . . 743.2.1 Un computer immaginario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743.2.2 Il software al femminile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803.2.3 Il fascino della ricorsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823.2.4 Conversazioni con il computer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4 Matematiche in crisi 974.1 Il declino della logica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.1.1 Incompletezza e altri disagi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 984.1.2 La rivalsa delle altre matematiche . . . . . . . . . . . . . . . . . . . . . . . . . . 1014.1.3 Essere discreti e le labbra di due amanti . . . . . . . . . . . . . . . . . . . . . . . 104

4.2 Grammatiche in difficolta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.2.1 Non tutto e sintassi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.2.2 Alla ricerca di strutture profonde . . . . . . . . . . . . . . . . . . . . . . . . . . . 1084.2.3 Delusioni del computer linguistico . . . . . . . . . . . . . . . . . . . . . . . . . . 109

4.3 Nuove priorita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1144.3.1 Il ritorno del linguaggio ordinario . . . . . . . . . . . . . . . . . . . . . . . . . . 1144.3.2 Le parole in primo piano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1184.3.3 Il lato biologico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

4 INDICE

5 La matematica del cervello 1255.1 Al naturale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

5.1.1 Cosı semplice, cosı complesso . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.1.2 Breve sogno logico e il suo risveglio . . . . . . . . . . . . . . . . . . . . . . . . . 1285.1.3 La sinapsi e le sue droghe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

5.2 Quali regole? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1355.2.1 L’ipotesi di Hebb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1365.2.2 Ricordi avvelenati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1375.2.3 Organizzarsi da soli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

5.3 Le aritmetiche neuronali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1425.3.1 Ancora lui: Alan Turing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1435.3.2 Reti a strati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1445.3.3 Strutture nello spazio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1485.3.4 Strutture nel tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1525.3.5 Il tempo nelle strutture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

6 Le funzioni linguistiche dei neuroni 1596.1 Le parole nei vettori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

6.1.1 Prototipi e attrazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1606.1.2 Mappe e relazioni semantiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1666.1.3 La componente visiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1696.1.4 Su, giu, dentro e fuori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

6.2 Sintassi senza simboli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1746.2.1 La luna al maschile e il sole al femminile . . . . . . . . . . . . . . . . . . . . . . 1756.2.2 La prima grammatica con i neuroni . . . . . . . . . . . . . . . . . . . . . . . . . 1766.2.3 Reti alle prese con frasi ambigue . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

6.3 Il tempo della logica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1816.3.1 La tradizione orale e i ritmi moderni . . . . . . . . . . . . . . . . . . . . . . . . . 1816.3.2 Degli innocui neuroni infernali . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

7 Un bilancio provvisorio 1917.1 Le vecchie matematiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1917.2 Le vecchie critiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1937.3 Altre matematiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1947.4 O nessuna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

Bibliografia 197

Elenco delle figure

2.1 La Begriffsschrift di Frege . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2 Applicazione del moduls ponens (I) nella Begriffsschrift . . . . . . . . . . . . . . . . . . . 402.3 Applicazione del modus ponens (II) nella Begriffsschrift . . . . . . . . . . . . . . . . . . . 43

3.1 Esempio di minigrammatica chomskiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.2 Struttura del linguaggio, secondo Chomsky . . . . . . . . . . . . . . . . . . . . . . . . . 623.3 Struttura X-bar generale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.4 Esempio di struttura X-bar NP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643.5 Esempio di struttura X-bar V P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643.6 Esempio di struttura X-bar IP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653.7 Struttura X-bar di IP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653.8 Struttura X-bar di CP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.9 Esempio di θ-role . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.10 Classi di posizioni in X-bar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.11 Movimento di NP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.12 Movimenti in wh-phrase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.13 Vincolo DFCF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.14 Struttura del linguaggio nel minimalismo . . . . . . . . . . . . . . . . . . . . . . . . . . 703.15 Il sistema CHL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 713.16 Esempio di operazione Merge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723.17 Schema della Turing Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 753.18 Codifica di una TM in memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783.19 Universal Turing Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 793.20 La curva di Koch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.21 Parsing CYK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 903.22 Una Collection in CYC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 923.23 Un predicato in CYC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 933.24 Il predicato feelsEmotion in CYC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 933.25 Struttura di CYC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953.26 Ontologie superiori in CYC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.1 Esempio di movimento secondo il principio CSC . . . . . . . . . . . . . . . . . . . . . . 1064.2 Controesempio di movimento secondo il principio CSC . . . . . . . . . . . . . . . . . . . 1074.3 Esempio di movimento CSC secondo Lakoff . . . . . . . . . . . . . . . . . . . . . . . . . 1084.4 Giochi in logica: esempio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1184.5 Il tratto sopralaringeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1224.6 Il linguaggio per i bonobo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

5.1 Schema di una cellula neuronale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1275.2 Le celle di McCulloch e Pitts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1285.3 Forma d’onda dell’action potential . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1305.4 Dettaglio della sinapsi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1315.5 Sinapsi eccitatorie ed inibitorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1325.6 Effetti sinaptici dei neuromodulatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6 ELENCO DELLE FIGURE

5.7 Effetto della dopamina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1335.8 Variazioni anatomiche di neuroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1355.9 Il meccanismo LTP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1385.10 Dominanza oculare e domini di orientamento . . . . . . . . . . . . . . . . . . . . . . . . 1405.11 Modello di reinforcement learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1415.12 Schema di rete a strati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1445.13 Non linearita nelle reti a strati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1455.14 Esempio di funzionamento di rete a strati . . . . . . . . . . . . . . . . . . . . . . . . . . 1465.15 Neuroni statici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1465.16 Esempi di reti a strati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1475.17 Organizzazione della neocorteccia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1485.18 Schema di mappa di Kohonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1495.19 Auto-organizzazione delle mappe di orientazione . . . . . . . . . . . . . . . . . . . . . . 1505.20 Rete ASSOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1515.21 Funzioni di Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1515.22 Reti artificiali dinamiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1525.23 Reti artificiali dinamiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1535.24 Il binding problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1545.25 Il binding problem e un problema... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1545.26 Sincronia temporale fra neuroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1555.27 Kernel nelle reti a impulsi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

6.1 Esempio di rete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1616.2 Lo spazio delle attivazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1616.3 Errori durante l’addestramento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1626.4 Funghi buoni e cattivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1636.5 Reti a strati percettivo/fonetico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1646.6 Categorie di gatti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1656.7 Spazi vettoriali e categorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1656.8 Reti SOM come mappe concettuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1666.9 Mappa semantica neuronale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1676.10 Architettura lessicale SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1686.11 Associazioni nell’architettura SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1696.12 Componente visiva nel significato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1706.13 Modello di Dorffner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1706.14 Immagini nel modello di Cangelosi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1716.15 Il modello di Regier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1726.16 Il modello di MacWhinney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1756.17 Rete di Elman: Principal Component Analysis . . . . . . . . . . . . . . . . . . . . . . . . 1776.18 Rete di Miikkulainen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1786.19 Parser di Miikkulainen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1796.20 Rete di Miikkulainen: esempio di disambiguazione . . . . . . . . . . . . . . . . . . . . . 1806.21 Rappresentazione di predicati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1826.22 Rappresentazione di regole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1836.23 Rappresentazione di relazioni isa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1836.24 Rappresentazione di fatti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1846.25 Inferenza in SHRUTI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1856.26 Architettura del modello INFERNET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1876.27 Attivazione di simboli in INFERNET . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1876.28 Predicazione in INFERNET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

Elenco delle tabelle

2.1 Traduzione di elementi del linguaggio naturale in componenti algebrici . . . . . . . . . . 182.2 I tre tipi di proposizioni primarie in forma algebrica, con esempi . . . . . . . . . . . . . . 192.3 Le tre regole per la soluzione dei sistemi algebrici logici . . . . . . . . . . . . . . . . . . 202.4 Equazioni semplici ricavate mediante sviluppo . . . . . . . . . . . . . . . . . . . . . . . . 212.5 Tutti i possibili casi di divisione nel sistema logico-algebrico . . . . . . . . . . . . . . . . 232.6 Usi attuali dei simboli logici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.7 Catena di deduzioni per il sillogismo BARBARA generalizzato . . . . . . . . . . . . . . . 48

3.1 Simboli non terminali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.2 Gerarchia di grammatiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583.3 Sequenza di clausole subordinate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583.4 Elementi della struttura X-bar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.5 Esempio di TM che risolve la congiunzione . . . . . . . . . . . . . . . . . . . . . . . . . 753.6 Caso per la TM che risolve la congiunzione . . . . . . . . . . . . . . . . . . . . . . . . . 763.7 Esempio di TM circle-free . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 773.8 Esempio di grammatica di Backus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823.9 Grammatica e lessico per un parser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 893.10 Esecuzione del parser CYK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 893.11 Equivalenza reti semantiche – logica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.1 Le categorie matematiche principali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1034.2 Alberi sintattici di frase ambigua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1104.3 Grammatica ad unificazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1114.4 Le regole per giocare in logica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

5.1 Equazioni Hodgkin-Huxley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1295.2 Diverse plasticita hebbiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1365.3 Equazioni rete a strati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1455.4 Equazioni back-propagation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

6.1 Termini nel modello di Regier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1736.2 Gli articoli tedeschi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1756.3 Clustering della rete di Elman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

8 ELENCO DELLE TABELLE

Capitolo 1

Introduzione

L’ipotesi che la capacita linguistica dell’uomo si basi su dei processi matematici, che la produzione e lacomprensione linguistica avvengano grazie a una sorta di calcolo, e ricorrente nella storia della filosofia,marcatamente a partire dal secolo scorso, ma con illustri precedenti come la famosa asserzione di Hobbespensare e calcolare [Hobbes, 1651], o l’invito che Leibniz mise in bocca a due ipotetici filosofi in procintodi discutere: Calculemus! [Leibniz, 1684].

Quest’ipotesi, cosı come ha affascinato ed e risultata convincente, allo stesso modo e stata oggetto dicritiche, revisioni e anche di posizioni di totale rifiuto, ma ancor prima di questo, coinvolge un certo sposta-mento del piano di analisi dall’ambito specificatamente filosofico e linguistico a quello, appunto, matema-tico. Evidentemente presupporre qualcosa come un procedimento matematico dietro alle parole, cominciaad essere significativo e quindi anche discutibile, nel momento in cui si cerchi anche di entrare in merito ditale procedimento, ecco che quindi la spiegazione, almeno in una certa misura, non puo prescindere dallamatematica stessa. E quale tra i numerosi strumenti a disposizione nel complesso e variegato apparato dellematematiche si presta a questa spiegazione? Oppure, e necessario costruire una nuova matematica specificaper il linguaggio?

1.1 Cosa vuol dire “una matematica del linguaggio”

Si tratta di una domanda a cui non e facile rispondere con una definizione netta ed esaustiva. Nel tentativoora di collocare piu precisamente i confini dell’oggetto di attenzione di questa ricerca, cosı come le relazionitra cio che vi sarebbe oltre tali confini, l’attenzione viene rivolta a queste tre caratteristiche delle candidatematematiche nei confronti del linguaggio:

1. il loro ruolo

2. la loro natura

3. la loro specificita

Cominciando dal primo punto, una delle posizioni piu radicali che una matematica possa assumere nei con-fronti del linguaggio e quella ontologica, il suo proporsi come substrato fondativo delle sue forme esteriori.Paradigmatico e il caso della logica, per lo meno in certe sue accezioni, come per esempio quella propostada Wittgenstein nel Tractatus. Non meno forte, ma da un’angolature diversa, e un possibile ruolo cognitivo,in cui la matematica non e piu (o non e piu soltanto) il fondamento del linguaggio oggettivo, ma vogliaessere la spiegazione di come il singolo uomo esplichi le sue funzioni linguistiche, la descrizione dei mec-canismi principali effettivamente implementati nella mente (ammesso che esista qualcosa del genere) o nelcervello (e questo indubbiamente esiste) durante il parlare o il comprendere. Qui l’esempio per eccellenzae naturalmente il calcolo neuronale, in diverse sue versioni, le cui ambizioni a modellare almeno l’essenzadi cio che accade “nella testa” sono gia esplicite nel suo nome.

Dal lato opposto esistono invece ampi e sviluppati settori matematici che nascono orientati al linguag-gio, ma con funzioni modellistiche lontane rispetto alle finalita di questa ricerca. Ci si riferisce, per esempio,alla linguistica computazionale, o ad ambiti piu generali come le teorie dei linguaggi formali. E un po’ il

10 CAPITOLO 1. INTRODUZIONE

confine con questo percorso, e la divergenza di intenti non preclude certo l’intersezione di interessi. Peresempio, matematiche con ruoli prettamente emulativi, come nel dominio applicativo che va sotto l’acroni-mo di NLP (Natural Language Processing), possono assumere rilevanza empirica nel verificare aspetti diteorie linguistiche, grazie alla loro possibilita di venir sperimentate su notevoli porzioni di una lingua.

Lo spazio tra questi due estremi non e spopolato: esistono diverse matematiche che intendono offrirecontributi sostanziali ad una spiegazione del linguaggio umano, ma con dichiarata pudicizia non pretendo-no di offrire se stesse in una simbiosi forte col linguaggio come le colleghe piu ambizione citate prima,si limitano a cercare di descriverlo dall’esterno. Appartengono a questa categoria diversi sviluppi del pri-mo cognitivismo, legati ai modelli dell’intelligenza artificiale classica, ma pure alcune accezioni di calcoloneuronale, soprattutto quelle che preferiscono riconoscersi sotto il termine “connessionismo”. Le interse-zioni tra questo spazio e l’ambito di questa ricerca sono molte, anche se non si nasconde la preferenzaper matematiche piu spregiudicate, il cui ruolo sia ben piu coinvolgente per il linguaggio. E utile chiarireulteriormente questa preferenza paragonandola ai ruoli della matematica nelle scienze biologiche e quellechimiche. In entrambi i casi si puo considerare che svolgano funzioni descrittive, senza doversi compro-mettere ipotizzando una realta proprio degli oggetti matematici. Ma mentre per la biologia le descrizionimatematiche sono una sorta di complemento, di strumentazione aggiuntiva nell’economia della spiegazionedei fenomeni, che rimane essenzialmente qualitativa, in fisica le descrizioni diventano costitutive dei feno-meni. E difficile immaginare concetti fisici quali campi elettromagnetici o gravitazionali se non esistessela matematica mediante cui tali fenomeni sono descritti. E questa la collocazione che qui si auspicherebbeanche per una matematica del linguaggio.

Il secondo punto e sicuramente problematico. In una prima istanza si puo considerare una matematica lacui natura sia quella classica, di sistema per il trattamento di relazioni quantitative e di forme spaziali, i cuioggetti siano cioe numeri o elementi geometrici. Rientrano evidentemente in questi confini le operazionidelle reti neuronali, sia artificiali che biologiche, che riguardano grandezze misurabili, tipicamente numerireali. Nel caso della matematica logica gli oggetti sono intesi come entita astratte, gli elementi ultimi sonotipicamente i valori di verita, che non sono soggetti a modificazioni.

L’estesione a matematiche in cui i simboli non sono variabili porterebbe ad includere sistemi la cuifunzione descrittiva nei confronti del linguaggio sia limitata, riducendosi a mera traduzione. Potrebbemancare quindi quello che e l’aspetto di vera e propria matematizzazione delle funzioni del linguaggio, equindi essere dubbio l’interesse per un sistema in cui non sia prevalente la parte operazionale: l’insiemedi regole e meccanismi per la trasformazione delle espressioni, qualunque sia la loro rappresentazione e laloro interpretabilita quantitativa. E chiaro che non si tratta di un confine ben definito.

Vi e un altro punto singolare legato alla natura della matematica: che in ultima analisi questa sia unaparticolare forma linguistica, che i suoi costituenti e le sue regole siano a tutti gli effetti espressioni lin-guistiche e norme grammaticali (tesi che emerge lucidamente in Wittgenstein), ma allora ci si ritroverebbea sperare di dar fondamento al linguaggio con qualcosa che invece si appoggia per intero sul funziona-mento del linguaggio stesso. E evidentemente un problema soprattutto per le matematiche che aspirino airuoli fondativi del linguaggio, per cui sono stati messi in campo diversi strumenti per aggirarlo, come laseparazione tra linguaggio oggetto e meta-linguaggio, ma non si puo certo considerarlo superato.

Per quanto riguarda il terzo punto, la specificita delle matematiche rispetto al linguaggio, in linea diprincipio meritano maggiori attenzioni quelle sviluppate espressamente per il linguaggio naturale, e il casodi buona parte della logica. Vi sono poi sistemi matematici il cui scopo originario era diverso, ma sonostati presi a prestito e trasformati al punto di diventare una specializzazione per il linguaggio. E la stessaoperazione che ha fatto Boole con l’algebra elementare, o Montague con il λ-calculus di Church.

Alcune teorie matematiche hanno avuto origine dallo studio del linguaggio per poi allontanarsi in dire-zioni piu generali, altre sono rivolte ad una categoria piu ampia in cui il linguaggio puo entrare a far parte.Nel primo gruppo abbiamo il vasto dominio matematico dei linguaggi formali. Si possono considerare ap-partenenti al secondo tipo le matematiche che riguardano la risoluzione automatica dei teoremi, su cui sibasano i vari modelli del ragionamento deduttivo.

Infine abbiamo tanti metodi matematici che pur essendo stati impiegati per il linguaggio, non hannoin realta nulla di specifico nei suoi confronti, come la teoria dei sistemi dinamici. Questo e un classicoesempio di paradigma che puo funzionare piu o meno bene in tanti casi dove vi siano fenomeni complessiche si evolvono nel tempo, altri esempi di matematiche tuttofare sono la teoria dei processi stocastici, o la

Le Matematiche del Linguaggio 11

teoria dell’ottimizzazione. Si tratta di paradigmi che possono risultare utili per spiegare ragionevolmentecerti aspetti del linguaggio, la mancanza di specificita li rende decisamente sospetti per ruoli piu forti.

Il problema emerge in forma diversa per le matematiche con ruolo cognitivo, che spesso non risultanoparticolarmente differenziate per le varie funzioni comportamentali di un individuo, soprattutto nei modellineuronali. Se il linguaggio e qualcosa di molto speciale, ed e veramente difficile negarlo categoricamente,se si vuol sostenere che funziona solo e soltanto grazie ai neuroni, come mai quelli adibiti al linguaggionon hanno nulla di diverso dagli altri, per esempio dai neuroni che fanno sentire il solletico? Se questae una difficolta, e non ne anticipiamo qui la discussione, paradossalmente puo ribaltarsi in una chiave disoluzione per altre difficolta, forse maggiori. Un problema di fondo nel voler spiegare matematicamente illinguaggio, e proprio nel limitarsi al linguaggio, quando questo inevitabilmente finisce per riferirsi ad altro.Nel caso quindi dei neuroni, il fatto di costituire gli elementi di calcolo comuni anche ad ogni altro attocognitivo e sensomotorio, puo permettere di uscire da questo problema. Che gli schemi di calcolo neuronalicon cui si percepisce il solletico siano gli stessi per il linguaggio, diventa importante quando si voglia darconto matematicamente del significato della parola solletico nella testa di un parlante.

Un altro confine lungo cui si trovera a correre la matematica e quello con un interlocutore tradizionale: lafisica, questo si verifichera soprattutto parlando dei meccanismi di calcolo biologici, il cui funzionamentocoinvolge fenomeni microfisici non banali, e ancora lontani da una piena comprensione. Ci puo esserela sensazione che si assista ad un progressivo slittamento di piani della spiegazione, ma anche se e dinatura fisica il fenomeno in questione, e dalla sua matematica che emergono gli aspetti significativi per illinguaggio.

1.2 Alcuni candidati eccellenti

Alla domanda di sopra, se vi fosse la necessita di costruire una nuova matematica specifica per il linguag-gio, e stata certamente affermativa la risposta data all’interno del grande progetto della logica formale, chesi e proposta come branca specificatamente dedicata alla descrizione dei processi linguistici, ed e senz’altrola piu imponente e complessa matematica del linguaggio finora tentata. Mentre la logica filosofica devenotoriamente la sua nascita ad Aristotele e il suo periodo di massimo sviluppo e stato il medioevo, la suacomparsa come forma di calcolo e molto piu recente e l’evento puo essere fissato con precisione nel 1854,con la pubblicazione dell’opera di George Boole An Investigation of the Laws of Thought, on which arefounded the Mathematical Theories of Logic and Probabilities [Boole, 1854].E il momento da cui parte questa ricerca.Boole in realta non sconvolse piu di tanto i suoi contemporanei, fu un mezzo secolo dopo che Frege e Rus-sel diedero il giusto rilievo alla logica e cominciarono il piu ambizioso tentativo di elevarla a fondamentodell’intera matematica e del ragionamento scientifico in generale. In fin dei conti anche la matematica, inumeri e qualunque ragionamento, sono pur sempre espressi con parole e se la logica e veramente la piuprofonda spiegazione delle regole del linguaggio, il resto non puo che soggiacere ad essa. Un ribaltamen-to definitivo dei ruoli in realta non si e avverato, oggigiorno la maggioranza dei matematici e portata aconsiderare la logica semplicemente una delle tante branche della matematica, di tutto rispetto, ma senzaparticolari privilegi gerarchici. Iniziare da Boole ha anche un’altra motivazione. Un aspetto meno noto delpensatore inglese, e che la sua ricerca mirava ad individuare proprio quei meccanismi che operano nellanostra mente, indagine velleitaria per le possibilita sperimentali dell’epoca, ma che convergono non pococon gli intenti del cognitivismo attuale.

Nel periodo del suo consolidamento la logica ha anche coinciso con un atteggiamento del tutto con-trario, di rigetto nei confronti di attenzioni ai meccanismi matematici della mente. Le modalita attraversocui il linguaggio viene prodotto e compreso erano considerate probabilmente imperscrutabili alla ricer-ca e comunque ritenute fuorvianti, si contestavano tentativi dell’epoca di spiegare in termini mentali ilragionamento logico e l’aritmetica, e il fenomeno noto come antipsicologismo.

Diversi anni dopo si verifica uno storico ritorno di interesse alla mente umana da parte di una nuovamatematica, il cui oggetto e una parte ben delimitata del linguaggio: la sintassi. E l’avvento della grandescuola di Noam Chomsky, l’ingresso a pieno titolo delle grammatiche nella matematica, con la fondazionedi una sua branca del tutto inedita, che oggi vanta una diffusione tale da far concorrenza alla logica, conappena mezzo secolo di vita. In questo stesso periodo si verifica un fatto che, pur avendo di per se scarsa

12 CAPITOLO 1. INTRODUZIONE

attinenza con le ricerche sul linguaggio, finira per ampliare non poco gli orizzonti delle sue possibili formedi calcolo: l’introduzione, appunto, del calcolatore.

L’angolatura di questa ricerca nei riguardi dell’informatica sara ristretta al preciso ambito delle tecnichedi calcolo che si e ritenuto di poter attribuire al funzionamento del linguaggio umano, e quindi del ruolo edelle influenze che ha avuto in questo dibattito. Pertanto non verra preso in considerazione quel vasto settoreche si e sviluppato dal connubio tra computer e studi del linguaggio, che va sotto il nome di linguisticacomputazionale, in cui lo strumento di calcolo e semplicemente ausiliario a studi linguistici.

E invece di un certo interesse la proposta della macchina di calcolo come modello della mente umana,che si e sviluppata all’interno dell’intelligenza artificiale. In particolare Alan Turing, colui che per pri-mo che lancio quest’idea, lo fece proprio in termini di capacita linguistiche della macchina, percio sarasoprattutto in riferimento a questa proposta originale che si discuteranno i contributi del computer alle ma-tematiche del linguaggio. Vi e pero qualcosa di piu: nel computer il rapporto tra calcolo e linguaggio sicomplica presto, quando nella sua evoluzione intorno agli anni ’60 avviene quasi un cambiamento di ruoli:e proprio il linguaggio che viene preso a prestito dagli informatici come sistema per esprimere la matemati-ca delle macchine! La nuova matematica di Chomsky entra prepotentemente in questo ambito, acquisendoun’ambivalenza di impiego presso i linguaggi artificiali e quelli naturali, comprensibilmente con piu diffi-colta in quest’ultimi. La matematica del calcolatore non costituisce inoltre una rottura con la logica, anzi,si sviluppa come una stretta continuita, ed e solamente in poche sue espressioni, quali per esempio la teoriadei Frames di Marvin Minsky che si puo individuare una forma di matematica realmente alternativa.

1.3 Reazioni antimatematiche

Le matematiche sopra elencate come candidati a descrivere il funzionamento del linguaggio, se da un latohanno riscontrato notevoli successi, dall’altro hanno suscitato anche reazioni opposte, ma e soprattutto negliultimi decenni che gli attacchi si sono moltiplicati e diversificati. Pur continuando ad essere settori di ricercadi notevole rilievo, le difficolta sono evidenti, il consenso e in calo e prende sempre piu spazio il rigettodell’idea stessa che il linguaggio possa essere spiegato in termini matematici.

C’e un ventaglio di critiche di natura eterogenea e di diversa portata. Alcune sono state del tutto internealle teorie stesse, come nel caso delle difficolta per la logica nel realizzare sistemi assiomatici completi.Sempre per la logica, certe difficolta interne hanno riguardato centralmente il linguaggio, quei lati del suouso ordinario refrattari alla riduzione logica, che talvolta comportavano una chiara rottura, emblematico e ilcosiddetto secondo Wittgenstein. La sfiducia nella logica ha inevitabilmente investito anche l’intelligenzaartificiale, trovando un terreno facile per le delusioni sopravvenute alle iniziali ambizioni linguistiche deicomputer, chiamando in causa anche il fondamento sintattico e quindi l’apparato chomskiano.

Un tipo diverso di reazione avviene all’interno dell’impatto piu generale del cognitivismo sulla filosofiaanalitica, che ripropone come oggetto primario di ricerca la mente umana, a cui il linguaggio era statostrappato dalla logica matematica. Una delle conseguenze di questa esclusione per esempio era la totaleindipendenza della semantica dalle proprieta lessicali, sono proprio le parole che ora invece tornano allaribalta, nel nuovo filone che va sotto il nome di semantica cognitiva. L’appunto di antimentalismo nondovrebbe riguardare Chomsky, considerato fra l’altro da molti uno dei primi cognitivisti. In realta la suaattenzione al mentale avveniva con modalita del tutto peculiari, in cui la formalizzazione matematica venivasemplicemente attribuita ad ipotetici organi fisiologici, senza nessun interesse alle discipline entro cui taliassunzioni potevano trovare o meno verificazioni. Pertanto, soprattutto nel cognitivismo piu recente, anchele grammatiche generative sono sul banco degli imputati matematici, e gli ulteriori addebiti, com’e facileindovinare, riguardano la separazione e la prevalenza degli aspetti sintattici dal resto del linguaggio.

Infine altri colpi a sorpresa arrivano da nuovi soggetti estranei alla matematica e alla filosofia: dallescienze biologiche, che recentemente trovano voce in capitolo anche loro riguardo al linguaggio. Evoluzio-nismo, fisiologia, genetica, neuroscienze, ciascuno per la propria parte sembrano cospirare congiuntamentenel mostrare quanto le blasonate matematiche siano poco compatibili con le basi biologiche del linguaggioumano.

Le Matematiche del Linguaggio 13

1.4 Nuove proposte

Le matematiche viste fino a questo punto hanno ciascuna una serie di argomentazioni con cui difendersi daivari attacchi, rivendicando la loro pregnanza nel descrivere il funzionamento del linguaggio. In molti casiil dibattito e sempre rimasto aperto, anche per la mancanza di un criterio di verificabilita sperimentale.

Uno scenario totalmente diverso e quindi quello che hanno aperto i recenti progressi della neurologia ein particolare l’evidenza oramai incontestabile che il funzionamento del cervello e puramente matematico,nel senso di continuo processo di trasformazione di quantita misurabili. Quindi non solo la piena conferma(con vanto postumo di Hobbes...) della natura di calcolo delle funzioni cognitive, ma la prospettiva dipoter comprendere una matematica che sia veramente quella in azione quando il nostro cervello elabora illinguaggio. Nonostante i notevoli sforzi e i grandi progressi degli ultimi vent’anni, la possibilita di vedercorrere in parallelo sviluppo di modelli matematici e loro verifica sperimentale e ancora piuttosto lontana.Finora sono esistite soprattutto due linee di ricerca fortemente diversificate e difficilmente collimanti: da unlato le neuroscienze a carattere fisiologico, dall’altro il calcolo neuronale (neural computation).

Esemplificando nel caso del linguaggio, la ricerca neuroscientifica indaga sulle funzioni linguistichedell’uomo, ma senza accesso ai dettagli del calcolo, che avviene in spazi troppo piccoli per essere analizzatidagli attuali strumenti e quindi l’attenzione e soprattutto ad identificare zone macroscopiche che svolgonosottofunzioni particolari del linguaggio, quali le famose aree di Broca e Wernicke. Viceversa la neuralcomputation cerca di ipotizzare modelli del calcolo che avviene tra i neuroni, basandosi soprattutto sullaloro supposta funzionalita, che producano descrizioni plausibili di certi fenomeni linguistici.

I primi modelli che avrebbero dovuto cogliere l’essenza del calcolare nei nostri neuroni, erano carat-terizzati da un’estrema semplicita e la loro capacita di realizzare funzioni tutt’altro che semplici, qualicomprendere e produrre linguaggio, era affidata soltanto all’elevato numero di neuroni coinvolti nel calco-lo. Fare calcoli semplici su molti elementi si presta bene ad essere simulato da un calcolatore, che quinditorna a proporsi come emulo di una mente linguistica, ma in termini ben diversi rispetto alla precedenteintelligenza artificiale. Inizialmente, l’intrusione del calcolo neuronale suscito diffidenze tra gli adepti delcalcolo simbolico, che ebbero buon gioco a criticare il nuovo arrivato proprio per l’eccessiva semplicita elimitatezza. Successivamente la situazione si e ribaltata, le reti neuronali artificiali sono diventate oggi partepredominante dell’intelligenza artificiale, non perche i modelli abbiano perso questa semplicita, tutt’altro, ilprincipio di realizzare complessita tramite una molteplicita di elementi indifferenziati elementari e ritenutobasilare. Piuttosto si sono evoluti i metodi del cosiddetto apprendimento neuronale, di come cioe questastruttura inizialmente amorfa viene plasmata dall’esperienza a funzionare in determinato modo.

Nonostante le notevoli prestazioni funzionali delle reti artificiali basate su elementi semplici, si sa cheil neurone biologico e tutt’altro che semplice, l’ipotesi di fondo dei vari modelli considerati e che quelleoperazioni elementari comunque colgano l’essenza del modo di calcolare del cervello. E un’assunzionefragile, probabilmente sufficiente per un quadro speculativo generale sul funzionamento della mente, comequello sviluppatosi negli anno ’80, ma debole nel supportare indagini piu specifiche, come quelle qui diinteresse. Queste stesse debolezze avevano fra l’altro indotto un atteggiamento scettico o quantomenoindifferente dell’altro lato delle neuroscienze verso queste prime matematiche.

Solo da pochi anni e iniziato un avvicinamento significativo tra le due anime della neuroscienza, conuna prima convergenza verso quella che e ora definita computational neuroscience, un dominio matematicoin cui i neuroni non sono piu metafora di elementi di calcolo distribuito, ma si cerca di trattarne in modofedele le loro proprieta funzionali, all’interno di sistemi ragionevolmente complessi. La spiegazione di fe-nomeni con rilevanza cognitiva coinvolge inevitabilmente un numero di neuroni talmente elevato per cuiun’eventuale simulazione non solo e proibitiva per le attuali capacita dei computer, ma risulterebbe privadi contributi esplicativi. Il formalismo matematico potrebbe invece rappresentare la sintesi afferrabile dauna mente umana. Per raggiungere questo scopo una matematica dovrebbe contemporaneamente esserefondata sui meccanismi biologici rilevanti del singolo neurone, ma anche capace di rappresentarne le inte-razioni su larga scala. Si ritiene che questo sia lo scenario entro cui possa costituirsi una matematica dellinguaggio dal ruolo forte, che anzitutto nascerebbe immune da una buona parte delle critiche mosse alleimprese precedenti, con potenzialita esplicative di notevole portata, suscettibile di verificazioni o falsifica-zioni sperimentale. Beninteso la natura di calcolo dei neuroni biologici non e affatto una garanzia che talematematica possa venir effettivamente costruita, e questa comunque la direzione che si ritiene privilegiata,per la sua plausibilita cognitiva e la sua ricchezza esplicativa.

14 CAPITOLO 1. INTRODUZIONE

Capitolo 2

Il periodo aureo della logica

Vi sono due motivi per cui questo capitolo prende avvio direttamente dall’opera di Boole, anche se il suo ar-gomento, la logica, e ricorrente nell’intera storia del pensiero umano. Anzitutto perche fino a quel momentonon aveva alcuna relazione con la matematica, non vi era nulla che potesse considerarsi un procedimento dicalcolo all’interno dell’apparato logico, fatta eccezione per alcuni tentativi incompiuti di cui si accennera.In secondo luogo perche il suo oggetto primario non era il linguaggio, e se in alcuni casi lo era, si trattavapiu di una necessita, che di una deliberata scelta di campo. La logica per eccellenza era la scienza del

���������� ���������������

, e non del������������� ��������� �����

, anche se per studiare il pensiero non si puo prescindere dalla suamanifestazione piu esplicita che e il discorso.

Nei riguardi del primo punto, la svolta impressa dal Laws of Thought e stata radicale, e la matema-ticizzazione della logica pare un fatto irreversibile. Una certa revisione recente del rapporto tra logica ematematica riguarda semmai il ruolo che la prima puo giocare nel suo complesso, ma non intacca il dato difatto che le operazioni della logica sono considerate unanimemente un tipo di operazione matematica.

Anche per la seconda motivazione, si puo parlare di una vera e propria svolta linguistica operata daBoole in campo logico, ma nonstante i suoi espliciti propositi di derivare le regole matematiche della logicadal funzionamento del linguaggio naturale, questa fu l’innovazione meno accolta dai suoi successori. Inparte e proprio la spinta che lui diede successivamente all’approfondimento della logica sotto il profilo ma-tematico ad ampliarne la portata, per cui il linguaggio continuera ad essere l’oggetto di attenzione primariosoltanto per una cerchia ristretta dei successivi protagonisti dell’evoluzione della logica.

2.1 George Boole, la logica fa il suo ingresso nel mondo matematico

Anche se il lavoro di Boole e decisamente originale, non e nato dal nulla, e sono rintracciabili alcuni segnipremonitori, sia in periodi storici piu distanti, che nell’ambiente scientifico inglese a lui contemporaneo.Un’ampia analisi del contesto filosofico e culturale di quel periodo e fornita da Trinchero nell’ Introduzionealla sua traduzione italiana del Laws of Thought [Boole, 1854]. Per gli scopi di questa ricerca e interessantesottolineare due tipi di precedenti: da un lato episodi di evoluzione dell’algebra in senso non numerico, edall’altro lato sprazzi di concezione matematica del linguaggio e del pensiero.

Per quest’ultima categoria e gia stato citato nell’ Introduzione il notevole passo di Thomas Hobbes,che asserisce duecento anni prima di Boole l’idea del ragionamento e del linguaggio come calcolo, purmancando degli strumenti matematici per poterla realizzare. Contemporaneo di Hobbes e un matematico,John Wallis, noto soprattutto per aver introdotto il simbolo ∞ (infinito), ma nei cui scritti si trova un’ altrasorprendente anticipazione sul rapporto tra matematica e linguaggio. Wallis era anche studioso di lingue[Wallis, 1653], e sostenne che le regole su cui si basano le grammatiche sono fondamentalmente le stessedelle operazioni numeriche abituali della matematica [Wallis, 1657]. Un secolo dopo, e Etienne Bonnot deCondillac a evidenziare lo stretto parallelismo tra i sistemi linguistici e l’algebra, che gli appare come la piuperfetta delle lingue [Condillac, 1798], ma e chiaramente fuori della sua portata e degli strumenti del tempola possibilita di sviluppare matematicamente questa analogia.

Pur avendo tutte le carte in regola come matematico, anche per Gottfried Wilhelm Leibniz il desideriodi descrivere algebricamente il linguaggio del ragionamento rimase soltanto un ambizioso sogno, della cui

16 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

fattibilita era convinto, e in tarda eta si rammarico per non averlo potuto portare avanti, distratto dalletante altre tematiche a cui si era dedicato. Oltre ai propositi, Leibniz lascio anche un contributo concreto,in uno dei suoi lavori giovanili, sul calcolo combinatorio [Leibniz, 1666], che sara un ingrediente nontrascurabile nell’ evoluzione della logica matematica dopo Boole. Questa connessione tra l’idea di unalogica matematica e il calcolo combinatorio e secondo diversi storici [Bochenski, 1956, pag. 354 dell’ed.it.] [Kneale and Kneale, 1962, pag. 281 dell’ed. it.] la prova dell’influsso di un logico ben piu lontano,Ramon Llull, della fine del ’200, che sarebbe anche responsabile dell’entusiasmo di Hobbes per il pensierocome calcolo. L’invenzione di Llull, nota come ars magna [Llull, 1310], potrebbe benissimo essere unodegli attuali giochi da tavolo, in cui secondo regole geometriche e possibile abbinare dei nomi predefinitie dei loro attributi, in modo da determinare poi delle proposizioni e le loro possibili varianti1. Qualunquesia stata la reale influenza del Llull, non c’e dubbio che Hobbes pur centrando il cuore della questione ebbeil buon gusto di non addentrarsi nei dettagli tecnici, mentre quel poco che Leibniz produsse a contributodell’idea era matematicamente ben solido.

Va infine citato un logico minore contemporaneo di Boole, la cui influenza e stata evidentemente di uncerto peso, perche e uno dei pochi autori citato, e piu volte, nel Laws of Thought: Richard Whately, autoredi un Elements of Logic [Whately, 1826], il cui tratto piu interessante e proprio la netta individuazionedel linguaggio come oggetto della scienza logica, anche se questo programma non produce poi particolariinnovazioni all’interno del suo lavoro.

L’altra traccia in cui, come si diceva piu sopra, sono individuabili segni premonitori, sono i tentatividi ampliamento del significato dei simboli algebrici, e quindi di progressivo distacco da quello puramentenumerico, che piu o meno implicitamente era d’obbligo nell’algebra classica del XVII e XVIII secolo2.Questo periodo aveva visto un grande sviluppo dell’analisi dei polinomi e delle equazioni, risultato deicontributi di Isaac Newton, Leonhard Euler, Carl Fiedrich Gauss e tanti altri [AA. VV., 1970], che costituivail corpo dell’algebra, e corrispondeva piu o meno a cio che oggi va sotto il nome di algebra elementare. Unodei trattati piu diffusi, l’ Introduction to Algebra di Euler, era un mirabile compendio di strumenti algebrici,da intendersi rigorosamente applicabili a numeri, interi o frazionari.

Forse il primo tentativo di superare questa limitazione si puo individuare proprio nella ben nota geome-tria analitica introdotta da Rene’ Descartes nel 1637 con il Discorso sul Metodo [Descartes, 1637], che per-metteva di interpretare gli elementi algebrici oltre che come numeri come punti nello spazio. La tentazionedi operare algebricamente su oggetti sempre piu lontani dai numeri si intensifica nel periodo immediatamen-te precedente Boole, esempi sono alla fine del ’700 la composizione di forme quadratiche binarie di CarlFriedrch Gauss e quarant’anni dopo le moltiplicazioni di permutazioni di Augustin-Louis Cauchy, ancor piudecisa la generalizzazione operata da William Hamilton con l’algebra dei quaternioni [Hamilton, 1837]. Ilfenomeno era oramai abbastanza evidente da indurre George Peacock ad affermare tranquillamente che lanecessita, in espressioni del tipo x+ y = 1, per i simboli x e y di essere solo e soltanto numeri, non e chesuperstizione [Peacock, 1834]. La strada era aperta per chi osasse voler vedere nelle x e y anche frammentidi linguaggio umano.

Peacock era rappresentante di un certo gruppo di matematici inglesi innovativi, tra cui anche CharlesBabbage, che pur destinato a passare alla storia come il padre del computer, non poteva neanche immaginaredi avere come collega il fondatore della teoria su cui si baseranno i circuiti dei computer a venire. Il suospirito anticonformista e burlone, che lo indusse a tentare l’azzardo di costruire un computer in anticipo suitempi di almeno un secolo, non era immune nella sua iniziativa di fondare nel 1813 l’Analytical Societydi Cambridge: il lato che piu lo divertiva era la parodia dei contemporanei incontri sulla Bibbia, moltodi moda allora a Cambridge, in cui il motto era leave the world wiser then they found it3. Piu’ che conBabbage, per Boole fu importante l’incontro con altri due elementi di questo gruppo: Duncan F. Gregory,soprattutto in quanto fondatore del Cambridge Mathematical Journal occasione di accesso alla non facileeditoria scientifica, e ancor di piu Augustus De Morgan, che parlava gia apertamente di algebra logica[De Morgan, 1841]. Lui fu protagonista di un dibattito acceso con un altro William Hamilton, professoredi logica e filosofia ad Edimburgo, che con il suo contemporaneo irlandese, quello citato piu sopra, noncondivideva niente piu che nome e cognome. Infatti a differenza dell’inventore dei quaternioni, questo

1Lo scopo originario del metodo era di confrontare le religioni maomettane e cattoliche. Vista la militanza del Llull alle crociate,c’e il legittimo sospetto che le regole del gioco non fossero del tutto imparziali

2Per una breve storia dell’evoluzione della notazione algebrica simbolica fino a Boole, vedi [Schroder, 1997]3lasciare il mondo terreno piu saggio di come l’avevano trovato

Le Matematiche del Linguaggio 17

Hamilton non solo non capiva nulla di matematica, ma non ne provava una particolare ammirazione, comee evidente da qualche sua citazione:

In campo matematico l’ottusita e assunta a talento, e il talento degradato ad incapacita – La matematicapuo solamente distorcere, mai raddrizzare la mente umana – La matematica non puo assolutamente con-durre ad un atteggiamento logico – Lo studio assiduo della matematica paralizza le capacita mentali perquelle energie intellettuali necessarie alla filosofia e alla vita in genere [Bell, 1937, citazione a p. 44]

La stima e l’ammirazione di Boole per De Morgan lo inducono, per cosı dire, ad anticiparsi lui stesso,entrando in scena in difesa dell’amico con il breve saggio The Mathematical Analysis of Logic, Beingan Essay toward a Calculus of Deductive Reasoning [Boole, 1847], che contiene gia diverse interessantianticipazioni del suo lavoro principale di sette anni dopo, e la chiara posizione che la logica deve avvalersidegli strumenti dell’algebra.

2.1.1 Logica come algebra

Chi ha un minimo di dimestichezza con la logica contemporanea, o con discipline in qualche modo correla-te, come l’informatica, sarebbe sicuramente sorpreso a non ritrovare nulla di quello che nei manuali correntie attribuito a Boole, come gli “operatori booleani”, nelle sue opere originali.

Queste denominazioni in realta non sono che l’espressione di riconoscimento dell’opera di Boole, daparte di diversi studiosi successivi, che in effetti percorrendo ben oltre la strada da lui aperta, con sostanzialicorrezioni e diversificazioni, ne hanno perpetuato il nome4.

A parte i successivi protagonisti della ricerca logica, di cui si parlera nel prossimo capitolo, forse lamaggior popolarita del “booleano” non originale e da attribuirsi a Claude Shannon, che avendolo utilizzatonei suoi primi progetti di circuiti elettrici combinatori [Shannon, 1938], lo introdusse nella meta del secoloscorso nel dilagante campo informatico.

Nel Laws of Thought non vi e nulla quindi della simbologia oggi impiegata nei cosiddetti operatoribooleani, e l’intero impianto di calcolo e basato su una stretta analogia con l’algebra elementare. Occorredire che, se questo tentativo si e poi rivelato insufficiente rispetto alle ambizioni piu estese dei futuri sistemilogici, ai fini di una spiegazione matematica del linguaggio ha il vantaggio di una sorprendente semplicitae chiarezza. Anche se il meccanismo logico non dovrebbe certamente esserci ostico, visto che si presumesia l’ossatura stessa del nostro parlare, la sua espressione nei simbolismi logici moderni pone difficolta diinterpretazione ai non addetti ai lavori, anche per proposizioni di media complessita, senz’altro meno nellatraduzione algebrica booleana. Forse perche l’algebra elementare e parte di quel patrimonio culturale col-lettivo, acquisito in eta scolare, con cui ci si trova in naturale confidenza, sicuramente anche per l’eleganzae la compattezza del metodo introdotto da Boole.

Il punto di partenza e l’individuazione di una corrispondenza tra parole ed elementi matematici. Nomied aggettivi sono le variabili, indicate con le lettere alte dell’ alfabeto, cosı come in algebra: x, y, z, . . ..Il loro significato e essenzialmente di classi, contenenti gli elementi che soddisfano la proprieta espressadalla variabile stessa. Per esempio x puo essere “animali”, e il suo uso in un espressione algebrica indica laclasse degli individui animali.

Quando un nome e abbinato ad un aggettivo, cio corrisponde al prodotto, ×, che, esattamente comefunziona nel linguaggio, e un simbolo che puo essere sottinteso. Cosı se x viene usato per “animali” ey per “gialli”, xy e la classe di tutti gli animali gialli. Questa moltiplicazione e evidentemente l’analogodell’intersezione (∩) in insiemistica.

La congiunzione “e” corrisponde in genere all’addizione +, cosı come la “o”, ma non sempre, “eccetto”corrisponde al −, “e” e “sono” diventano l’uguaglianza =. Qualunque verbo puo essere sostituito da “e”,“sono” ed una classe, per esempio “mangiare” da = x dove x e la classe di esseri caratterizzati dallaproprierta di mangiare. Questa prima matematicizzazione delle parole [Law, II.5–II.11]5 sara poi rivista ecorretta, soprattutto per dar conto delle note proprieta disgiuntive della parola “o” [Law, IV.6], ma per questo

4Al di la degli indubbi meriti, nella fortuna di un nome probabilmente l’aspetto linguistico ha anche il suo peso, e indubbiamentel’aggettivo “booleano” risulta gradevole, in tante lingue diverse, pi u che per esempio “fregeano” o “schr oderiano”...

5In questo capitolo (2.1) verranno per semplicita abbreviati tutti i riferimenti a parti del Laws of Thought [Boole, 1854] mediantela forma [Law, XX .nn] dove XX e il capitolo in numeri romani, e nn e il paragrafo, in cifre arabe.

18 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

e necessario prima mostrare come funziona il calcolo. Vi sono solo due possibili valori, 1, 0. Bene, qualchetraccia di “booleano” nella sua volgare accezione contemporanea pare si cominci a trovare. Non e propriocosı, 1 e 0 non sono introdotti col significato attuale di VERO/FALSO, anche se nelle parti piu avanzatedell’opera ci si avvicina molto a questa interpretazione. Per ora 1 e la classe universale, e 0 la classe vuota.A questo punto e possibile considerare l’ espressione 1− x, che e quindi la classe complementare a x, tuttiquelli che non sono x.

abbinamentoaggettivo-nome

x× y

“e” +“eccetto” −

“o”x(1 − y) + y(1 − x) disgiunzione esclusivax+ y(1 − x) disgiunzione inclusiva

“e”, “sono” =verbi = x, y, . . .

Tabella 2.1: Traduzione di elementi del linguaggio naturale in componenti algebrici del sistema di Boole

Nella tabella 2.1 si sono riassunte tutte le corrispondenze tra gli elementi del linguaggio e quelli delsistema di Boole appena descritti, che sono quindi il primo passaggio per operare matematicamente. Aquesto scopo, la maggior parte delle normali regole e pratiche dell’algebra continuano a valere, da cuideriva quella naturalezza di calcolo detta prima. Tutte le leggi fondamentali sono elencate qui a seguito:

xy = yx (2.1)

x+ y = y + x (2.2)

z(x+ y) = zx+ zy (2.3)

x = y ⇒ zx = zy (2.4)

x = y ⇒ z + x = z + y (2.5)

x2 = x (2.6)

x+ x = x (2.7)

Le (2.1) e (2.2) esprimono proprieta commutative, la (2.3) associativa, e le (2.4) (2.5) proprieta dell’uguaglianza, su cui si basano le consuete procedure di trasposizione per il trattamento delle equazioni. Finoqui non c’e nessuna differenza rispetto all’ algebra.

La (2.6) e la legge su cui si basa in buona parte l’intero sistema algebrico inteso nel suo senso logico,e a prima vista puo sembrare totalmente divergente dall’algebra normale. Ma, come fa notare Boole [Law,II.15], non lo e nel momento in cui si limitano i valori delle costanti del sistema a 0,1, com’e immediatoverificare. Si e detto sopra che la moltiplicazione equivale all’intersezione di insiemi, e la somma? Sem-brerebbe ragionevole considerarla l’analogo dell’unione ∪, ed e “quasi” cosı, ma la (2.6) ci mostra subitoin cosa consista il “quasi”:

(x+ y)2 = x+ y per la legge (2.6) (2.8)

(x+ y)2 = x+ y + 2xy per le regole dell’algebra e la legge (2.6) (2.9)

perche ci sia consistenza tra la (2.8) e la (2.9), e necessario che valga

xy = 0

ovvero la somma e un’operazione coerente solamente se i suoi operandi (in questo caso x e y) sono classi di-sgiunte. E questa la caratteristica che piu fu segnalata dai contemporanei come difetto del sistema, e a cui peresempio Peirce volle porre rimedio (vedi in §2.2). E stato invece mostrato recentemente [Hailperin, 1976]come questa fosse la scelta per un’algebra differente da quella oggi chiamata “di Boole”, con diverse altreproprieta matematiche, fra cui una particolare coerenza con il calcolo probabilistico, infatti anche la somma

Le Matematiche del Linguaggio 19

delle probabilita di due eventi coincide con quella aritmetica solo nel caso che i due eventi siano indipen-denti. Vedremo presto (§2.1.3) come per Boole la connessione tra algebra logica e calcolo delle probabilitafosse fondamentale.

Intanto la condizione appena citata risulta vistosamente incompatibile con l’ultima delle leggi che abbia-mo elencato sopra, la (2.7), analoga della (2.6) per l’addizione, e in realta non e mai introdotta in modo espli-cito6, e appena accennata in [Law, IX.2]. E sembrato doverso includerla in questo elenco perche in realtacostituisce un capisaldo delle applicazioni deduttive, in tutto il [Law, IX.6]. Trova un sua giustificazione intermini piu algebrici che insiemistici, tenendo conto che i valori possibili sono 1, 0.

Tornando alla (2.6), che Boole chiama talvolta legge dei simboli [Law, VI.13], altre volte legge di dualita[Law, VII.2] e anche legge degli indici nel precedente Mathematical Analysis of Logic [Boole, 1847, p. 18],la sua funzione principale emerge soprattutto quando espressa nella forma

x(1 − x) = 0 (2.10)

a cui si perviene con il semplice passaggio x2 − x = 0. La (2.10) e il principio di non contraddizione: laclasse di individui che sono contemporaneamente x e non-x e nulla.

A questo punto per poter essere in grado di tradurre tutta la possibilita espressiva del linguaggio, per lomeno in quelle proposizioni che Boole chiama primarie, e che esprimono relazioni tra cose, diventa necessa-rio aggiungere un altro ingrediente: la classe v, chiamata classe indefinita [Law, III.11]. Questo espedientee chiaramente un tentativo di dar conto della quantificazione, procedimento linguistico notoriamente deter-minante per il significato della proposizione, senza aggiungere nessun nuovo elemento operativo al sistema.La v a rigore e un’anomalia, per esempio non ha significato come termine di un’addizione, ma se ci silimita ad usarla nei casi per cui e stata introdotta, obbedisce rispettosamente a tutte le regole algebriche.Vista con gli occhi logici moderni, e evidentemente un’operatore quantificante, ed infatti viene usato solocome fattore moltiplicativo, ma non implica l’ esistenza (come l’attuale ∃), ne l’esclusivita: 0 ≤ v ≤ 1.Notoriamente questo e un altro dei punti che sara soggetto ad emendamenti nei successivi sviluppi dellalogica, a cominciare da Peirce, ma soprattutto con Frege.

Grazie alla v e ora possibile trasformare in equazioni ogni proposizione primaria del linguaggio, e ilrisultato finale sara sempre in una delle tre forme possibili indicate nella tabella 2.2, dove fS e fP sonofunzioni algebriche arbitrarie stanti per il soggetto e il predicato.

universali fS = fPi Puffi sono animali blu che nonsuperano i 30 cm di altezza

p = ab(1 − s)

con predicato particolare fS = vfP i Puffi con gli occhiali sono miopi op = vm

con soggetto e predicatoparticolari

vfS = vfPalcuni Puffi in tarda eta diventanofilosofi

vtp = vf

i simboli degli esempi sono:

a = animalib = bluf = filosofim = miopio = con gli occhialip = Puffis = che superano 30 cm.t = in tarda etav = la classe indefinita

Tabella 2.2: I tre tipi di proposizioni primarie in forma algebrica, con esempi

Essendo in grado di convertire il linguaggio in equazioni algebriche, non resta che individuare le regolenecessarie per la loro soluzione, che ancora una volta non si discostano molto da quelle dell’algebra nume-rica, nella sua forma piu semplice, limitata alle equazioni di primo grado. E questo il caso delle prime duemosse solutive: l’ eliminazione di termini all’interno di una stessa equazione, e la riduzione di un sistemadi equazioni, la terza, che Boole chiama sviluppo, e invece specifica del sistema logico.

6Interessante notare che mentre Boole si e creato qualche scrupolo ad introdurre come legge quest’espressione cosı algebricamenteeretica, non se ne era fatti Leibniz, che in uno dei suoi rari cenni di algebra applicata alla logica, mostrava proprio la formula A+A =A [Leibniz, 1684]

20 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

Pertanto tutti gli strumenti indispensabili per operare con il linguaggio, per ora limitatamente alle pro-posizioni primarie, sono i tre, espressi nella tabella 2.3, avendo indicato con f(x1, x2, . . .) una genericaespressione algebrica, funzione dei diversi simboli che vi compaiono x1,x2, e con f |xi=C il valore di taleespressione nel caso in cui il simbolo xi sia C.

f(x1, x2, . . . , xi, . . . , xN ) = f |xi=1 xi + f |xi=0 (1 − xi) sviluppo rispetto a xi (2.11)

f(x1, x2, . . . , xi, . . . , xN ) = 0 ⇒ f |xi=1 f |xi=0 = 0 eliminazione di xi (2.12)

f1 = 0f2 = 0

· · ·fN = 0

{∑

i=1,N fi = 0 coefficienti > 0∑

i=1,N f2i = 0 altrimenti

riduzione (2.13)

Tabella 2.3: Le tre regole per la soluzione dei sistemi algebrici logici

Tutte e tre le regole sono una conseguenza dalla legge fondamentale (2.10), che traspare evidentementenelle (2.11) e (2.12), in particolare la prima delle due, come fa notare Boole [Law, V.10] e una direttaanaloga dello sviluppo di Taylor di una funzione rispetto a un punto. I coefficienti a cui si riferisce la regolaper la riduzione dei sistemi di equazione (2.13) sono in pratica quelli che si generano applicando lo sviluppo(2.11). Vediamo un esempio di sviluppo completo, cioe rispetto a tutti i simboli variabili inclusi nella f ,usiamo per questo scopo la definizione di Puffi, il primo esempio della tabella 2.2, e rendiamo l’equazioneoriginale p = ab(1 − s) in forma normale (eguagliata a zero):

p− ab(1 − s) = 0 (2.14)

chiamando ora f(a, b, p, s) il primo membro di quest’equazione, lo sviluppo completo e dato dall’appli-cazione ripetuta della (2.11), siccome sviluppando rispetto ad ogni variabile si ottiene la somma di duetermini, alla fine il numero di termini sara 2N , nel caso dei Puffi, 16.

f(a, b, p, s) = f(1, 1, 1, 1)abps+ f(1, 1, 1, 0)abp(1 − s)

+ f(1, 1, 0, 1)abs(1 − p) + f(1, 1, 0, 0)ab(1 − p)(1 − s)

+ f(1, 0, 1, 1)aps(1 − b) + f(1, 0, 1, 0)ap(1 − b)(1 − s)

+ f(1, 0, 0, 1)as(1 − b)(1 − p) + f(1, 0, 0, 0)a(1 − b)(1 − p)(1 − s)

+ f(0, 1, 1, 1)bps(1 − a) + f(0, 1, 1, 0)bp(1 − a)(1 − s)

+ f(0, 1, 0, 1)bs(1 − a)(1 − p) + f(0, 1, 0, 0)b(1 − a)(1 − p)(1 − s)

+ f(0, 0, 1, 1)ps(1 − a)(1 − b) + f(0, 0, 1, 0)p(1 − a)(1 − b)(1 − s)

+ f(0, 0, 0, 1)︸ ︷︷ ︸

coefficiente

s(1 − a)(1 − b)(1 − p)︸ ︷︷ ︸

costituente

+ f(0, 0, 0, 0)︸ ︷︷ ︸

coefficiente

(1 − a)(1 − b)(1 − p)(1 − s)︸ ︷︷ ︸

costituente

(2.15)

negli ultimi due termini dello sviluppo si e mostrato quello che Boole chiama costituente, e i relativicoefficienti. I costituenti di uno sviluppo hanno alcune proprieta utili per un ulteriore interpretazione delcalcolo:

i=1,N

ti = 1 (2.16)

titj =

{

ti ti = tj

0 ti 6= tj(2.17)

(2.18)

dove con ti si e indicato il costituente generico. I coefficienti si calcolano semplicemente sostituendo divolta in volta i valori 1 o 0 nella espressione originale della f , nell’esempio in questione mediante il primomembro della (2.14).

Le Matematiche del Linguaggio 21

Si ottiene:

f(a, b, p, s) = 1 abps+ 0 abp(1 − s)

+ 0 abs(1 − p) − 1 ab(1 − p)(1 − s)

+ 1 aps(1 − b) + 1 ap(1 − b)(1 − s)

+ 0 as(1 − b)(1 − p) + 0 a(1 − b)(1 − p)(1 − s)

+ 1 bps(1 − a) + 1 bp(1 − a)(1 − s)

+ 0 bs(1 − a)(1 − p) + 0 b(1 − a)(1 − p)(1 − s)

+ 1 ps(1 − a)(1 − b) + 1 p(1 − a)(1 − b)(1 − s)

+ 0 s(1 − a)(1 − b)(1 − p) + 0 (1 − a)(1 − b)(1 − p)(1 − s)

(2.19)

Siccome la f in (2.19) e parte dell’equazione (2.14), per essere eguagliata a 0 e necessario, per la (2.17),che tutti i suoi costituenti con coefficiente diverso da zero siano nulli, da cui si ricava una serie di equazioni,che elenchiamo nella tabella 2.4 con a fianco il significato logico.

abps = 0 non esistono animali blu chiamati Puffi con piu di 30 cm dialtezza

ab(1 − p)(1 − s) = 0 non si e mai visto animale blu inferiore a 30 cm di altezzache non sia un Puffo

aps(1 − b) = 0 non esistono animali chiamati Puffi alti piu di 30 cm ecolorati in tutti modi eccetto che blu

ap(1 − b)(1 − s) = 0 non esistono animali chiamati Puffi alti meno di 30 cm ecolorati in tutti modi eccetto che blu

bps(1 − a) = 0 Puffi blu con piu di 30 cm di altezza e che non sono animalinon possono esistere

bp(1 − a)(1 − s) = 0 Puffi blu alti meno di 30 cm e che non sono animali non cene sono

ps(1 − a)(1 − b) = 0 Puffi alti piu di 30 cm che non sono animali e colorati intutti i modi eccetto che blu non possono esistere

p(1 − a)(1 − b)(1 − s) = 0non si sono mai visti in circolazione Puffi colorati in tutti imodi eccetto che blu, che non sono animali, alti meno di 30cm

Tabella 2.4: Le equazioni semplici ricavate dallo sviluppo completo della proposizione in esempio

Sapendo oramai tutte le proprieta ricavabili dall’enunciato iniziale sui Puffi, si puo essere interessatianche al resto del mondo, e, sempre in quest’ottica un po limitata, si puo ottenere qualche informazioneinteressante dai costituenti con coefficiente zero. Infatti, la proprieta (2.16) impone alla somma di tutti icostituenti di essere 1, ma in questa somma i termini con coefficiente non nullo non contano, dovendo esserenulli. Pertanto tutto il mondo e costituito da quei termini nella (2.19) con coefficiente zero, e quindi, oltreche naturalmente dai Puffi in carne ed ossa (costituente abp(1 − s)), sara popolato da forme come oggettiinanimati blu piu bassi di 30 cm e non Puffi (b(1−a)(1−p)(1−s)), cosı come dalla categoria, sicuramenteaffollata, di animali che non sono Puffi, non sono blu, e superano in altezza i 30 cm. (as(1 − b)(1 − p)).

Per illustrare le altre regole, e cioe l’eliminazione (2.12) e la riduzione di sistemi di equazioni (2.13), ela loro combinazione con lo sviluppo nel pieno impiego del metodo, Boole prende a prestito un esempio il-lustre, la disquisizione sull’appartenenza categoriale della virtu nell’ Etica Nicomachea di Aristotele. Nelloscopo qui piu limitato di dare un’idea dell’uso delle regole in modo semplificato, ci si serve di un’ipoteticariflessione sullo stesso argomento, decisamente meno seria:

La virtu puo essere un atteggiamento, oppure una caramella, o un tipo di colorazione. Senz’altro la virtunon e qualcosa con cui si nasce, ma non la si puo nemmeno acquistare. Tutte le caramelle sono in venditaal supermercato. I Puffi nascono con colorazione blu, altri animali con altre colorazioni.

22 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

Introduciamo i simboli necessari:a = atteggiamentob = colorazionec = caramellai = innatos = che si puo ottenere con i soldix = la virtuv = la classe indefinita

Ed ecco le equazioni, traducendo ciascuna delle frasi nell’ordine in cui sono nel brano:

x = v (a(1 − b)(1 − c) + b(1 − a)(1 − c) + c(1 − a)(1 − b))

x = v(1 − i)

x = v(1 − s)

c = vs

b = vi

La prima operazione da fare e l’eliminazione del simbolo v, per chiarezza si mostra ora il dettaglio deipassaggi applicati all’ultima equazione:

b = vib− vi = 0

applicando l’eliminazione (2.12)

(b− vi)|v=0 (b− vi)|v=1 = 0b(b− i) = 0

b2 − bi = 0

per la legge duale (2.6)

b(1 − i) = 0

e ora il risultato dell’eliminazione di v per tutte le equazioni porta a:

x (1 − a(1 − b)(1 − c) − b(1 − a)(1 − c) − c(1 − a)(1 − b)) = 0 (2.20)

xi = 0 (2.21)

xs = 0 (2.22)

c(1 − s) = 0 (2.23)

b(1 − i) = 0 (2.24)

usando la regola per la riduzione delle equazioni (2.13), unifichiamo la (2.21) con la (2.24), e la (2.22) conla (2.23).

xi+ b(1 − i) = 0 (2.25)

xs+ c(1 − s) = 0 (2.26)

eliminiamo il simbolo i dalla (2.25) e il simbolo s dalla (2.26), con il metodo appena visto:

bx = 0 (2.27)

cx = 0 (2.28)

e sommiamo queste due equazioni alla (2.20):

x (1 + b+ c− a(1 − b)(1 − c) − b(1 − a)(1 − c) − c(1 − a)(1 − b)) = 0

risolvendo rispetto ad x:

x =0

1 + b+ c− a(1 − b)(1 − c) − b(1 − a)(1 − c) − c(1 − a)(1 − b)(2.29)

Le Matematiche del Linguaggio 23

E necessaria a questo punto una breve parentesi su un operazione evidentemente un po scomoda nell’im-pianto booleano, ma che ricorre pressoche necessariamente nello sviluppo dei sistemi di equazione: ladivisione. Boole non la definisce espressamente, chiarisce che la facile interpretazione algebrica di inversadella moltiplicazione [Law, II.14] e problematica, purtuttavia non conduce a rischi di irrisolvibilita, graziealla limitazione dei valori delle costanti ammesse. Le divisioni appaiono sempre come coefficienti di costi-tuenti di uno sviluppo, e i possibili casi sono riassunti dalla tabella 2.5, dove ti e il generico costituente.

1

1= 1 (2.30)

0

1= 0 (2.31)

1

0⇒ ti = 0 (2.32)

0

0= v (2.33)

Tabella 2.5: Tutti i possibili casi di divisione nel sistema logico-algebrico. Notare che il caso (2.32)contemporaneamente elimina il costituente dallo sviluppo, e produce un’ equazione aggiuntiva

Tornando quindi, alla (2.29) e chiamando f(a, b, c) l’ espressione complessiva della x, il suo sviluppomediante la regola (2.11) avra la consueta forma, analoga alla (2.15):

f(a, b, c) = f(1, 1, 1)abc+ f(1, 1, 0)ab(1 − c)

+ f(1, 0, 1)ac(1 − b) + f(1, 0, 0)a(1 − b)(1 − c)

+ f(0, 1, 1)bc(1 − a) + f(0, 1, 0)b(1 − a)(1 − c)

+ f(0, 0, 1)c(1 − a)(1 − b) + f(0, 0, 0)(1 − a)(1 − b)(1 − c)

(2.34)

ma e facile verificare che tutti i coefficienti 7 della (2.34) hanno valore 01 , ad esclusione di f(1, 0, 0) che

vale 00 , e quindi lo sviluppo completo si riduce a:

x = va(1 − b)(1 − c) (2.35)

ovvero

La virtu e un atteggiamento, e non una colorazione, ne una caramella

Boole dedica una parte relativamente minore della sua opera alle proposizioni secondarie, quelle cheesprimono relazioni tra altre proposizioni, semplicemente perche il metodo che ha ampiamente descritto edimostrato per le proposizioni primarie, e immediatamente applicabile, senza nessuna differenza, a quellesecondarie. Salvo naturalmente, l’interpretazione dei simboli. Qui Boole oscilla tra due posizioni ambigue:in un primo moento [Law, XI.5] attribuisce gli 0/1 nel campo delle proposizioni secondarie all’estensionetemporale: 0 vuol dire mai e 1 sempre. Cio dovrebbe essere giustificato perche frasi del tipo se piove ebagnato significano sempre che nel lasso di tempo in cui e vero che piove e anche vero che e bagnato.Questa particolare associazione di condizioni di verita e sincronia fu naturalmente facile oggetto di critiche[Frege, 1881], ma per Boole era l’appiglio migliore per mantenere uniforme il suo sistema: infatti 1 comeuniverso e 0 come nulla “materiale” sono ottimi analoghi dei significati di tutto e nulla temporali, e menodi concetti astratti di vero e falso.

Il fatto che poi in piu riprese [Law, XI.6, XI.15] Boole consigli di dimenticare nella pratica del metodoquesto significato connesso con il tempo, e che nell’interpretazione dei risultati delle equazioni [Law, XII.4]

7Notare che apparentemente dallo sviluppo vengono fuori valori di coefficienti diversi, per esempio f(1, 1, 1) = 03

o f(1, 0, 1) =02

, ma per la legge (2.7) vale 2 = 1 e quindi anche 3 = 1. Indubbiamente in questi casi le intuizioni di derivazione algebrica non sonopiu di grande aiuto.

24 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

parli disinvoltamente di vero e falso per 0 e 1, fa pensare che anche lui non fosse del tutto convinto diquest’espediente, ma non ne avesse trovati di migliori.

Dal punto di vista della matematicizzazione del linguaggio, vi e una nuova importante traduzione diparole in operazioni, nel caso di proposizioni secondarie:

“se” v× (2.36)

Per esempio:

se piove e bagnato ⇒ p = vb

dove naturalmente la v e adesso indefinita nel tempo, cioe la verita di p e una frazione indefinita del tempoin cui e vero b. Le proposizioni secondarie pongono anche una differenza metodologica nei confronti deimetodi solutivi. Infatti per le proposizioni primarie aveva poco senso risolvere rispetto ad un simboloisolato, la minima informazione logica utile in genere emerge dalla relazione di almento due simboli, alcontrario nel caso delle equazioni per le secondarie spesso la soluzione consiste nel verificare la verita di unasingola proposizione, e quindi il metodo e banalmente l’eliminazione di tutti gli altri simboli. Supponendoche sia x la proposizione in esame, le possibili soluzioni sono soltanto:

x = 1 la proposizione e verax = 0 la proposizione e falsa

0 = 0le premesse sono insufficienti per trarregiudizio sulla verita o meno di x

I capitoli XIII e XIV del Laws of Thought sono un banco di prova in cui il metodo viene esercitato sullespeculazioni delle Dimostrazione dell’essere e degli attributi di Dio [Clarke, 1705] di Samuel Clarke e dell’Etica [Spinoza, 1677] di Baruch Spinoza, dimostrando la sua efficacia nell’evidenziare fallacie e debolezzedi ragionamenti apparentemente logici.

L’esempio che viene qui proposto ha pretese metafisiche decisamente piu modeste:

L’universo, che e sempre esistito, potrebbe essere governato da una forma di intelligenza superiore, chepotremo chiamare Superpuffo, o forse da Windows, oppure dalla pubblicita. Se nessuna di queste alter-native fosse valida, si dovrebbe concludere che l’universo e puramente materiale e non vi e nulla che loregoli. Il Superpuffo dovrebbe necessariamente avere infinita comprensione nei confronti della golositadei Puffi, ed essere onnipotente. Windows, anche se e stato svelato ai Puffi solo di recente, in realta esempre esistito, ed ha la proprieta unica di evitare sempre qualunque inceppamento del sistema in cuie installato (e un dogma di fede). Anche la pubblicita, pur essendo stata scoperta solo recentemente, eeterna, inattacabile da referendum o altro, e anche se cio che dice ha sempre scopo di bene, non e tenutaa mantenere quello che apparentemente promette. Il popolo dei Puffi e attratto da qualunque prodottodi pasticceria, ma spesso capita che si esauriscano i dolciumi e questo purtroppo e fonte di sofferenzae prostrazione. Quando un Puffo cade in questo stato, si arresta completamente fino al momento in cuinon e alimentato con nuovi dolciumi. La pubblicita sostiene di essere in grado di rendere disponibilequalunque tipo di torta in ogni momento presso certi supermercati.

Per la traduzione in forma algebrica, rappresentiamo le proposizioni elementari con i simboli:

x = l’universo e governato da un’intelligenza superiore chiamata Superpuffow = l’universo e governato da Windowsy = l’universo e governato dalla pubblicitaz = l’universo e puramente materiale e non vi e nulla che lo regolio = Superpuffo e onnipotentec = Superpuffo ha infinita comprensione nei confronti della golosita dei Puffii = Windows ha la proprieta unica di evitare sempre qualunque inceppamento del sistema in cui e installatop = la pubblicita mantiene quello che diceg = i Puffi soddisfano la loro golositaa = i Puffi sono in attivitat = e disponibile qualunque tipo di torta in ogni momento presso certi supermercati

Le Matematiche del Linguaggio 25

con cui formiamo le equazioni, corrispondenti alle frasi nel brano:

x(1 − y)(1 − z)(1 − w)+y(1 − x)(1 − z)(1 − w)+z(1 − x)(1 − y)(1 − w)+w(1 − x)(1 − y)(1 − z) = 1

(2.37)

x = co (2.38)

i = 1 (2.39)

t = 0 (2.40)

g = t (2.41)

1 − g = v(1 − a) (2.42)

xco = vg (2.43)

wi = va (2.44)

yp = vt (2.45)

Da notare che la frase la pubblicita . . . non e tenuta a mantenere quello che apparentemente promette nonha traduzione, o meglio la sua traduzione nel sistema e semplicemente l’assenza sia di p = 0 che p = 1(naturalmente forme come vp = 0 nel sistema di Boole sono tautologie). Il procedimento che si adotta e dicercare dal sistema espressioni esplicite per x, y, w e z che sono gli enunciati da verificare. Come primaelaborazione si elimina il simbolo di quantificazione v dalle ultime equazioni, con il consueto metodo(2.11), otteniamo:

a(1 − g) = 0 (2.46)

wi(1 − a) = 0 (2.47)

yp(1 − t) = 0 (2.48)

xco(1 − g) = 0 (2.49)

sostenendo ora le (2.40), (2.41) e (2.37) nella (2.49), si ottiene subito:

x = 0 (2.50)

mentre usando le (2.40), (2.41), (2.39) e (2.46) nella (2.47), quest’ultima si traforma immediatamente in:

w = 0 (2.51)

se si cercasse ora di operare su y, tutto quello che si puo fare e sostiture la (2.40) nella (2.48), ottenendoyp = 0, la cui eliminazione della p produce la forma indeterminata 0 = 0.

Sostituendo infine i risultati finora ottenuti, cioe la (2.50) e la (2.51) nella (2.37) si ha:

y(1 − z) + z(1 − y) = 1 (2.52)

L’interpretazione in linguaggio naturale delle (2.50) (2.51) e (2.52) puo essere:

L’universo non e governato da una forma di intelligenza superiore, che si sarebbe voluta chiamare Super-puffo. Si puo anche escludere, pace Bill Gates, che sia retto da Windows. Conseguentemente, vi sonodue alternative la cui risoluzione non e attualmente alla portata del ragionamento umano: o il mondo epuramente materiale e non vi e nulla che lo regoli, o viceversa non e puramente materiale ed e sorrettodalla pubblicita.

2.1.2 L’attenzione verso il mentale e il linguaggio reale

Non e sorprendente che un’opera di spiccata originalita negli anni successivi venga accolta ed interpretatain modi diversi, e di volta in volta venga rifocalizzato quello che e ritenuto il suo punto centrale, con lafacile conseguenza di disattendere quelle che erano le intenzioni originarie dell’autore.

26 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

Cosı quello che sicuramente Boole riteneva un punto di forza del suo lavoro, il metodo di indaginesulla leggi del pensiero, ampiamente ribadito in tutto il testo oltre ad essere la parte principale del titolo, erisultato il piu criticato dai suoi primi ammiratori, finendo poi con essere pressoche trascurato.

Piu o meno lo stesso oblio e caduto su quello che e il motivo per cui in questa ricerca parliamo di Boole:la sua ricerca sul funzionamento del linguaggio naturale. Come gia detto, la fama popolare di Boole e tuttalegata all’impiego della sua matematica nei circuiti del computer, grazie a Shannon, ma anche in campopiu scientifico, e notevole la cancellazione pressoche totale di questa sua sfera di pensiero. Per esempiola Encyclopaedia of Mathematics [AA. VV., 1997] cita 914 volte Boole, nel contesto degli argomenti piusvariati, e tutte e 914 volte senza il minimo accenno a quest’aspetto.

Naturalmente questo fenomeno e parzialmente spiegabile proprio per la grande opera di rivalutazioneche e stata operata, principalmente da Russell, del Boole logico-matematico, dopo un lungo periodo in cuila sua opera era passata quasi inosservata, a parte per pochi addetti ai lavori. Russell dice esplicitamente

Pure Mathematics was discovered by Boole in a work which he called The Laws of Thought

[Russell, 1918, ]

attribuendogli quindi i giusti meriti storici, ma allo stesso tempo epurando quegli interessi riguardo mecca-nismi mentali, contro cui gia si era espresso senza mezzi termini Frege. Pertanto Boole e stato facilmenteassimilato alla corrente di pensiero della nuova logica matematica di cui era senz’altro precursore, ma connotevoli differenze come si vedra successivamente, e inoltre e inevitabilmente caduta nel dimenticatoioquella parte a cui Russell non aveva attribuito particolare importanza. Qualche valutazione alternativa deicontenuti filosofici di Boole [Pacotte, 1935],[Trinchero, 1964] non e mancata, comunque il grande impattoculturale della logica matematica nella prima meta del novecento e giustificazione piu che valida di questaveduta parziale sul lavoro di Boole, ma per gli scopi di questa ricerca, e piu in generale nell’ambito dellecorrenti linguistiche cognitive, risulta attuale la rilettura del Boole piu trascurato.

Quello che Boole si era proposto e un metodo volto ad indagare meccanismi che certamente sonomentali, ma prescindendo sia da assunzioni ontologiche di principio sia da un semplice psicologismo. Lapossibilita di questo metodo risiede in quello che oggigiorno si chiamerebbe il carattere pubblico del lin-guaggio naturale, sul quale si esplicano le leggi matematiche [Law, II.1]. Nulla si puo dire sul perche ecome questa matematica abbia luogo, ma e l’analisi dei segni del linguaggio che rivela la loro funzioneesprimibile algebricamente [Law, II.2]. Una volta individuate dalla fenomenologia del linguaggio le leggimatematiche che ne regolano il funzionamento, le cosiddette leggi del pensiero, queste sono trasparenti adogni speculazione metafisica [Law, III.2]. Lo stesso riguarda le facolta cognitive che sono alla base dellacomprensione del linguaggio:

. . . la comunicazione [ tra uomini ] e l’ufficio proprio delle parole e . . . la mente possiede certi poteri ofacolta per mezzo dei quali la sua attenzione puo fissarsi su certe idee escludendone altre, o per mezzodei quali le concezioni o le idee date possono venir combinate . . . [ : ] attenzione, apprensione semplice,concezione o immaginazione, astrazione, etc. . . . . Io usero tali termini dovunque se ne presentera l’oc-casione, senza che questo implichi la mia accettazione della teoria secondo cui la mente possiede questi equesti altri poteri o facolta . . . e non sara neppure necessario cercare di determinare se le facolta dell’intel-letto posseggano o meno un’esistenza indipendente. Possiamo raccogliere tutte queste cose sotto il nomegenerico di operazioni della mente umana, definire queste operazioni nella misura in cui lo richiedono gliscopi di questo lavoro e quindi cercare di esprimerne le leggi fondamentali. [Law, III.3]

In questa ricerca, Boole ambisce a tradurre l’intero linguaggio ordinario, anche se limitatamente a cioche e, usando terminologia attuale, costituente del significato, trascurando pertanto quelle componenti cheesprimono atteggiamenti psicologici di chi pronucia l’enunciato [Law, II.16].

Questi propositi metodologici sono in buona parte mantenuti: per quasi tutte le formulazioni viste nellasezione precedente vi e attenzione alla coerenza della matematica con il linguaggio naturale. Per esempio,riguardo la legge commutativa (2.1), Boole rileva come apparentemente questa venga contraddetta nellastruttura grammaticale delle lingue, ma si tratta di una pura convenienza8, come dimostrano i testi poetici,e Milton e preso ad esempio [Law, II.8]. La stessa definizione di simbolo x come classe, e giustificata in

8Nell’inglese aggettivo e sostantivo non possono essere invertiti di posizione

Le Matematiche del Linguaggio 27

termini vagamente cognitivi, come operazione mentale di astrazione, ma collegata al linguaggio tramite ilconcetto di universo del discorso, il contesto entro cui assumono significato le parole, e che soltanto nellaforma piu generalizzata di un enunciato coincide con l’universo vero e proprio [Law, III.4-5].

Cosı la regola dello sviluppo (2.11) rappresenta la partizione dell’universo del discorso rispetto ai co-stituenti. Nell’esempio (2.14), il suo sviluppo (2.19) e la partizione dell’universo del discorso, per cui ilcostituente as(1 − b)(1 − p) si riferisce a tutti gli animali nel contesto del discorso, che non sono Puffi,non sono blu, e superano in altezza i 30 cm. i quali possono essere altri abitanti dei boschi, o nel casopiu generale dell’enunciato, tutti gli animali dell’ universo con quelle caratteristiche. Altrettanto la regoladi eliminazione (2.12) ha un suo significato linguistico, perche se vale f(x) = 0 per qualche x, alloraf(1)f(0) = 0 esprime cio che sarebbe vero sia nel caso in cui gli individui di x fossero l’intero universodel discorso, sia nel caso in cui non esistessero.

Occasionalmente Boole si lascia entusiasmare dalla perfezione (almeno per lui) del suo formalismoper lamentarne la carenza nel linguaggio ordinario, sognando un linguaggio ideale la cui traduzione nellasua algebra sarebbe immediata, evitando quei passaggi talvolta macchinosi per la soluzione delle equazioni,visti precedentemente, e di conseguenza la comprensione dei concetti sarebbe limpida ed immediata, esenteda quei fraintendimenti ed incomprensioni tipiche del linguaggio umano [Law, X.9], [Law, XI.15]. Anchein questo Boole ha fornito un precedente che ricorrera in pensatori successivi.

2.1.3 Il mestiere dell’assicuratore sulla vita

Pur senza forzare una lettura in chiave contemporanea dell’opera di Boole, un cenno merita quella partepiuttosto singolare che riguarda il rapporto tra logica e teoria della probabilita. E una parte che ha ottenutopochissima attenzione in seguito, anche se l’autore la riteneva invece fondamentale, tanto da citarla espres-samente nel titolo, ma questo come appena visto non fa che confermare la regola per il destino di Boole. Ilquale si era dedicato anche alla promozione di questa sua sezione, indugiando sull’utilita della teoria dellaprobabilita, anche nella vita pratica, citando espressamente le assicurazioni sulla vita [Law, XVI.1-3]. Lalunga trattazione che segue [Law, XVI-XXI] si rifa prevalentemente alle teorie di Laplace e Poisson, senzaparticolari innovazioni, salvo alcuni punti matematicamente salienti, come quello a cui si accennera a fineparagrafo, ma di interesse e soprattutto il collegamento alla sua algebra logica.

Se p(E) e la probabilita di verificarsi di un generico evento E, l’ interpretazione nell’algebra logica esemplicemente data da [Law, XVI.4]:

p(E) = p(XE) (2.53)

dove XE e il verificarsi dell’espressione logica:

xE = 1 (2.54)

in cui xE e la proposizione che afferma che l’evento E si verifica. Dalla (2.53) e possibile poi estenderel’analogia all’ intera struttura logica delle proposizioni. Per esempio, se E1 ed E2 sono due eventi indipen-denti, chiamando x1 ed x2 le proposizioni che ne asseriscono il verificarsi, e con E12 il loro contemporaneoverificarsi, allora per la probabilita di quest’ultimo vale [Law, XVII.6]:

p(E12) = p(E1)p(E2) = p(X1)p(X2) = p(X12)

dove X12 e il verificarsi dell’espressione logica:

x1x2 = 1

Cosı e possibile impostare l’intero calcolo delle probabilita usando la nuova logica algebrica e i suoi metodisolutivi, sfruttando la conversione dai due mondi delle (2.53) e (2.54). E questo a dir la verita non aggiungemolto agli strumenti matematici di cui era gia dotata la teoria della probabilita, ma il lato interessante e chequi Boole e andato vicino, molto vicino, ad ipotizzare una logica a valori continui, tra 0 e 1, in cui 1 e ilvalore vero, e 0 il falso.

Non e precisamente cosı, in quanto per Boole la (2.53) e nel dominio numerico continuo, mentre la(2.54) e una forma logico-algebrica secondaria, in cui cioe i simboli rappresentano una proposizione ei possibili valori sono 1 e 0, cioe vero e falso (dimenticando ancora una volta la poco felice definizio-ne temporale dei valori nelle proposizioni secondarie). Ma Boole si avventura anche in un tentativo diinterpretazione cognitiva della continuita di valori nell’equivalente probabilistico delle equazioni logiche:

28 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

Ammettiamo che esista un sentimento come l’aspettativa, un sentimento, cioe, che ha per oggetto l’ac-cadere degli eventi . . . pur senza assumere esplicitamente o sottintendere che l’intensita del sentimentodi aspettativa considerato come un’emozione della mente ammetta una precisa misura numerica, e per-fettamente legittimo indagare la possibilita di un modo di stima numerica che soddisfi, almeno, le con-dizioni seguenti: il valore numerico, che assegna in tal modo il sentimento, cresce quando sentiamo chele circostanze note che accompagnano un evento giustificano un’aspettativa piu forte, diminuisce quandorichiedono un’aspettativa piu debole, e rimane costante quando richiedono ovviamente un ugual grado diaspettativa. [Law, XVII.18]

E pertanto aperta la strada ad un’interpretazione diretta di un risultato di equazioni logico-probabilistichein cui il valore non sia piu soltanto 0 e 1, strada pero non percorsa oltre. Boole si e trovato a metter un pri-mo piede, senza avventurarsi troppo, in quella che diventera una delle correnti logiche contemporanee dimaggior successo: la logica fuzzy [Zadeh, 1965]. La faccenda avrebbe potuto essere ancor piu lungimirantese Boole avesse collegato la probabilita anche alla sua teoria logica primaria, che e la parte dominante dellasua opera, dove i simboli sono classi, e quindi la loro interpretazione probabilistica avrebbe naturalmentecondotto alla funzione di appartenenza, che e la base del ragionamento fuzzy.

Accenniamo infine ad un altra problematica al confine tra probabilita e comprensione linguistica, affron-tata da Boole con una sorprendente abilita matematica, valorizzata solo un secolo dopo [Hailperin, 1965,Hailperin, 1976]. Si tratta del problema delle “condizioni statistiche”: data una serie di enunciati, ciascunocon una certa probabilita di essere vero derivante dall’esperienza, esisteranno una serie di condizioni chedebbono essere soddisfatte affinche il sistema sia consistente, nell’esempio originale:

Per esempio se c’e una probabilita p che accada un evento A, e una probabilita q che il detto evento A eun altro evento B accadono simulataneamente, e evidente che dobbiamo avere p ≥ q. Ma per determina-re tali relazioni in generale e indispensabile un metodo ben distinto: ed e appunto questo metodo che ciaccingiamo ad istituire. [Law, IX.2]

Oggi questo e diventato un problema classico della teoria della computazione, con la sigla PSAT (Probabi-listic SATisfiability), ed appartiene alla classe NP-complete, ovvero tra i problemi piu difficili in assoluto[Georgakopoulos et al., 1988].

Le Matematiche del Linguaggio 29

2.2 Gottlob Frege, i fondamenti

Anche se la consacrazione di Boole, epurata dalle sue attenzioni ai fenomeni mentali, e dovuta come dettoa Russell, la sua opera trovo un certo seguito, in quel periodo verso fine secolo, prima dell’avvento dellanuova logica di Frege. E soprattutto degno di nota l’approfondimento della logica booleana da parte diun filosofo particolarmente attento alle problematiche del linguaggio, l’americano Charles Sanders Peirce.Rispetto ai rapporti tra matematica e logica, Peirce non solo rappresenta una piena continuita con Boole,ma ha apertamente contrastato la tendenza emergente, di elevare la logica a fondamento della matematica,impresa che si prefiggeva appunto Frege. In quest’ottica Peirce analizza criticamente l’apparato di calcolodi Boole, cercando in piu riprese di migliorarlo, eliminando gli aspetti deboli dei suoi operatori. Nel metodomesso in campo per quest’opera, c’e una notevole convergenza, loro malgrado, tra Frege e Peirce: l’accentoposto sull’aspetto notazionale, e la consapevolezza della sua rilevanza filosofica. Non e certamente uno zeloanomalo da parte del fondatore della semiotica, che non esitava ad affermare che:

Logic, in its general sense, is, as I believe I have shown, only another name for semiotic.

[Peirce, 1885, ]

Peirce per primo tenta di arricchire il simbolismo della matematica, a cui era rimasto pienamente aderenteBoole, introducendo elementi specifici per il calcolo logico, che pertanto verrebbero liberati dall’imbarazzodi obbedire a leggi diverse, a seconda se il loro impiego contingente sia algebrico o logico, come accadevaper il segno di moltiplicazione. Il primo passo [Peirce, 1867] e la diversificazione delle quattro operazioni,che se hanno significato logico assumono la virgola “,” come suffisso, per esempio se

f = filosofip = Puffi

alloraf +, p

e la classe di Puffi e dei filosofi, mentref , p

e quella dei Puffi filosofi, notare che la prima non ha piu necessariamente cardinalita uguale alla sommaaritmetica (quella con il simbolo “+”) delle cardinalita dei due insiemi iniziali, perche non vanno contati duevolte i Puffi dediti alla filosofia, che pare non siano un numero trascurabile. Un avanzamento piu radicale el’introduzione [Peirce, 1870] di un nuovo simbolo:

−<

con significato di inclusione, come lascia vagamente intendere la sua sagoma, e successivamente [Peirce, 1880]ne vengono definite le proprieta in relazione agli altri operatori:

a−< x; b−< x ⇔ a+, b−< x (2.55)

x−< a; x−< b ⇔ x−< a,b (2.56)

(2.57)

Infine [Peirce, 1885], questo simbolo verra interpretato non soltanto in termini insiemistici, ma propriocome implicazione logica, la stessa operazione che Frege, come si vedra presto, scegliera per base delcalcolo proposizionale.

Peirce si serve dei normali simboli matematici di sommatoria∑

e di serie di prodotti∏

, estendendoliper la somma e la moltiplicazione logica, ma intuisce che il significato che ora assumono e del tutto parti-colare: agiscono proprio come i quantificatori nel linguaggio comune. Vediamo degli esempi, impiegandoil suo stesso stile di rappresentare relazioni mediante la notazione algebrica con indici deponenti, per cuifxy vuol dire che x e in relazione f con y, e usando:

f = filosofib = biondec = computerp = Puffi

aij = i impazzisce per j

30 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

allora

p

f

apf > 0 qualche Puffo impazzisce per determinati filosofi

p

c

apc > 0 tutti i Puffi sono pazzi di alcuni computer

b

f

abf <= 0 nessuna bionda ha mai perso la testa per un filosofo

b

p

abp > 0 tutte le bionde impazziscono davanti a qualunque Puffo

Pertanto, parallelamente a quanto nello stesso periodo avrebbe fatto Frege, anche Peirce introduceva laquantificazione esplicitamente nel suo apparato di calcolo logico, con i due relativi operatori, anche se connotazione ereditata dall’algebra.

Questo e stato l’inizio della notazione in logica, che come vedremo rimarra insensibile rispetto alleproposte di Frege, ma fino ai giorni d’oggi continua ad essere basata su simboli del tipo di quelli di Peirce,anche se con diverse varianti. Risulta abbastanza sorprendente, perlomeno a chi scrive, che la disciplina ilcui oggetto sono proprio le forme simboliche, non sia mai riuscita a raggiungere un consenso sul suo propriosimbolismo, per cui ancora oggi le formule logiche possono venir scritte in diverse forme alternative. Siritiene utile, prendendo spunto da Peirce e dalla sua attenzione al problema, aprire una breve parentesisull’uso contemporaneo dei simboli in logica, prima di dover effettuare anche qui una scelta nello scrivereformule, gia dalla prossima sezione.

Un caso a se stante e la scuola polacca, che con Łukaszewicz ha adottato in logica la notazione ri-gorosamente prefissa, con il vantaggio di poter fare a meno delle parentesi senza rischi di ambiguita, eusa esclusivamente simboli alfabetici9. Al di fuori del mondo polacco, la disgiunzione logica pare l’unicosimbolo dove esiste uno standard di fatto, e piaciuto a tutti il simbolo “∨” introdotto da Russell. Ancheper il quantificatore esistenziale Russell ha messo d’accordo quasi tutti con “∃”, mentre il suo uso delleparentesi come quantificazione universale “(x)”trova pochi nostalgici favori, piace di piu il “∀”, introdot-to (per quel che ci consta) da Gentzen. Sugli altri simboli, la partita e piu aperta. Per la negazione, e indisuso l’originale barra usata da Peirce sopra all’elemento da negare “p” e adottata da Hilbert e Godel, ledue alternative sono la tilde “∼” di Russell e il simbolo “¬”, probabilmente introdotto da Heyting10. Perl’implicazione competono i simboli “⊃” dovuto a Russell, reminiscente dell’originale significato peirciano,e “→”, introdotto (per quel che ci risulta) da Hilbert. La congiunzione e decisamente l’operatore che offrela maggior scelta: c’e chi non usa proprio niente, sullo stile della moltiplicazione booleana, sopravvive ilsimbolo “·” introdotto da Russell, ma i piu gettonati sono il “∧” di Heyting e “&”. La tabella 2.6 mostra lepreferenze di alcuni illustri logici contemporanei e recenti. Qui verranno usati “∃” e “∀” per i quantificatori,

negazione congiunzione implicazione

∼ ¬

Carnap, Tarski,Quine, Church,Putnam

Heyting, Klee-ne, Smullyan

& ∧

Kleene, BoolosHeyting, Tarski,Putnam, Hintik-ka, Smullyan

→ ⊃

Tarski, Quine,Boolos

Heyting,Carnap, Klee-ne, Putnam,Hintikka,Smullyan

Tabella 2.6: Uso delle alternative principali per la notazione di alcuni operatori logici, da parte di logici di rilievo.

“∨” e “∧” per disgiunzione e congiunzione, adeguandosi alle tendenze, per negazione e implicazione “¬”e “⊃”, preferiti perche le alternative hanno altri usi in matematica (“∼” e anche il simbolo di simile, e “→”e adoperato nelle definizioni di funzioni).

9Negazione, disgiunzione, congiunzione e implicazione sono, nell’ordine, “N”, “A”, “K” e “C”, i quantificatori universale edesistenziale usano rispettivamente le lettere “P” ed “S”

10Alcuni autori, come Hintikka, usano entrambi i simboli per due differenti negazioni, facendo ancor piu sentire la mancanza di unastandardizzazione

Le Matematiche del Linguaggio 31

A

il segnodi giudizio

il segno di contenutoun generico oggetto

Figura 2.1: Dettaglio della forma base nella Begriffsschrift di Frege

2.2.1 Un nuovo linguaggio per la logica

Gottlob Frege e il protagonista di innovazioni in logica, matematica e filosofia del linguaggio, che se-gneranno tutto il ventesimo secolo, anche se occorrera aspettare Russell e poi Carnap, Wittgenstein, pervederne la formidabile portata. Gli intenti sono gia lucidamente in campo nel suo primo lavoro importante[Frege, 1879], che in rottura con Boole e Peirce, ma con una sensibilita semiotica vicina a quest’ultimo,inventa un nuovo linguaggio, il “linguaggio dei concetti”, la Begriffsschrift. Quest’impresa e motivata daalmeno tre scopi diversi:

• realizzare un formalismo che consenta di esprimere i contenuti concettuali degli enunciati del lin-guaggio naturale;

• dotare la logica di una propria notazione simbolica, la piu idonea ed intuitiva possibile;

• possedere una strumentazione adeguata per fondare la matematica su basi puramente logiche.

L’ultimo era certamente l’obiettivo piu caro a Frege, sostenitore e principale portavoce del cosiddetto “lo-gicismo”, l’idea che la logica fosse la base di qualunque scienza esatta e quindi anzitutto della matema-tica, questa e la linea perseguita con le fondamentali opere successive [Frege, 1884, Frege, 1903a]. Nonper questo Frege si sottrasse all’approfondimento dei problemi linguistico-filosofici emersi con la Begriffs-schrift, anzi, le soluzioni che ha proposto sono diventate riferimento imprescindibile per le successive teoriesemantiche [Frege, 1892].

Occorre subito dire che, anche se l’eredita di Frege come detto e stata notevole su diversi fronti delpensiero contemporaneo, non ha trovato nessun proselite proprio la sua idea centrale, il nuovo linguaggiodei concetti, e la maniera di scrivere logica, nel periodo piu fecondo di questa disciplina, seguira invece lastrada di Peirce, con notazioni sulla falsariga di quella matematica, anche se arricchita di simboli specifici,sul cui uso contemporaneo si e discusso piu sopra. La Begriffsschrift era invece radicalmente diversa,abdicava alla modalita di lettura lineare, da sinistra a destra, che la matematica ha ereditato dal linguaggioscritto naturale, adottando una struttura bidimensionale, in cui la stratificazione e la consequenzialita delleformule prosegue da sinistra a destra e contemporaneamente dall’alto al basso. Grazie a questa dimensioneaggiuntiva, non c’e bisogno di simboli strutturanti (come le parentesi), e le costanti simboliche sono ridotteal minimo.

Si procedera ora ad esporre la Begriffsschrift, e si usera la convenzione di illustrare sempre a sinistra leespressioni originali, affiancate a destra dall’equivalente nel simbolismo logico contemporaneo.

La forma base

La forma di base per tutto il sistema di scrittura e:

A A (2.58)

che asserisce la verita di A, ovvero quello che in logica moderna e indicato solo e semplicemente con A.L’anatomia di questa complicazione e raffigurata in Fig. 2.1. Il “segno di giudizio” serve a “giudicare”

il contenuto, il suo valore di verita, qualora mancasse, la forma A sarebbe soltanto un’aggre-gazione di idee (Vorstellungsverbindung). E una posizione singolare, che non e mai piaciuta per esempio aWittengstein, che, introducendo i segni proposizionali come tavole di verita, diceva:

(Il “segno di giudizio” di Frege “`” e logicamente affatto privo di significato; esso indica in Frege (eRussell) solo che questi autori ritengono vere le proposizioni con il segno di giudizio. “`” appartiene,

32 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

quindi, alla compagine proposizionale non piu che il numero della proposizione, Una proposizione nonpuo asserire, di se stessa, che e vera.) [Wittgenstein, 1922, §4.442]

E successivamente, in chiave di analisi del linguaggio naturale:

Il punto di vista di Frege, secondo cui in un’asserzione e contenuta un’assunzione, che e cio che vieneasserito, si basa, propriamente, sulla possibilita offerta dal nostro linguaggio di scrivere ogni proposizioneassertoria nella forma: “Si asserisce che le cose stanno cos ı e cosı”. - Ma “Che le cose stanno cosı e cosı”non e ancora una proposizione del nostro linguaggio - non e ancora una mossa del giuoco linguistico, Ese invece di scrivere: “Si asserisce che. . .”, scrivo “Si asserisce: le cose stanno cos ı e cosı”, le parole: “Siasserisce” sono affatto superflue. [. . .] Il segno d’asserzione di Frege accentua l’inizio della proposizione.Ha quindi una funzione simile a quella del punto fermo. Distingue l’intero periodo dalla proposizioneall’interno del periodo. Se odo qualcuno dire “piove”, ma non so se ho udito l’inizio o la fine del periodo,questa proposizione non e ancora, per me, un mezzo di comunicazione. [Wittgenstein, 1953, §22]

E un dibattito che ha avuto un seguito, coinvolgendo diversi altri autori fino a tempi recenti, come ripor-

tato in [Picardi, 1994, V.3]; indubbiamente il simbolo “ ” non era certo una mera sottigliezza, ma lacontroparte formale della distinzione giudizio/contenuto giudicabile, che e cardine per l’intera teoria deiconcetti in Frege.

E interessanti ai nostri fini un chiarimento riguardo al controverso segno che si riscontra dall’operapostuma [Frege, 1891b], da cui si puo schematizzare:

giudicare ⇒ riconoscere interiormente qualcosa come veroasserire ⇒ rendere pubblico questo giudizio

L’uso comune dell’“asserzione” al posto dell’originale “giudizio” (Urteil) e dovuto a Russell, si ritieneper evitare una facile associazione con la filosofia kantiana [Martin-Lof, 1996]. Il termine interiormente esintomatico della difficolta nel porre fuori gioco ogni aspetto cognitivo nella logica del linguaggio, e sembragiustificare Wittgenstein, quando sull’argomento aggiunge:

Una proposizione non puo asserire di se stessa che e vera. L’asserzione e meramente psicologica.

[Wittgenstein, 1913, §1]

La A nella (2.58) non va chiamata “variabile”. Con estremo rigore Frege contesta la validita di questotermine, pane quotidiano dei matematici ma persino di Russell, che non regge ad un’analisi semanticaserrata. Cosı come vanno evitate espressioni del tipo “terme whose meaning is indeterminate” oppure“signs have variable meanings”. In mancanza di meglio, laA e detta “abbreviazione”, e rientra in un quadrodi utilizzo dei simboli ben codificato. Questo livello di “oggetti” (che sostanzialmente corrispondono alle“variabili” per i logici piu alla mano) utilizza rigorosamente lettere greche maiuscole. La ripartizione avrasenso quando verranno progressivamente introdotti gli usi per gli altri tipi di lettere, nel frattempo e unpeccato che di fatto non servano quasi mai piu di due, diciamo cosı, “variabili”, per cui e veramente difficilerendersi conto che A o B non sono certo le A e B maiuscole latine, bensı lettere greche. Piu serio edisquisire sulla natura dell’oggetto A, punto che verra affrontato immediatamente piu sotto, parlando dellefunzioni.

Infine nella (2.58) il segno di contenuto ha soprattutto la funzione di unificare quello chec’e a destra, e anche qui ci si potrebbe chiedere se sia veramente indispensabile, ma stavolta non ci sonoappunti per Frege, e solo il primo esempio, in cui a destra c’e unicamente A, che non ne rende ragione.Diventa chiaro non appena vengono introdotte le modalita di comporre un contenuto complessivo da altricontenuti, che sono due, la prima e l’implicazione:

A

BB ⊃ A

e la seconda e la negazione:

A ¬A

Le Matematiche del Linguaggio 33

Fin qui quindi un sistema logico basato su due connettivi, gli stessi di Peirce, mentre Russell poi preferiranegazione e disgiunzione; ma Frege, indugiando non poco sulle motivazioni, ritiene importante aggiungereanche l’identita:

(A ≡ B) A ≡ B

mettendo in guardia sul diverso statuto epistemico di questo simbolo rispetto ai due precedenti. Qui si operanon piu sui significati, di cui le varie A sono abbreviazioni, bensı sui simboli stessi, dicendo che i lorocontenuti sono uguali. Frege tornera in varie riprese su questo operatore, e nei Grundgesetze der Arithmetik[Frege, 1903a] adottera il simbolo = anziche ≡, ma sempre cercando di evitare una distinzione tra il suoimpiego logico, linguistico e matematico. Impegno piu che lecito, dal momento che nel caso linguistico, itermini A sono assimilati a nomi di valori di verita, ma non per questo naturale, tant’e vero che nel §5, glisfugge una 3 × 7 = 21, con il segno di identita aritmetico (era un esempio sulla condizionalita). Quellache maturera e invece la sua concezione epistemica dell’identita, con il profondo ripensamento che sfocieranella distinzione senso–riferimento, che sara discussa in $ 2.2.4. A differenza dell’identita in Boole, Fregee ben accorto a non utilizzarla quale traduzione generalizzata del verbo essere, escludendo il caso dellacopula, da trattarsi invece con quello strumento cardine del suo sistema, descritto qui a seguito.

La funzione e i concetti

L’innovazione radicale di Frege riguarda il concetto di funzione, in cui si incontrano la sua anima mate-matica, nel prendere a prestito un termine algebrico da usare in semantica, e la sua anima filosofica, nellarevisione del concetto di funzione in matematica attraverso un’analisi semantica. Per lui la funzione eun’entita a cui manca qualcosa, il suo argomento, alla stregua degli ioni molecolari. Nelle varie sedi incui Frege torna sul tema, la metafora chimica e dominante, in modo talmente pervasivo che talvolta la“saturazione” pare assumere qualche ruolo ontologico, occorre dire che si trattava di una scienza allora dimoda (un po’ come oggi la microbiologica), che ispirava non pochi filosofi e linguisti, come ricostruito nelsaggio intitolato proprio La chimica dei concetti [Picardi, 1994]. Occorre anche tener conto che, come sipuo chiaramente leggere nel breve lavoro Was ist eine Funktion? [Frege, 1904], la critica doverosa ed acutanei confronti degli abusi semantici nelle comuni formulazioni di funzioni in matematica, e strettamentesubordinata alla critica, gia incontrata, alla “variabile”, che per quanto condivisible, non sfocia in una pre-scrizione semiologica praticabile. Quindi ogni alternativa per formalizzare coerentemente e rigorosamentegli argomenti nelle funzioni cade nel vuoto, e certamente quella della saturazione e un’idea felice per dareun credito scientifico a quel vuoto. Prima o poi l’esigenza di colmarlo arrivera, come si vedra presto. In-tanto la funzione, nella sua nuova veste molecolare, diventa l’abito per i predicati linguistici. Mentre nelcaso matematico, una volta saturata, la funzione denota oggetti matematici, nel caso dei predicati denotaaltri oggetti del tutto particolari, che sono i valori di verita.

E rilevabile un filo conduttore complesso ma coerente che lega la struttura a tre componenti della (2.58),questa interpretazione di funzione, e i concetti [Raynaud, 2002].

Gli oggetti A nella (2.58) sono proprio cio che non e funzione, ovvero entita sature. Possono fregiarsidel titolo di “contenuti giudicabili”, autorizzati quindi a stare alla destra del segno di contenuto ,quegli oggetti per cui sia lecito porsi il duplice interrogativo riguardo la loro verita o meno, si tratta di uncriterio che non solo elimina categorie di oggetti (per esempio nomi singolari), ma anche filtra gli enunciatidel linguaggio naturale rispetto alle loro componenti extralogiche, le “colorazioni” come le chiama Frege,e li uniforma rispetto a particolarita morfosintattiche non rilevanti logicamente (come la forma attiva opassiva). I concetti sono proprio l’antitesi degli oggetti, ovvero cio che e insaturo, predicativo, le funzioniche qualora saturate denotano valori di verita. Il punto piu forte, e che la funzione stessa puo comunquetrasformarsi in oggetto, quando diventi a sua volta argomento di predicazione, e il caso in cui argomento deldiscorso sia un determinato concetto. Si e dell’avviso che sia un passo decisamente critico, difficilmenteconciliabile per esempio con un’affermazione cosı inequivocabile:

[. . .]oggetto e tutto cio che non e funzione e la cui espressione non contiene cosı alcun posto vuoto.

[Frege, 1891a, p. 422 ed. it.]

Si puo tentare di dire che elementi funzionali, quando soggetti di predicazione, si ritrovino saturati dallaforma linguistica che li incapsula nell’enunciato, ma non e una risposta pienamente convincente. E infatti

34 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

veramente difficile precisare di che cosa “si saturano”, in modo da assecondare l’uso linguistico di questoverbo, sia in chimica che in questa metafora, una volta bandito il concetto di variabile. E lo problema affinea quello per la cui soluzione piu tardi Church mettera in campo la teoria delle λ-conversioni [Church, 1941],tramite cui e possibile transitare in modo formalmente rigoroso dall’espressione di una funzione al relativoconcetto, ma basandosi sulle variabili (vedi p. 84).

Tornando a Frege, la funzione viene introdotta come scomposizione di un enunciato in due componentiΨ e A, in cui sia possibile e sensato pensarlo suddiviso:

Ψ(A) (2.59)

per cui puo essere mantenuta fissa la parte Ψ, e al posto di A inseriti altri “argomenti”, Ψ() e la funzione,insatura. Viene mantenuta la massima generalita, per cui non solo e del tutto arbitrario definire, partendoda un’espressione complessa, qual’e il criterio di partizione da cui emergono Ψ e A, ma una volta effettuatatale ripartizione e anche arbitrario stipulare quale parte sia argomento e quale funzione, coerentemente conla metafora chimica. E su questa ardita licenza che trovera appiglio Russell, come si vedra in §2.2.4. Anchese di fatto in [Frege, 1879] la liberta espressa nella descrizione della (2.59) non e attuata, e quindi l’insiemedi deduzioni si mantenga coerente, questa sara letale per i Grundgesetze ma le cause, si ritiene, non sonoindipendenti dal modo di intendere la funzione qui discusso. Si accennava sopra all’esigenza di colmareil “vuoto”, ebbene non poteva non sorgere nel momento in cui e necessario considerare i decorsi di valoridelle funzioni, ed e proprio qui che interviene la fatidica quinta legge dei Grundgesetze.

La quantificazione

Una altra grande innovazione della Begriffsschrift e la “generalita”, ovvero l’introduzione del quantificatoreuniversale:

a Φ(a) ∀a (Φ(a)) (2.60)

che subito richiede un’ampliamento nella tassonomia di lettere alfabetiche da impiegare in questo lin-guaggio logico. Le lettere gotiche minuscole sono (stava per sfuggire un “variabile”) abbreviazioni perun argomento generico alla funzione, la Φ() nella (2.60). La concavita in cui e scritta la lettera serve adelimitare, alla sua destra, l’ambito del quantificatore (Gebiet), corollario operativo che sancisce l’uso chediventera abituale dei quantificatori in logica. C’e anche chi ha ravvisato in questa impostazione un con-dizionamento limitante per tutta la successiva evoluzione della logica del primo ordine, rispetto a teoriealternative della quantificazione [Hintikka, 1996a], che verranno brevemente illustrate in §4.3.1, in ognicaso e con Frege che vengono per la prima volta introdotti gli strumenti specifici per la trattazione correttadella quantificazione (in una direzione parallela a quella, meno sistematica, di Peirce).

Una forma particolare, largamente usata nella Begriffsschrift, riguarda il caso particolare in cui l’ambitodi un quantificatore coincida con l’intero giudizio (che di fatto e il caso della (2.60), ma solmente percheraffigura la forma base del quantificatore, in generale ovviamente non e cosı). Allora non e nemmenonecessaria la concavita, e lo statuto di “abbreviazione” generalizzata andra indicato mediante lettere corsiveminuscole. Inoltre, questa categoria di lettere figura abitualmente al di fuori di funzioni, per esempio inquasi tutti gli assiomi, si tratta di un passaggio del tutto lecito, e sempre infatti possibile supporre unafunzione del tipo f

def= f(·) = · (in notazione moderna).

La regola di inferenza e gli assiomi

L’apparato deduttivo di cui viene fornito il sistema di Frege si basa su un insieme di nove assiomi, e su unasola regola di inferenza, equivalente al classico modus ponens:

A

BB ⊃ A

B B

A ∴ A

Le Matematiche del Linguaggio 35

con due varianti sintattiche: le indicazione (N ): e (N ):: sono abbreviazioni rispettivamente per formeA

Boppure B , introdotte precedentemente, e a cui e stata associata l’ettichetta N . Quindi

abitualmente sono impiegate in tutte le deduzioni o la forma:

B B

(N ): (l’analoga delle N )

A ∴ A

(2.61)

oppure la:A

BB ⊃ A

(N ):: (l’analoga delle N )

A ∴ A

(2.62)

I nove assiomi vengono introdotti raggruppati in categorie: tre leggi che riguardano la condizionalita,altrettante per la negazione, due leggi sull’identita, e una sulla generalizzazione.

Le leggi sulla condizionalita

Ecco i primi due assiomi:

a

b

a

a ⊃ (b ⊃ a) (2.63)

b

c

a

c

b

a

c(c ⊃ (b ⊃ a)) ⊃((c ⊃ b) ⊃ (c ⊃ a))

(2.64)

che coincidono con i primi del sistema di Hilbert [Hilbert and Ackermann, 1928] e sono diventati comuninelle sistemazioni assiomatiche moderne del calcolo proposizionale, per es. [Machover, 1995].

La (2.64) e esemplificata da Frege nei termini:

Se la proposizione a e necessaria conseguenza di b e c, e si verifica anche che be necessaria conseguenzadi c, allora a e necessaria conseguenza della sola c

[Frege, 1879, §14]

Si tratta in realta di una descrizione che fa uso della congiunzione tra proposizioni, connettivo che non faparte dell’impianto fregeano, ma che era stato introdotto mediante la combinazione con la negazione, cosıcome anche la disgiunzione:

A

B¬ (b ⊃ ¬a) (2.65)

36 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

A

B¬b ⊃ a (2.66)

mentre non sono mai menzionate esplicitamente le regole che governano passaggi dai condizionali alleforme con questi due connettivi, senza fare uso della negazione, che sono le seguenti:

(a ⊃ (b ⊃ c)) ≡ ((a ∧ b) ⊃ c) (2.67)

((a ⊃ b) ⊃ c)) ≡ ((¬a ∨ b) ⊃ c) (2.68)

Naturalmente questo non intacca minimamente l’insieme di deduzioni dello stesso, che sono rigorosamentederivate mediante i due operatori, implicazione e negazione, consentiti nella Begriffsschrift, e nei tratti de-scrittivi che si passa con disinvoltura, a volte fuorviante, dalle forme implicazionali a quelle congiunzionalio disgiunzionali.

Ecco la terza delle leggi sulla condizionalita:

c

b

a

b

c

a(b ⊃ (c ⊃ a)) ⊃ (c ⊃ (b ⊃ a)) (2.69)

ovvero, se due proposizioni b e c hanno entrambe a come conseguenza necessaria, il loro ordine e irrilevan-te. E noto che uno dei virtuosismi prediletti dei logico-matematici e ridurre il piu possibile il numero degliassiomi messi in campo, ed e stato dimostrato che vi sono alternative a questa terza legge, che permettonodi dedurre le tre successive, sulla negazione. Łukaszewicz dimostro che la (2.69) puo essere un teorema di(2.63) e(2.64) [Łukaszewicz, 1925], e propose in alternativa:

(¬a ⊃ ¬b) ⊃ (b ⊃ a)

un altro possibile [Machover, 1995] e il seguente:

(¬b ⊃ a) ⊃ ((¬a ⊃ ¬b) ⊃ a)

Le leggi sulla negazione

La prima legge delle negazioni e:

a

b

b

a(b ⊃ a) ⊃ (¬a ⊃ ¬b) (2.70)

ed esprime il passaggio dal modus ponens al modus tollens, la regola di inferenza qui sotto.

b ⊃ a

¬a

∴ ¬b

Ed ecco le altre due leggi sulla negazione:

a

a¬¬a ⊃ a (2.71)

Le Matematiche del Linguaggio 37

a

aa ⊃ ¬¬a (2.72)

ovvero duplex negatio affirmat.

Due leggi sull’identita

La prima esprime il principio di sostituibilita:

f(b)

f(a)

(a ≡ b)

(a ≡ b) ⊃ (f(a) ⊃ f(b)) (2.73)

che e il modo basilare di intendere l’uguaglianza per Frege, ispirato a Leibniz “eadem sunt quorum unumpotest substitui alteri, salva veritate”. E da sottolineare come, in accordo con la rigida tassonomia dellelettere nella Begriffsschrift, anche la f va intesa come simbolo quantificato universalmente.

(a ≡ a) (a ≡ a) (2.74)

Questo e un assioma, quindi un’identita asserita analiticamente, mentre Frege afferma che A = B vaconsiderata sintetica, in senso kantiano, ed e anzi in forza di tale sinteticita che si giustifica la presenzadell’identita nella Begriffsschrift [Frege, 1879, §8], altrimenti un linguaggio logico ideale potrebbe sempli-cemente evitare di usare piu di un nome per lo stesso oggetto. Questa doppia natura dell’identita sara unodei principali problemi che condurranno alla famosa distinzione tra senso e denotazione, di cui si parlera in$ 2.2.4.

La legge sulla generalita

Quest’unico assioma della generalita esprime il senso del quantificatore universale: se una funzione e giudi-cabile vera all’interno dell’ambito del suo quantificatore, allora lo e necessariamente quella stessa funzionecon un argomento particolare.

a

f(b)

f(a)∀af(a) ⊃ f(b) (2.75)

2.2.2 Dove Socrate e pur sempre mortale

Se tutti gli uomini sono mortali e Socrate e un uomo, allora Socrate e mortale.

Anche DARII, il sillogismo aristotelico di prima figura11, il cui citato esempio e il funebre tormentoneche lo ha reso popolare, trova naturalmente piena dimostrazione nella Begriffsschrift, insieme a tante altreconseguenze logiche che Frege ricava dal suo apparato.

Ne seguiamo qui gli schemi deduttivi, non certo come ulteriore macabra rievocazione del fiero filo-sofo suicida, ma come esempio dell’applicazione del metodo all’interno del linguaggio logico di Frege,coinvolgente diversi dei suoi assiomi. Anzitutto e bene ricordare come il famigerato esempio appartenga

11Per ricordarsi le forme del sillogismo, i logici medioevali inventarono dei nomi in cui usare le vocali che corrispondono allequantificazioni dei termini nel sillogismo: A per tutti i ... sono, E per nessun ... e, I per qualche ... e, Oper qualche ... non e. I nomi dei sollogismi di prima figura (in cui il termine medio e argomento nella premessa maggioree predicato in quella minore) sono BARBARA, CELARENT, DARII, e FERIO, per esempio quest’ultimo e del tipo se nessun b ea e qualche c e b, allora qualche c non e a, contenendo nell’ordine i quantificatori E, I, O.

38 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

alla tradizione medioevale, e sia diverso dall’originale aristotelico, perche il termine minore e singolare[Łukaszewicz, 1957, Plebe, 1966], e corrisponda alla forma:

(∀x (g(x) ⊃ f(x)) ∧ g(y)) ⊃ f(y) (2.76)

mentre quello originale e il BARBARA, con tutti i termini generalizzati, e si puo quindi scrivere come:

(∀x (g(x) ⊃ f(x)) ∧ ∀x (h(x) ⊃ g(x))) ⊃ ∀x (h(x) ⊃ f(x)) (2.77)

che si puo esemplificare, tralasciando i funerali ma mantenendo l’ambito geografico:

Se tutti gli uomini sono bevitori, e i greci sono uomini, allora i greci sono bevitori.

Partiamo prima dalla dimostrazione del (2.76) che e piu immediata, coinvolgendo un solo passaggiodella regole modus ponens. Nel linguaggio Begriffsschrift, il BARBARA socratico si scrive:

a f(a)

f(b)

g(a)

g(b)

g(b) ⊃(∀a (g(a) ⊃ f(a)) ⊃ f(b))

(2.78)

la cui forma moderna, a destra, si puo vedere essere corrispondente a quella di (2.76), tramite le formule(2.67) per passare da forma implicazionale a congiunzionale. La deduzione applicata per ricavare questosillogismo e la modalita mostrata in (2.61), che, abbreviata tramite gli indici delle formule e:

(2.75) legge sulla generalita(2.69): terza legge sulla condizionalita

(2.78)

Qui subentra la parte principale del metodo, e cioe la possibilita di effettuare arbitrarie sostituzioni all’in-terno di schemi generali gia dimostrati. E un passaggio cruciale, su cui Frege non si pronuncia, ma lo mettein pratica continuamente. Si puo quindi tentare di dedurre empiricamente la regola di sostituzione, chepotrebbe basarsi sui seguenti criteri:

• dato un assioma o un teorema, qualunque elemento quantificato a livello del segno di giudizio puoessere sostituito da una qualunque espressione (2.58), partendo dal segno di contenuto verso destra(ovvero senza il segno di giudizio), purche si rispettino i criteri successivi;

• se si opera una sostituzione su un determinato simbolo, tutte le occorrenze dello stesso simbolodevono essere sostituite con la stessa espressione;

• l’espressione sostituente non puo contenere lettere gotiche diverse da quella originale, se coincidanocon altre del cui ambito di quantificazione faccia parte;

• dato un assioma o un teorema, qualunque lettera gotica puo essere sostituita con un altro elementopurche non identico ad un’altra lettera gotica, se la prima e nel suo ambito di quantificazione.

E stato dimostrato che le regole di sostituzione implicite di Frege necessariamente richiedono un altroprincipio, che nei Grundgesetze e quello (altrettanto implicito) della “Comprensione”, per cui a qualunqueformula quantificata a livello del giudizio corrisponde un concetto [Boolos, 1985].

La regola di sostituzione in atto verra subito esemplificata proprio per le necessita della dimostrazioneche e in corso, e nella tabella che segue e mostrato lo schema delle sostituizioni praticate alle formule (2.75)e (2.69).

Le Matematiche del Linguaggio 39

(2.75) a

f(b)

f(a)f(·) −→ f(·)

g(·)

(2.69)c

b

a

b

c

a

a −→ f(b)

b −→a f(a)

g(a)

c −→ g(b)

Tramite queste sostituzioni, lo schema del modus ponens diventa:

f(b)

g(b)

a f(a)

g(a)

∀a (g(a) ⊃ f(a)) ⊃(g(x) ⊃ f(b))

a f(a)

f(b)

g(a)

g(b)

f(b)

g(b)

a f(a)

g(a)

(∀a (g(a) ⊃ f(a)) ⊃ (g(x) ⊃ f(b))) ⊃(g(b) ⊃ (∀a (g(a) ⊃ f(a)) ⊃ f(b)))

a f(a)

f(b)

g(a)

g(b)

g(b) ⊃(∀a (g(a) ⊃ f(a)) ⊃ f(b))

Nella Fig. 2.2 sono evidenziati i blocchi che compongono lo schema elementare della regola modus ponens.

2.2.3 E i greci sono bevitori

Se tutti gli uomini sono bevitori, e i greci sono uomini, allora i greci sono bevitori.

Per dimostrare queste abitudini dei greci, o piu utilmente il BARBARA generalizzato di (2.77), di cuiquesto e il nostro esempio, sono richieste diverse formule intermedie, di cui alcune sono sottolineate daFrege come importanti conseguenze del suo sistema.

Transitivita dei condizionali

Due di queste sono le simmetriche:

a

b

b

c

a

c(b ⊃ a) ⊃ ((c ⊃ b) ⊃ (c ⊃ a)) (2.79)

40 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

a f(a)

f(b)

g(a)

g(b)

a f(a)

f(b)

g(a)

g(b)

f(b)

g(b)

a f(a)

g(a)

f(b)

g(b)

a f(a)

g(a)

A

A

A

B

B

B

Figura 2.2: Dettaglio dell’applicazione del modus ponens prima forma, nella deduzione della formula (2.78), ilsillogismo BARBARA con termini singolari.

a

c

b

b

a

c

(c ⊃ b) ⊃ ((b ⊃ a) ⊃ (c ⊃ a)) (2.80)

che se scritte nella forma congiuntivale, appaiono immediatamente equivalenti, per la proprieta commuta-tiva di questo operatore, per esempio la (2.79) si puo scrivere, avendo usato la (2.67):

((b ⊃ a) ∧ (c ⊃ b)) ⊃ (c ⊃ a)

Il fatto che esprimono e la transitivita delle condizioni, che puo essere esemplificato con:

Se Gargamella quando ha mal di pancia diventa antipatico, e se quando mangia funghi gli viene sempremal di pancia, allora Gargamella dopo aver mangiato i funghi e antipatico.

La (2.79) e derivata dai primi due assiomi sulla condizionalita. Partendo dai primi due:

(2.64) seconda sulla condizionalita(2.63): prima legge sulla condizionalita

con lo schema di sostituzioni

(2.63)

a

b

aa −→

c

a

c

a

b

b

c

b −→ a

b

si ottiene:

Le Matematiche del Linguaggio 41

b

c

a

c

b

a

c(c ⊃ (b ⊃ a)) ⊃ ((c ⊃ b) ⊃ (c ⊃ a))

a

b

b

c

a

c

b

a

c

b

c

a

c

b

a

c

((b ⊃ a) ⊃ ((c ⊃ (b ⊃ a)) ⊃ ((c ⊃ b) ⊃ (c ⊃ a)))) ⊃((c ⊃ (b ⊃ a)) ⊃ ((c ⊃ b) ⊃ (c ⊃ a)))

b

c

a

c

b

a

c

a

b

(b ⊃ a) ⊃((c ⊃ (b ⊃ a)) ⊃ ((c ⊃ b) ⊃ (c ⊃ a)))

(2.81)

ora da (2.81) con la deduzione:

(2.81) appena ricavato(2.64): seconda legge sulla condizionalita

e con lo schema di sostituzioni

(2.64)

b

c

a

c

b

a

ca −→

c

a

c

a

b

b

c

b −→ a

b

si ottiene:

42 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

b

c

a

c

b

a

c

a

b

(b ⊃ a) ⊃((c ⊃ (b ⊃ a)) ⊃ ((c ⊃ b) ⊃ (c ⊃ a)))

b

c

a

b

a

c

a

b

c

a

b

b

c

a

c

b

a

c

a

b

((b ⊃ a) ⊃ ((c ⊃ (b ⊃ a)) ⊃ ((c ⊃ b) ⊃ (c ⊃ a)))) ⊃(((b ⊃ a) ⊃ (c ⊃ (b ⊃ a))) ⊃ ((b ⊃ a) ⊃ ((c ⊃ b) ⊃ (c ⊃ a))))

b

c

a

b

a

c

a

b

c

a

b

((b ⊃ a) ⊃ (c ⊃ (b ⊃ a))) ⊃((b ⊃ a) ⊃ ((c ⊃ b) ⊃ (c ⊃ a)))

(2.82)

e adesso, per ottenere finalmente la (2.79), occorre riutilizzare quest’ultimo risultato nella seguente moda-lita:

(2.82) appena ricavato(2.63):: prima legge sulla condizionalita

(2.79)

dove per la prima volta vediamo applicato il secondo metodo modus ponens, quello di (2.62), specificato daFrege mediante i due doppi punti. Lo schema delle sostituzioni e il seguente:

(2.63)

a

b

aa −→

a

b

b −→ c

Le Matematiche del Linguaggio 43

a

b

c

a

b

a

b

c

a

b

b

c

a

b

a

c

a

b

b

c

a

cA

B

A

B

B

A

Figura 2.3: Dettaglio dell’applicazione del modus ponens seconda forma, nella deduzione della formula (2.79).

E la forma deduttiva e mostrata in dettaglio nella Fig. 2.3, confrontandola con la Fig. 2.2 si puo coglieresubito le differenze tra le due modalita, austeramente simboleggiate da Frege con “:” oppure “::” dopo ilnumero delle formule. La compagna della (2.79), ovvero la (2.80), sempre riguardo ai mal di pancia di Gar-gamella, e dedotta immediatamante dalla prima, mettendo in mezzo la terza legge di condizionalita, quellache decreta l’irrilevanza nell’ordine di due proposizioni, quando entrambe concorrono come condizionesufficiente per una terza, la deduzione e basata su:

(2.79) proprieta transitiva dell’implicazione(2.69): terza legge sulla condizionalita

(2.80)

utilizzando il seguente schema di sostituzioni:

(2.69)c

b

a

b

c

a

a −→a

c

b −→a

b

c −→b

c

ecco la deduzione:

44 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

a

b

b

c

a

c(b ⊃ a) ⊃ ((c ⊃ b) ⊃ (c ⊃ a))

a

c

b

b

a

c

a

b

b

c

a

c

((b ⊃ a) ⊃ ((c ⊃ b) ⊃ (c ⊃ a))) ⊃((c ⊃ b) ⊃ ((b ⊃ a) ⊃ (c ⊃ a)))

a

c

b

b

a

c

(c ⊃ b) ⊃ ((b ⊃ a) ⊃ (c ⊃ a))

Movimenti dei quantificatori

La disponibilita delle due formule (2.79) (2.80) sulla transitivita della condizione e la strada verso l’attesadimostrazione del BARBARA generalizzato, a cui si arriva tramite la combinazione di due nuove formule,una e la seguente:

f(a)

a

a

f(b)

a

(f(b) ⊃ a) ⊃ (∀af(a) ⊃ a) (2.83)

che e in sostanza un movimento del quantificatore, del tutto ovvio tenendo in mente che le lettere latineminuscole nella Begriffsschrift sono sottointese quantificate al livello piu alto. Questa formula e dimostratautilizzando:

(2.75) legge fondamentale sulla generalita(2.80): transitivita dei condizionali

(2.83)

e adottando il seguente schema di sostituzioni:

Le Matematiche del Linguaggio 45

(2.80)

a

c

b

b

a

c

b −→ f(b)

c −→ a f(a)

ottenendo quindi:

a

f(b)

f(a)∀af(a) ⊃ f(b)

f(a)

a

a

f(b)

f(b)

f(a)a

a

(∀af(a) ⊃ f(b)) ⊃((f(b) ⊃ a) ⊃ (∀af(a) ⊃ a))

f(a)

a

a

f(b)

a

(f(b) ⊃ a) ⊃ (∀af(a) ⊃ a)

La seconda formula necessaria per arrivare al BARBARA generalizzato e:

a f(a)

f(a)

h(b)

g(a)

h(b)

g(a)

(h(b) ⊃ g(a)) ⊃(∀a (g(a) ⊃ f(a)) ⊃ (h(b) ⊃ f(a)))

(2.84)

che altro non e se non la generalizzazione della regola transitiva dei condizionali (2.80), come si puoapprezzare subito riccorrendo alla forma congiuntivale:

((h(b) ⊃ g(a)) ∧ ∀a (g(a) ⊃ f(a))) ⊃ (h(b) ⊃ f(a))

La (2.84) e dedotta dalla (2.79) e dagli assiomi in quattro passaggi, che qui vengono citati senza dettagli,non essendo particolarmente significativi. I primi due passaggi consentono determinati cambiamenti diordine all’interno di catene implicative. Il primo:

a

a

b

c

c

b

d

d

(d ⊃ (c ⊃ (b ⊃ a))) ⊃(d ⊃ (b ⊃ (c ⊃ a)))

(2.85)

46 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

e dedotto tramite:

(2.69) terza legge di condizionalita(2.79): transitivita dei condizionali

(2.85)

mentre la seguente deduzione:

(2.85) il passaggio appena dedotto(2.79): transitivita dei condizionali

(2.86)

conduce al secondo passaggio, qui a seguito.

a

c

a

b

c

d

e

b

e

d

(e ⊃ (d ⊃ (c ⊃ (b ⊃ a)))) ⊃(e ⊃ (d ⊃ (b ⊃ (c ⊃ a))))

(2.86)

Il terzo passaggio e il seguente:

a

b

a

b

c

d

c

d

(c ⊃ (b ⊃ a)) ⊃((d ⊃ c) ⊃ (b ⊃ (d ⊃ a)))

(2.87)

per il quale sono state utilizzate le formule qui appresso.

(2.79) transitivita dei condizionali(2.86): il passaggio dedotto piu sopra

(2.87)

Il quarto passaggio e ultimo passaggio che conduce alla (2.84) e:

(2.78) il sillogismo BARBARA per termini singolari(2.87): il passaggio appena dedotto

(2.84)

che come si vede, utilizza proprio la regola dedotta precedentemente, che corrisponde al BARBARA contermine minore singolare, quello di (2.76).

Le Matematiche del Linguaggio 47

La deduzione finale

Finalmente si e in grado di mettere insieme le due formule che ora permettono di dimostrare il BARBARAgeneralizzato, ovvero

(2.84) transitivita generalizzata dei condizionali(2.83): proprieta del movimento dei quantificatori

applicando lo schema di sostituzioni:

(2.84)a f(a)

f(a)

h(b)

g(a)

h(b)

g(a)

a −→ b

(2.83)f(a)

a

a

f(b)

aa −→ a f(a)

f(b)

h(b)

g(a)

f(·) −→ g(·)

h(·)

a −→ b

si perviene alla deduzione finale, qui di seguito.

a f(a)

f(b)

h(b)

g(a)

g(b)

h(b)

(h(b) ⊃ g(b)) ⊃ (∀a (g(a) ⊃ f(a)) ⊃ (h(b) ⊃ f(b)))

a f(a)

f(b)

h(b)

g(a)

h(b)

g(b)

a f(a)

f(b)

h(b)

g(a)

g(b)

h(b)

b

((h(b) ⊃ g(b)) ⊃ (∀a (g(a) ⊃ f(a)) ⊃ (h(b) ⊃ f(b)))) ⊃(∀b (h(b) ⊃ g(b)) ⊃ (∀a (g(a) ⊃ f(a)) ⊃ (h(b) ⊃ f(b))))

48 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

(2.63)(2.64):

(2.81)⇓

(2.81)(2.64):

(2.82)⇓

(2.82)(2.63):

(2.79)

(2.69)(2.79):

(2.85)⇓

(2.85)(2.79):

(2.86)⇓

(2.79)(2.86):

(2.87)⇓

(2.75)(2.69):

(2.78)⇓

(2.78)(2.87):

(2.84)

(2.79)(2.69):

(2.80)⇓

(2.75)(2.80):

(2.83)

(2.84)(2.83):

(2.88)

Tabella 2.7: La catena completa di deduzioni per arrivare al sillogismo BARBARA generalizzato. I numeri in grassettoindicano assiomi.

a f(a)

f(b)

h(b)

g(a)

g(b)

h(b)

b

∀b (h(b) ⊃ g(b)) ⊃(∀a (g(a) ⊃ f(a)) ⊃ (h(b) ⊃ f(b)))

(2.88)

Calcolo deduttivo?

Nella Tab. 2.7 si e riassunta l’intera catena deduttiva che ha portato alla deduzione come teorema del sillogi-smo classico BARBARA, catena mediante cui si e esercitato il sistema della Begriffsschrift, sufficientementeda poter trarre alcune considerazioni.

Anzitutto si ritiene possa emergere un giudizio sulla scrittura di Frege, diverso da quello impietosodella storia: non ha certamente nulla da invidiare a quelle che si sono affermate fino ai giorni nostri, eil suo aspetto spaziale e un vantaggio non trascurabile, nel cogliere rapidamente strutture in formulazionicomplesse. Si tratta di un aspetto cognitivo della notazione scientifica, oggi diventato oggetto di notevoleattenzione e ricerca, anche per via della disponibilita di sistemi di visualizzazione idonei; peccato che Fregefosse troppo in anticipo per queste tendenze.

Una considerazione diversa riguarda la modalita con cui si e arrivati al percorso deduttivo della Tab. 2.7:e un procedimento di calcolo logico? La risposta e no. La Begriffsschrift non e che il sistema di scrittura,che include naturalmente la proprieta di correttezza del risultato, ma non ha nessun meccanismo di calcolo,nessuna regola che prescriva i passi da effettuare per arrivare a dedurre un teorema, anche se questo e

Le Matematiche del Linguaggio 49

effettivamente deducibile da teoremi gia disponibili. E quindi, non e un sistema che, dato un insiemedi enunciati del linguaggio naturale, sappia produrre altri enunciati che ne sono conseguenze logiche, indefinitiva non e un calcolo in grado di riprodurre il funzionamento del linguaggio. I passaggi della Tab.2.7, di cui alcuni non proprio ovvi ai fini del risultato, sono il frutto del ragionamento di una mente umana(beninteso, non quella di chi scrive), che usa questa modalita di scrittura per esprimerli in maniera coincisa,non ambigua, e con certezza di coerenza. Daltronde, era questo l’intento di Frege, e per diversi anni lanuova logica non cerco altro, intenta a consolidare tali strumenti, e ad epurarli da contraddizioni. Occorreaspettare il secondo dopoguerra per un primo vero e proprio calcolo delle deduzioni, con le tabelle di Beth,mediante cui e possibile verificare se un enunciato sia o meno la conseguenza di un insieme dato di altrienunciati [Beth, 1962].

Non puo non apparire come un passo indietro rispetto a Boole, il cui sistema logico era certamente in-completo e non privo di problemi, ma corredato delle tre regole risolutive, sviluppo-eliminazione-riduzione,(2.11), (2.12), (2.13), di cui manca un analoga strumentazione in Frege. In [Raynaud, 2002] si e ipotizzatoche in realta un tale strumento sarebbe stato a portata di mano, e si chiamava equazione. Infatti in piu di unpunto, soprattutto nei Grundgesetze, Frege compara enunciati dichiarativi ad equazioni, ovvero eguaglianzesoddisfatte solamente per determinati argomenti delle funzioni che vi compaiono. Il campo era stato inol-tre opportunamente spianato per questa strada, con il concetto di funzione traghettato dalla matematica, eavendo assunto che gli enunciati dichiarativi denotino quei particolari oggetti che sono i valori di verita. Maal di la di queste citazioni sparse, e di questa naturale predisposizione, non c’e traccia di un progetto perimpiegare operativamente le equazioni nel sistema della Begriffsschrift. Un probabile motivo, secondo ilsaggio citato, e di evitare che l’eccessiva contaminazione algebrica inquini i propositi logicistici, come dicelo stesso Frege [Frege, 1880]. Forse un’ulteriore motivazione traspare da alcune sfumature del passaggiooriginale ivi citato:

Questi strumenti sono, in generale, conformi al loro scopo, almeno per quel che riguarda il campo di pro-blemi che Boole ha in mente. Sono pero pensabili problemi che eccedono questo campo. [. . .] Per altrole divergenze dell’aritmetica sono cosı notevoli che le risoluzioni delle equazioni logiche non somiglianoaffatto a quelle delle equazioni algebriche. [. . .] A esigenze piu avanzate pero questo procedimento nonpuo supplire e del resto Boole neppure se lo pone [Raynaud, 2002, citazione p. 107 in nota]

ovvero la sensazione della complessita del problema, qualora le equazioni fossero adottate come metodooperativo in un sistema completo, quale la Begriffsschrift. L’essenza dell’equazione, come identita con-dizionata, potrebbe non essere esclusa categoricamente, ma il suo impiego in un progetto rigorosamentelogicistico ne richiederebbe una reinvenzione, in cui l’eredita di ben due secoli (il VI e VII), attraverso cuisi e evoluta la teoria delle equazioni algebriche conterebbe ben poco.

Non si e in grado di affermare che veramente Frege sia stato frenato da una piena consapevolezza delledifficolta di un approccio equazionale in logica, certamente la storia successiva ha confermato che nonera una strada banale da percorrere, ed infatti non e quella dei sistemi solutivi logici che sono stati viavia proposti, a partire da quello di Beth citato sopra. Anche oggi gli approcci piu comuni sono di tipoalgoritmico, basati anziche sul modus ponens, sulla regola di inferenza:

a ∨ b¬b ∨ c∴ a ∨ c

(2.89)

chiamata di “risoluzione” [Robinson, 1965]. Una disciplina vera e propria in cui gli enunciati dichiarativisono trattati come equazioni esiste solamente da una ventina di anni, e l’ambito delle cosiddette “equa-zioni linguistiche”, che ha un notevole interesse applicativo, nella sintesi di circuiti logici e nei controlliautomatici, ma che e attualmente consolildata solamente per la classe dei linguaggi regolari [Leiss, 1999].

2.2.4 Ma ricompare l’ombra del mentitore

Un uomo dice che sta mentendo. Dice il vero o il falso?

disse (forse) Eubulide da Mileto, inaugurando piu di 2300 anni fa la serie dei paradossi basati sull’au-toreferenzialita, popolarizzata da un libro di vasto successo [Hofstadter, 1979], alla cui schiera appartieneanche l’ombra che calo sull’impresa di Frege. In una lettera che divento famosa, Russell gli scrisse:

50 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

You state (p. 17) [della Begriffsschrift [Frege, 1879], v. formula (2.59) e relativi commenti] that a func-tion, too, can act as the indeterminate element . This I formerly believed, but now this view seems doubtfulto me because of the following contradiction. Let w be the predicate: to be the predicate that cannot pre-dicate of itself. Can w be predicated of itself? From each answer its opposite follows. Therefore we mustconclude that w is not a predicate. Likewise there is no class (as a totality) of those classes which, eachtaken as a totality, do not belong to themselves. From this I conclude that under certain circumstances adefinable collection does not form a totality12.

[Russell, 1902, pp. 124–125]

Nell’incriminata “(p. 17)” c’e il paragrafo della Begriffsschrift in cui viene introdotta la funzione, in terminicosı generali da lasciar insinuare quel paradosso, anche se non e in quella sede che viene fatto pieno usodelle liberta pericolose, bensı nei Grundgesetze e precisamente con la legge V, [Frege, 1903a, §20], comeindica lo stesso Frege nella risposta indirizzata a Russell pochi giorni dopo la ricezione della sua lettera.Ecco la sua espressione:

a( � f ( � ) = � g ( � )) = f(a) = g(a) (f (

�) = � g ( � )) =

∀a (f(a) = g(a))(2.90)

in cui e utilizzata una nuova simbologia, la lettera greca minuscola con lo spirito dolce, a indicare ildecorso di valori della funzione (Werthverlauf ), il cui posto “vuoto” va indicato tramite la stessa lettera,priva dello spirito. La (2.90) e il modo con cui la funzione, che e stata definita proprio come un non-oggetto, un elemento “insaturo”, puo tornare ad essere trattata da oggetto, costituito dall’insieme di tuttigli oggetti per cui e vera, come si suol dire oggi la sua estensione. Il criterio per questo passaggio crucialefunzione⇒oggetto e che due funzioni, il cui valore e uguale per qualsivoglia argomento, devono averestessa estensione.

Nelle due appendici al secondo volume dei Grundgesetze Frege aggiungera la dimostrazione che dal-la (2.90) viene dedotto come teorema il paradosso di Russell. Si omette qui la derivazione formale dellacontraddizione, in modo discorsivo si puo dire che il problema sta proprio nella corrispondenza tra concetti(funzioni) ed oggetti (estensioni). La (2.90) nello stesso tempo impone che vi siano tanti concetti quanti og-getti (perche ogni estensione differente richiede l’esistenza di un diverso concetto), ma richiede piu concettiche estensioni (come il concetto stesso di essere l’estensione di un determinato concetto).

Purtroppo senza la (2.90) non e possibile la ricostruzione della matematica di Dedekind/Peano a partiredalla Begriffsschrift, non c’e altra strada per arrivare al concetto di numero. Potrebbe sembrare che tuttosommato, pur condividendo il grande dispiacere di Frege per il fallimneto della sua impresa primaria, chie interessato ai problemi della semantica e non a quelli della matematica non debba preoccuparsi troppo,e un po egoisticamente sfruttare i risultati della Begriffsschrift, anche se questi non includono gli enunciatisull’aritmetica. In parte e vero, ma a condizione di rinunciare del tutto alla (2.90), e quindi anche a ogniinterpretazione estensionale delle funzioni. Infatti non basta nutrire indifferenza verso l’aritmetica, la pre-senza nel sistema di una legge da cui si puo derivare contraddizioni, consente l’affermazione e la negazionedi qualunque eununciato, il principio noto come “pseudo-Scoto”, ex falso quodlibet.

Un tentativo di rimedio

Frege stesso, nella sua appendice ai Grundgesetze propone una versione “debole” della (2.90), introducendola limitazione che un oggetto possa appartenere ad un’estensione, solo se e vera la funzione corrispondentesaturata da quell’oggetto, e contemporaneamente l’oggetto e l’estensione siano diversi:

( � f ( � ) = � g ( )) = a f(a) = g(a)

a = � f ( � )a = � g ( )

( f ( � ) = � g ( )) =

∀a (¬ ((¬a = � g ( ) ⊂ a = f ( � ))) ⊂ (f(a) = g(a)))(2.91)

12Tu asserisci (p. 17) che anche una funzione puo diventare l’elemento indeterminato. Anch’io ritenevo cosı, ma ora ho i mieidubbi, per via della seguente contraddizione. Mettiamo che w sia un predicato, che dice di non essere predicato di se stesso. Alloraw e predicato di se stesso? Qualunque risposta conduce alla sua contraria. Quindi bisogna concludere che w non e un predicato.Allo stesso modo non esiste la classe (come totalita) delle classi che, ciascuna presa come totalita, non appartiene a se stessa. Per cuiconcluderei che in determinate circostanze una collezione definibile non puo formare una totalita.

Le Matematiche del Linguaggio 51

Sembra proprio una soluzione cucita ad hoc su quell’antinomia, che naturalmente riesce cosı ad evitare,ma non e esente da altre contraddizioni piu subdole [Quine, 1955], e comunque Frege non sviluppo oltre lafaccenda, pare proprio per la delusione di aver visto incrinato il risultato di tanti suoi sforzi.

Si ritornera ampiamente in §4.1.1 sulle successive teorie che allontanandosi da Frege hanno cercatostrade diverse per evitare il paradosso, si accenna qui ad alcuni recentemi tentativi in senso opposto, cherivendicano la validita dell’impianto fregeano, senza necessita di teorie piu ampie come quelle che lo hannoseguito, ma semplicemente con accorte modifiche per assicurarne la coerenza. E quello che ha fatto Boolos,proponendo alcune New V, ovvero degli analoghi moderni della legge V originale (2.90).

La chiave delle sue soluzioni e un concetto famigerato, il cosiddetto concetto universale, quello del-la funzione (·) = ·, e tutti gli altri concetti sono in qualche modo misurati nei suoi confronti.In [Boolos, 1986] sono denominati piccoli tutti quei concetti che non sono identici a quello universale, esolo per questi l’identita tra estensioni ha il significato consueto, anzi al posto di estensione si usa il termi-ne subtensione, che e propriamente un’insieme del decorso di valori solo per funzioni (concetti) piccole.Successivamente in [Boolos, 1993] e stato sviluppato un argomento all’inverso, anziche identificare pre-liminarmente i concetti “buoni”, quelli piccoli, sono definiti anzitutto i cattivi (letteralmente bad), queiconcettacci che soddisfano le malvage proprieta di essere in contemporanea equinumerosi con il concettouniversale, e che lo sia anche il loro negato. Nella New V l’identita tra due concetti e valida strettamente solose nessuno e cattivo, oppure lo sono entrambi. Entrambe le soluzioni dimostrano la coerenza dell’impianto,quest’ultima senza necessita di ridefinire l’estensione.

Abbandonando per ora i tormenti dei logici sulle antinomie, si passia invece a vedere alcune profi-cue ripercussioni che i dubbi di Frege sull’identita nella (2.90) hanno avuto per l’indagine sul linguaggionaturale.

Il difficile senso del senso

La nozione di senso viene presentata da Frege per la prima volta, proprio insieme alla fatidica legge V,in [Frege, 1891a], e poi sviluppata in [Frege, 1892]. Come era stato gia accennato parlando del secondoassioma sull’identita (2.74), c’e una innegabile differenza tra due espressioni come (a = a) e (A = B),cosı come tra i tre enunciati

1. il Grande Puffo e il capo dei Puffi

2. il Grande Puffo e il Grande Puffo

3. il capo dei Puffi e il capo dei Puffi

dove anche se il Grande Puffo e il capo dei Puffi designano lo stesso individuo, la 1) puoessere effettivamente proferita da un Puffo razionale, mentre le altre due solo da qualche Puffo poco sanodi mente, o al massimo studioso di logica. L’approfondimento di questo dilemma allontana Frege dalla suaprima concezione metalinguistica dell’identita:

L’eguaglianza pone ardui interrogativi, a cui non e facile dare una risposta complessiva. E una relazione?Una relazione tra oggetti, oppure tra nomi o segni di oggetti? Nella mia Begriffsschrift ho assunto que-st’ultima. La ragione che sembrava favorirla era la seguente: a = a e a = b sono ovviamente enunciaticon valore cognitivo [Erkenntniswert] diverso; a = a e valido a priori, e secondo Kant, deve essereetichettato come analitico, mentre un enunciato nella forma a = b spesso contiene una considerevoleestensione della nostra conoscenza e non puo essere stabilito a priori.[. . .] Cio che apparentemente vo-gliamo affermare con a = b e che i segni o nomi “a” e “b” designano la stessa cosa, quindi che sottodiscussione sono proprio questi segni, verrebbe asserita una relazione tra di loro. Ma questa relazione tranomi o segni sarebbe valida solamente perche nominano o designano qualcosa. Ma cio e arbitrario. Nonsi puo impedire a nessuno di usare qualunque evento producibile o oggetto come segno per qualcosa. Inquesto caso la frase a = b non si riferirebbe piu all’argomento in questione, bensı solamente al modo didesignazione; e tramite essa non esprimeremmo nessuna vera conoscenza.

[Frege, 1892, p. 25]

Questa nuova lettura oggettivale dell’identita sara sancita nei Grundgesetze dall’adozione del segno =al posto del precedente ≡. Nei passaggi immediatamente successivi, viene svelato cosa puo esserci che

52 CAPITOLO 2. IL PERIODO AUREO DELLA LOGICA

differenzia i segni, oltre alla loro denotazone, e questo e proprio il “senso”, ovvero il loro “modo dipresentazione”:

Se il segno “a” si distinguesse dal segno “b” solo come oggetto (in questo caso per la sua forma), e noncome segno (cioe, non per la maniera con cui designa qualcosa), allora il valore cognitivo [Erkenntni-swert] di a = a diventerebbe essenzialmente uguale a quello di a = b, posto che a = b sia vero. Unadifferenza si puo produrre solo se la differenza tra i segni corrisponde a una differenza nel modo di pre-sentazione dell’oggetto che designano.

[Frege, 1892, p. 26]

Da una ricostruzione di diverse considerazioni sull’uso dell’identita in Frege [Alnes, 1999], si possonoelencare i seguenti casi di espressioni a = b:

• giudizi sintetici in cui a e b esprimono sensi diversi

• giudizi analitici in cui a e b esprimono sensi diversi, e il caso di teoremi, non evidenti senza unadimostrazione

• giudizi analitici in cui a e b esprimono lo stesso senso, e il caso degli assiomi, quelli la cui identitadi a e b, nonostante la loro differenza di forma, e auto-evidente (einleuchtend). Ed e proprio il casodella legge V (2.90), almeno cosı aveva sperato Frege.

La distinzione tra senso e denotazione, come e ben noto, e una delle eredita piu importanti per lafilosofia del linguaggio a seguire, e con questi pochi cenni non si intende certo entrare nel merito dell’argo-mento (discusso ampiamente in [Dummett, 1973], nella piu recente raccolta [Biro and Kotatko, 1995] e in[Picardi, 1994, Cap. III]). Nell’ottica qui piu limitata alla matematica del linguaggio, la nozione di sensoinevitabilmente sminuisce ulteriormente la portata della Begriffsschrift, che gia si era vista non contenerecomunque delle procedure operative per il calcolo del significato di enunciati complessi. Infatti ora anchela semplice trascrizione di un passaggio deduttivo non e in grado di mantenere intatto il significato, cioche si propaga rigorosamente in una corretta deduzione e solamente il riferimento, ma non il senso. Nonsolo, la mancanza di qualche indicazione sulla natura di questa componente del significato, o sui “modi dipresentazione” che esprime, non consente nemmeno di ipotizzare se si tratti di entita calcolabili, e a partireda che cosa, e se con strumenti analoghi a quelli dell’impianto logico destinato al riferimento. Oggi di-versi tenderebbero a rispondere affermativamente, associando al senso nozioni matematicizzabili, quali leintensioni, ma certamente non e piu cio che ha detto Frege.

La mente in soffitta

Frege in piu occasioni aveva difeso, con non poca veemenza, un’autonomia della logica nei confronti di ri-cerche di tipo psicologico, instaurando un atteggiamento che diventera per anni caratteristico della filosofiaanalitica, di tenere ben lontana ogni considerazione che riguardi l’ambito mentale. Secondo Nicla Vassallo[Vassallo, 1995] il clamore degli attacchi antipsicologisti di Frege ne ha fatto il protagonista di questa po-sizione piu del dovuto, in realta la separazione tra logica e psicologia era dovuta a Kant, in termini che inbuona parte erano stati recepiti dallo stesso Boole. Con cui Frege condivideva l’idea che le entita logiche,pur dovendo essere ricercate con mezzi ben diversi dalla psicologia empirica, in fin dei conti possedesserouna loro realta psicologica. Chi ci credeva poco era invece Russell, o perlomeno considerava la questioneirrilevante, ritenendo i principi della logica del tutto indipendenti anche dalla stessa esistenza di una menteche eventualmente li implementi. Quindi, pur fervida di importanti risultati la strada successiva della logicamatematica diverge non poco rispetto agli interessi di questa ricerca.

E stato spesso puntualizzato che queste posizioni sono teoriche e prescindono dal criticare una specificapsicologia, come quella corrente all’epoca di Frege e Russel, e quindi sarebbe un errore interpretarle legatead un contesto storico. Purtuttavia, non si puo non rilevare che i punti di princpio piu spesso contestati aduna logica contaminata dalla psicologia erano la mancanza di scientificita dell’indagine e il carattere sog-gettivo dei risultati. Entrambi erano indissolubilmente legati alle sole metodologie psicologiche disponibiliun secolo fa, mentre le cose sono ben diverse nelle attuali ricerche di tipo neurocognitivo, inimmaginabi-li in quel periodo, oggi le osservazioni assomigliano sempre piu a quelle strumentali della fisica, con lapossibilita di estrarre ampie regolarita convergenti attraverso le variabilita intersoggettive.

Capitolo 3

Ambizioni matematiche dellagrammatica, desiderio di grammatichedel computer

Negli anni ’50 si verificarono due fenomeni di una singolarita sorprendente, oggi meno facile da cogliere,perche attenuata dall’odierna assuefazione ai forti cambiamenti di prospettiva allora introdotti. Da un latola grammatica del linguaggio ordinario diventava a tutti gli effetti un settore della matematica, di una par-ticolare matematica che si cerchera di presentare e precisare nelle sezioni che seguiranno immediatamente;su un versante invece imparentato strettamente con le scienze dei numeri, quello della giovane disciplinainformatica, emergeva al contrario l’esigenza di un “linguaggio” per cercare di domare le ardue difficoltache accompagnavano la sua crescita in prestazioni e complessita.

Per entrambi non si e trattato di episodi, ma dell’avvio di percorsi divenuti presto non solamente priori-tari, ma polarizzanti in maniera pressoche totale per le due discipline. I risultati sono stati di grande rilievoper ambedue, ma naturalmente le differenze degli ambiti rende anche diverse le valutazioni. Nel caso delcomputer la mera constatazione del salto di funzionalita, guadagnato adottando il paradigma dei linguaggidi programmazione, ha piu che soddisfatto gli informatici, che non hanno visto particolari motivi per in-terrogarsi teoricamente sulla validita del principio e su eventuali alternative. Diverso e l’atteggiamento deilinguisti, per non parlare dei filosofi del linguaggio che, nonostante l’ampio consenso suscitato dalla nuovatendenza, non sono venuti meno allo spirito di critica e di ricerca anche al di fuori di essa.

Anche se la coincidenza storica dei due fenomeni era inizialmente contrapposta all’indipendenza ealla reciproca indifferenza dei loro principali attori, la naturale convergenza degli ambiti non pote cheriflettersi in una crescente simbiosi, fertile per nuove correnti teoriche genericamente raccolte con il nomedi computazionalismo, dove il linguaggio puo trovare ulteriori spiegazioni matematiche. Si tratta ora delcomputer stesso, il cui principio di funzionamento viene proposto, in termini piu o meno metaforici, qualebase dei meccanismi del linguaggio e del pensiero umano. In questa tematica viene nuovamente a confluire,a fianco della piu recente trattazione matematica della grammatica, il filone della logica, nella sua fase piumatura, successiva a quell’avvio illustrato nel precedente capitolo.

Esistono delle buone ragioni per sorprendersi meno di queste commistioni ed invasioni di campo, inquanto non sarebbero altro che differenti manifestazioni di uno stesso oggetto matematico, esprimibile divolta in volta come un fondamento di sistemi logici, un sistema di funzioni matematiche, un modo perdescrivere grammatiche, il principio di funzionamento dei calcolatori, o, perche no, la formalizzazione delragionare umano. A parte, comprensibilmente, quest’ultima, l’equivalenza tra tutte le altre forme e statadimostrata, giustificando la mirabile convergenza dei diversi percorsi, anche se si e dell’avviso che soprat-tutto dalle loro specificita e dalla sinergia favorita dalla coincidenza storica siano scaturiti i ragguardevolirisultati, piuttosto che dalle motivazioni teoriche.

E infine notevole, nell’epoca delle grammatiche formali e del computazionalismo, l’abbandono di quel-l’atteggiamento cosı caratterizzante per la logica, a partire da Frege e comune alla filosofia analitica: l’anti-mentalismo. Ora si torna a parlare esplicitamente del funzionamento del linguaggio nell’uomo, ed e spesso

54CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

ribadito come i risultati delle ricerche vadano interpretati anzitutto proprio come conoscenze sulla facoltamentale del linguaggio umano. E in un certo senso il ritorno al progetto di Boole, con in comune una fiduciasulla sola capacita di astrarre il funzionamento matematico dalla sola osservazione oggettiva del linguag-gio, prescindendo da qualunque supporto empirico. Questo perlomeno e stato l’atteggiamento iniziale, checontinua ad essere prevalente nelle scuole piu ortodosse, anche se un certo numero di esponenti cominciaoggi a dimostrare attenzione al panorama dei dati neuroscientifici e psicolinguistici rilevanti.

3.1 Noam Chomsky e i calcoli della grammatica

C’e una figura dominante in questo ingresso della grammatica nel mondo matematico, un pensatore cheanzitutto in prima persona, e poi anche grazie ad una scuola che conta oramai discepoli in tutto il mondo,ha introdotto e sviluppato in profondita ed ampiezza la sua nuova teoria. A differenza dei due protagonistipresentati nel precedente capitolo, Noam Chomsky ha ottenuto in vita quella meritata notorieta di cui con-tinua tuttora a godere, e la sua popolarita si estende ben oltre la cerchia degli addetti ai lavori grazie ai suoieclettici interessi e alla conseguente produzione saggistica su temi politici e sociali.

L’ardua impresa sua e della sua scuola, di realizzare una descrizione formale completa delle linguenaturali, ha comprensibilmente comportato una diversificazione e specializzazione dell’apparato teoricosu tanti aspetti di dettaglio che e qui impossibile tentare di descrivere. Per gli scopi di questa ricerca cisi soffermera sui principi su cui si basa la traduzione in termini matematici della grammatica, con pocoindugio su questioni prettamente linguistiche, sottolineando invece le conseguenze filosofiche del metodo.Se si eccettuano alcuni punti, peraltro non marginali, Chomsky ha mantenuto una notevole disponibilita arivedere criticamente se stesso, con il risultato che non si puo parlare di una sua teoria in senso unitario,ma di una continua evoluzione, che comprende revisioni, smentite e anche ritorni a posizioni precedenti.Pur prescindendo da una ricostruzione storica vera e propria, si cerchera di dar conto per grandi linee delladinamica del suo pensiero. Infine, come si era detto per la logica matematica, anche per la grammatica lasua dirompente irruzione nella scena e legata ad una figura geniale, ma non nasce veramente dal nulla, visono dei precedenti, anche se rimasti nell’ombra.

3.1.1 Giochi di parole per matematici

Il fascino delle parole scritte per i matematici non e una novita, gia Gauss si era fatto attrarre da questionicombinatorie su di esse [Gauss, 1900, pp. 282–286], ma fu un matematico norvegese, Alex Thue, a dedicareper primo un’ampia trattazione matematica alle parole [Thue, 1906, Thue, 1912]. Il lato singolare e chequesta ricerca non solo non aveva alcuna attinenza con indagini linguistiche, era del tutto indipendente daqualunque applicazione specifica, una sorta di divertimento puro.

Il primo passo per fare della matematica e definire delle operazioni, e quella piu opportuna, nel casospecifico, e la concatenazione, che essendo anche l’unica operazione, non ha bisogno di un simbolo speci-fico, cosı come succede per la moltiplicazione in algebra. Le parole sono formalizzate come sequenze dicaratteri, presi da un insieme, l’alfabeto. Per rappresentare una parola variabile si usa come di consueto unasingola lettera minuscola, il che naturalmente puo generare confusione, ovviata adottando le lettere piu alte(u,w,...) per le variabili e le prime (a,b,...) come elementi dell’alfabeto, qui inoltre si usera un diverso stiletipografico.

Ecco alcuni esempi di concatenazione:

u = bla w = boh

uw = blaboh u3 = blablabla(3.1)

Se si considerano tutte le possibili parole generabili mediante la concatenazione dei caratteri di unqualunque alfabeto A, il loro insieme, che si scrive A∗, possiede tutti i requisiti per essere chiamato, daimatematici, un monoide. Questi oggetti sono genericamente insiemi, con abbinata un’operazione binaria,che soddisfano tre proprieta:

1. l’operazione e associativa;

Le Matematiche del Linguaggio 55

2. l’insieme e chiuso rispetto all’operazione, ovvero per qualunque coppia v ∈ A∗, w ∈ A∗ ancheu = vw appartiene ad A∗;

3. esiste un elemento identita ε, cioe quello per cui vale w = wε con qualunque elemento w dell’insie-me.

Per esempio un monoide e l’insieme dei numeri naturali positivi rispetto alla moltiplicazione, con 1 l’ele-mento identita, ed e facile riconoscere che lo e proprio A∗ rispetto alla concatenazione, prendendo comeelemento identita la stringa vuota, una parola con 0 caratteri. Si e cosı operata la riconduzione delle paroleall’interno del mondo matematico, con operazioni, definizioni, proprieta. Quelle che appassionarono Thueriguardavano la presenza di particolari strutture all’interno delle parole, e per questo anzitutto estese un’al-tra metafora della moltiplicazione dei numeri: quella dei fattori. La fattorizzazione di una parola w e la suascrittura come

w =

n∏

i=1

uki

i (3.2)

per cui, usando gli esempi di (3.1):

blablablabohboh = u3w2

Una parola e detta k-free quando non contiene fattori di ordine k, ed e k+-free quando non contiene fattoridi ordine superiore a k. Una overlap e invece una struttura vuvuv all’interno della parola, la minima per cuialcune lettere, le v, coincidono come prefisso e suffisso della struttura. Le parole overlap-free sono quelleprive di tali strutture al loro interno.

L’altro ingrediente necessario per studiare la struttura delle parole e la formalizzazione del modo con cuisono composte, che in prima istanza puo realizzarsi mediante il concetto di automorfismo, una mappaturache leghi elementi di A∗ con altri elementi sempre di A∗, in maniera trasparente rispetto alla concatenazio-ne. Detto piu rigorosamente, una mappatura φ : A∗ =⇒ A∗ e un automorfismo rispetto alla concatenazionese

φ(vw) = φ(v)φ(w), v ∈ A∗, w ∈ A∗ (3.3)

La mappatura che fu studiata in dettaglio e la seguente, definita su un alfabeto di due soli caratteri A ={a, b}:

τ(a) = ab, τ(b) = ba (3.4)

che puo essere estesa considerando gli automorfismi iterativi τn, definiti come τn(w) = τ(τn−1(w)

)con

τ0(w) = w, ottenendo per esempio:

τ0(a) = a, τ0(b) = b

τ1(a) = ab, τ1(b) = ba

τ2(a) = abba, τ 2(b) = baab

Le parole infinite definite come:

limn=⇒∞ τ(a), limn=⇒∞ τ(b) (3.5)

sono oggi note come parole di Thue-Morse, dal nome dell’altro matematico che le studio pochi anni dopo[Morse, 1921]. La prima di queste due parolone comincia con:

abbabaabbaababbabaababbaabbabaabbaababbaabbabaababbabaabbaababba...

Thue dimostro anzitutto che queste parole sono 2+-free, sono overlap-free, e inoltre posseggono diversealtre proprieta inaspettate, su cui non e il caso qui di soffermarsi. Il lato piu interessante della faccenda eche questo automorfismo, cosı come altri piu complicati che il norvegese introdusse, per esempio cercandoparole 2−free in alfabeti a tre elementi, possono essere considerati i “generatori” di sottoinsiemi di A∗, edescritti sinteticamente in modo alternativo, per esempio la (3.4) con:

a =⇒ ab

b =⇒ ba(3.6)

56CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

S =⇒ NP V P

NP =⇒ D N

V P =⇒ V NP

N =⇒ man

N =⇒ ball

V =⇒ hit

D =⇒ the

S

NP

D

the

N

man

VP

V

hit

NP

D

the

N

ball

Figura 3.1: Il primo esempio di “grammatica” (a sinistra) e relativo albero sintattico (a destra) di Chomsky. Glielementi terminali sono evidenziati in grigio.

le cosiddette regole di riscrittura. La (3.6) e il caso particolare di una forma generale:

αxβ =⇒ αyβ (3.7)

con α, β elementi variabili di A∗, e x, y delle sequenze fisse, sempre in A∗. Dato un insieme di paroleiniziali, regole del tipo (3.7) definiscono un sottoinsieme di A∗, e il tutto e un sistema ora chiamato semi-Thue, il motivo del “semi” e perche esistono anche i “non-semi”, di minore importanza, dove per ogniregola αxβ =⇒ αyβ deve esistere anche quella inversa αyβ =⇒ αxβ.

Il logico matematico americano Emil Post fu il primo a valorizzare i contributi di Thue, ed oltre a farsicoinvolgere pure lui da certe proprieta combinatorie delle parole [Post, 1947], prese a prestito il sistemadella riscrittura per imprese piu austere quali la generazione di sistemi assiomatici [Post, 1921].

Va infine aggiunto che il filone delle proprieta combinatorie delle parole e sopravissuto autonomamentedalla matematica del linguaggio chomskiana fino ai giorni d’oggi, oltre che per i suoi stimoli intellettuali,anche per qualche interessante rilevanza nei confronti di altre branche quali la teoria dei numeri, una recentepanoramica in [Lothaire, 2002].

3.1.2 Il gioco si fa serio

Chomsky fin dalla seconda meta degli anni ’50 [Church, 1956, Chomsky, 1957] comincia ad impiegarequello stesso apparato, ma con intenti ben piu seri, assegnando un preciso ed ardito significato alle suecomponenti matematiche. L’insieme delle regole di riscrittura e una “grammatica”, e l’insieme degli ele-menti prodotti tramite le regole e nientemeno che un “linguaggio”, nel senso della collezione di tutte le suepossibili frasi grammaticalmente accettabili. Il capitolo 4 del Syntactic Structure offre subito un assaggio,con una minigrammatica sufficiente a produrre la semplice frase

the man hit the ball1

che riportiamo nella Fig. 3.1. La modalita con cui la grammatica e stata utilizzata, fino a produrre lafrase in oggetto, e descritta utilizzando i cosiddetti “alberi”, che sono a tutti gli effetti un altro formalismomatematico, caso particolare di quello piu generale dei grafi. La loro teorizzazione risale al 1736 da parte diEulero, che li applico per dimostrare che era possibile attraversare tutti i sette ponti della citta di Konigsbergesattamente una volta sola, tornando al punto di partenza. Sono strutture con due tipi di elementi: vertici(o nodi) e archi che li collegano, il significato di entrambi e del tutto arbitrario e dipende dall’applicazione.Gli alberi sono un tipo di grafo particolare senza cicli, introdotti da Kirchhoff per stabilire le famose leggisui circuiti elettrici [Kirchhoff, 1847] che portano il suo nome, in questo caso i vertici erano componentielettrici e gli archi fili di collegamento. Estendendo la metafora botanica, gli elementi negli alberi assumononomi particolari: il vertice di partenza e chiamato radice, gli archi che partono da questo sono detti ramie gli elementi finali, che non hanno piu rami, sono foglie. Un’anomalia a cui occorre assuefarsi e l’idea dialberi con la radice in alto e le foglie in basso, bisogna tener presente che per i matematici vedere le cosesottosopra non e mai stato cosı problematico. Tornando alla Fig. 3.1, tutti i nodi diversi dalle foglie sonoapplicazioni di una regola della grammatica e il nome del nodo e l’elemento a sinistra nella regola, quelloche Chomsky chiama “costituente sintattico”. La radice e sempre l’elemento S (per Sentence), le fogliedevono essere gli elementi terminali, quelli non piu suscettibili a riscritture, e che fanno parte del lessico

1l’uomo ha colpito la palla

Le Matematiche del Linguaggio 57

standard italianoS = Sentence S = fraseVP = Verbal Phrase SV = sintagma verbaleNP = Noun Phrase SN = sintagma nominalePP = Prepositional Phrase SP = sintagma preposizionaleAP = Adjectival Phrase SA = sintagma aggettivaleN = Noun N = nomeV = Verb V = verboA = Adjective A = aggettivoP = Preposition P = preposizioneD = Determinant D = determinante

Tabella 3.1: Alcuni simboli non terminali, corrispondenti a categorie grammaticali.

della lingua. Leggendo da sinistra a destra le foglie dell’albero sintattico, si ritrova esattamente la frasegenerata dalla grammatica. Nella Tab. 3.1 sono riportati alcuni tra i principali elementi non terminali, siacon l’abbreviazione standard che con quella talvolta utilizzata nei testi in italiano, a seguito verra impiegataquella standard. Esistono rappresentazioni alternative agli alberi, per esempio l’uso di parentesi quadre conindici, indipendentemente dal modo di presentazione grafico, questi oggetti sono comunque chiamati SD2

(Structural Descriptions), e sono il tipico prodotto di queste grammatiche.Nel periodo immediatamente successivo al Syntactic Structure vengono elaborate rigorosamente le

basi matematiche della grammatica generativa, questa maniera del tutto nuova di trattare il linguaggio[Chomsky, 1958, Chomsky and Miller, 1963], di cui viene data ora una breve sintesi.

In questa nuova accezione una grammatica diventa una “quadrupla”:

Gdef= 〈VN , VT , S,R〉 (3.8)

i cui elementi sono:VN insieme degli elementi non terminali

VT insieme degli elementi terminali, con VN ∩ VT = ∅

S elemento iniziale, con S ∈ VN

Rinsieme delle regole di riscrittura, del tipo 〈P, Q〉 con P, Q ∈ (VN ∪ VT )∗ e P con almeno unsimbolo ∈ VN

(3.9)

e un linguaggio e definito come l’insieme generato da una certa grammatica:

L (G) ={

P | S∗

=⇒G

P}

∩ V ∗T (3.10)

dove l’operazione∗

=⇒G

vuol dire l’applicazione ripetuta un numero qualsiasi di volte delle regole di riscrit-

tura disponibili nella grammatica G, in termini matematici la chiusura transitiva e riflessiva di =⇒. Insostanza la (3.10) dice che questa nuova accezione di linguaggio “matematizzato” e l’insieme di tutte lefrasi generabili partendo dal lessico (ovvero VT ), tramite ogni combinazione immaginabile delle regole diuna certa grammatica (generativa, beninteso).

La grammatiche possono essere tante, caratterizzate dal lessico, ma soprattutto dall’insieme di regoledi riscrittura, chiamate anche regole di produzione (cosı piaceva a Post). Un contributo fondamentale diChomsky fu nel classificarle, sulla base della tipologia di regole contemplate, che si riflette sulla complessitadel linguaggio generabile, e una catalogazione ancora oggi dominante nello studio matematico dei linguaggied e stata popolarizzata, meritatamente, come gerarchia di Chomsky. E illustrata nella Tab. 3.2, dove siadotta la consuetudine delle lettere latine minuscole per i terminali e maiuscole per i simboli non-terminalie di quelle greche per stringhe arbitrarie, quindi β ∈ (VN ∪ VT )

∗. Proprio perche e un tratto fondamentalenella teoria dei linguaggi, la gerarchia e stata approfondita ed ampliata con diverse sottoclassi e sottigliezzedi cui qui non ci si occupa, va tenuto presente che quella mostrata nella Tab. 3.2 e una delle piu comuni,ma non l’unica. E stato inoltre dimostrato che, chiamando Li la classe di linguaggi generabili con tutte lepossibili grammatiche di tipo i, sussiste la relazione:

L4 ⊂ L3 ⊂ L2 ⊂ L1 ⊂ L0 (3.11)2La proliferazione degli acronimi negli studi chomskiani ha carattere endemico, si cerchera di limitarne il contagio.

58CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

4 FCG Finite-Choice scelta finita A ⇒ x

3 REG Regular regolariAA

⇒⇒

x Bx

2 CFG Context-Free non-contestuali A ⇒ ψ

1 CSG Context-Sensitive contestuali β A γ ⇒ β ψ γ

0 PSG Phrase Structure non-ristrette ψ ⇒ β

Tabella 3.2: Una gerarchia delle grammatiche.

si tratta, cioe, di una gerarchia nel vero senso della parola.Scendendo dalle formule matematiche al linguaggio ordinario, una domanda immediata sarebbe proprio

dove si collochi quest’ultimo, in questa classificazione. E Chomsky stesso, sempre in Syntactic Structure,a fornire una dimostrazione matematica dell’inadeguatezza delle grammatiche fino al tipo 3 nel descrivereil nostro linguaggio. Si e cercato di darne la motivazione intuitiva nella Tab. 3.3. La sequenza di subordi-nate incassate potrebbe proseguire ancora (come in qualche filastrocca) e il risultato continuare ad esseregrammaticalmente corretto, e un tipico caso in cui le grammatiche regolari non sono in grado con le lorosemplici regole di riprodurre la frase, perche c’e un’espansione, quella delle subordinate a catena, che si in-sinua tra i due termini iniziali, come mostrato graficamente sempre in Tab. 3.3. Ora chiaramente un simbolonon-terminale puo essere espanso indefinitivamente, mentre quello terminale e fisso e nella grammatica re-golare l’espansione e concessa sempre solo verso destra. Questa limitazione e rimossa nella grammatica

il banchiere scappail banchiere inseguito dal ladro scappail banchiere inseguito dal ladro inseguito dal poliziotto scappa

inseguito dal ladroinseguito dal poliziotto

il banchiere scappa

Tabella 3.3: Esempio di clausole subordinate sempre piu stratificate, e in basso il grafico di come si strutturano.

non-contestuale, in cui sempre le regole riguardano di volta in volta un elemento non-terminale isolato, mae permesso espanderlo a piacere. Il dilemma se far rientrare in questa classe il linguaggio naturale, oppurese occorra prendere in considerazione le grammatiche contestuali, non ha facile soluzione. L’intuizioneporterebbe a diffidare delle grammatiche di tipo 2, perche l’adeguatezza di un termine e spesso legata aisuoi vicini, basti pensare alle concordanze di genere e numero. Purtuttavia le difficolta non dimostranol’impossibilita, ed infatti e spesso possibile superarle con l’aggiunta, eventualmente piuttosto artificiosa, diun certo numero di altre regole. Negli anni ’80 erano state proposte alcune dimostrazioni sulla non ade-guatezza delle grammatiche non-contestuali, nelle quali sono pero stati riscontrati alcuni errori invalidanti[Pullum and Gazdar, 1982], ve ne sono di piu recenti relative al solo tedesco [Shieber, 1985].

Non ci si addentra oltre, anche perche la posizione di Chomsky al riguardo e stata di sostanziale indif-ferenza, perche ben presto rinuncio alla pretesa di generare veramente un intero linguaggio tramite questimeccanismi, siano essi grammatiche di tipo 2 o 1. In entrambi i casi, si renderebbero necessarie regolesovrabbondanti e controintuitive per poter generare diverse tipologie di una stessa frase: in forma passiva,interrogativa, negativa, subordinata, etc. La soluzione piu elegante e di utilizzare invece la grammatica

Le Matematiche del Linguaggio 59

generativa solamente per la produzione delle frasi nel formato base, dichiarativo e attivo, e sviluppare unapparato matematico diverso tramite cui provvedere alla conversione negli altri formati, le grammatichetrasformazionali. Mentre la parte generativa e stata un pezzo di matematica di grande successo e con unanotevole solidita nei suoi capisaldi essenziali, lo sviluppo trasformazionale della sintassi e stato decisamentetravagliato, si sono succedute diverse impostazioni sempre prive di una robusta impalcatura teorica.

Nella versione fino al Aspects of the Theory of Syntax [Chomsky, 1965], nell’ambito di quella che vienechiamata Standard Theory, le trasformazioni sono regole in cui viene prima schematizzato il formato su cuipossono operare, la SD (gia incontrata precedentemente) e poi indicata la trasformazione vera e propria, SC(Structural Change). Per esempio, una regola di trasformazione passiva e:

SD: (NP,Aux, Vt, NP )SC: X1X2X3X4 =⇒ X4X2 beX3 + ed byX1

(3.12)

in cui i simboli Xi si riferiscono alle posizioni nella SD, per esempio X1 e un NP che originariamentefunge da soggetto, e viene spostato in ultima posiizone. Le proprieta matematiche di questo genere di regoletrasformazionali sono state analizzate in [Peters and Ritchie, 1973], ed e stato dimostrato che l’abbinamentodi una grammatica non-contestuale, di tipo 2, con tali regole puo produrre linguaggi di classe L0, i piucomplessi esistenti.

Visto che la CFG, la grammatica di tipo 2, e il candidato ideale per incorporare le regole di riscritturadel linguaggio naturale, e stata oggetto di particolari attenzioni, fra cui una ulteriore restrizione a carattereunicamente pratico. Si tratta della CNF (Chmosky Normal Form), che prevede queste due sole forme diregola:

A =⇒ BC A,B,C ∈ VN (3.13)

A =⇒ x A ∈ VN , x ∈ VT (3.14)

In pratica questo significa che le SD generate da questa grammatica saranno sempre alberi binari, ovveroin cui da ogni nodo partono solamente due rami, l’unica eccezione sono i nodi che conducono alle foglie. Eimmediato verificare che regole del tipo (3.13) sono quelle che determinano un nodo con due rami, mentrequelle di tipo (3.14) portano alle foglie, e in questo caso A e detto elemento pre-terminale. E dimostrabilematematicamente [Revesz, 1985, p. 19] che:

L2 = LCNF

ovvero queste grammatiche piu snelle hanno esattamente la stessa capacita generativa di quelle di tipo 2.Chomsky ha tentato con successo di mantenere sempre questa forma binaria di rappresentazione durantel’intero corso delle sue ricerche, anche se non si evince una giustificazione di principio forte, al di la di unacomoda standardizzazione.

3.1.3 Un polmone linguistico

Prima di affrontare gli sviluppi piu recenti delle teorie chomskiane, e opportuno soffermarsi sui suoi presup-posti basilari e sulle sue finalita, compito abbastanza semplice grazie alla relativa loro continuita, ribaditain maniera sintetica pressoche in qualsiasi opera anche a carattere spiccatamente tecnico, nonche enucleatain alcuni saggi di tono piu filosofico [Chomsky, 1966, Chomsky, 1968, Chomsky, 1986b].

L’elemento centrale e indubbiamente piu innovativo, soprattutto quarant’anni fa, e stato la focalizza-zione sull’uomo in quanto essere dotato di linguaggio, sulla sua mente perche compendia la facolta dellinguaggio, ed e proprio all’indagine su questa facolta che e rivolta l’impresa della grammatica matema-tizzata. E il radicale capovolgimento dell’antimentalismo fregeano, da realizzarsi comunque all’interno diun quadro di formale rigore scientifico, ed e certamente appropriata la comune considerazione di Chomskycome uno dei primi scienziati cognitivi, se non il primo.

Questo aspetto cruciale si articola poi in diverse importanti assunzioni, che si e cercato qui di sintetizzarein pochi punti, che verranno successivamente discussi:

1. la prevalenza della sintassi

2. la sua autonomia

60CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

3. il suo carattere innato

4. il suo carattere universale

5. l’esistenza di un organo biologico, motore della sintassi

La capacita dell’uomo di usare e comprendere il linguaggio risiederebbe nella sua abilita sintattica, dimanipolare e riconoscere strutture composte da parole. Con questo non viene escluso, sarebbe veramentetroppo controintuitivo, che il linguaggio comprenda anche altro, per esempio la semantica, il punto e che lasua essenza risiede nella sintassi, che pertanto deve essere l’oggetto primario della ricerca. E un altro cam-biamento di prospettiva formidabile rispetto alla logica e alla filosofia analitica, destinato inevitabilmente anon poche controversie. Pur essendo una di quelle posizioni di base costanti nell’evoluzione di Chomsky,nelle fasi piu mature si e attenuata l’impostazione estrema del Syntactic Structures, con certe concessionialla semantica, veicolate mediante una maggior attenzione al lessico.

Il secondo punto e un’ulteriore giustificazione del programma di ricerca: centrare lo studio sulla solasintassi e anzitutto doveroso, trattandosi dell’essenza del linguaggio, e inoltre metodologicamente correttoin virtu della sua indipendenza da ogni altro elemento, anzitutto la semantica. Difficile qui resistere allatentazione di citare, come gia in un numero transfinito di altri saggi, i celebri esempi:

colorless green ideas sleep furiously∗furiously sleep ideas green colorless3

[Chomsky, 1957, Cap. 2]

con cui indubbiamente si viene convinti che la grammaticalita e un concetto indipendente dall’essere do-tato di significato. Che questo dimostri anche l’indipendenza tra sintassi e semantica nell’uso e nellacomprensione del linguaggio non e sicuro, e se ne riparlera nella sezione §4.2.1.

Un’altra tesi forte e che la capacita sintattica non si acquisisce, e gia presente nell’uomo sin dallanascita. E anzitutto un’assunzione di principio, adottata fin dall’inizio e mantenuta ancora oggi, colle-gata al massimo a dimostrazioni di tipo teorico-matematico [Gold, 1967, Baker and McCarthy, 1981] didubbia validita cognitiva [Elman, 1993]. Successivamente tuttavia, diversi esponenti della scuola genera-tiva hanno ritenuto opportuno confrontarla con evidenze sperimentali, di psicologia dello sviluppo, e nee emersa una serie di risultati sufficientemente coerenti [Wexler and Culicover, 1980, Roca, 1990] da in-durre una piu compiuta elaborazione del principio. Lo stesso Chomsky ne contribuı, con l’idea del LAD(Language Acquisition Device), una sorta di dispositivo atto allo scopo, utile per schematizzare moda-lita e fasi dell’inserimento delle conoscenze linguistiche apprese dal bambino nel suo motore sintatticoinnato [Chomsky, 1964, Chomsky, 1968]. Recentemente inoltre alcuni hanno visto nell’innatismo del-la sintassi una chiave di lettura di maggior portata sul funzionamento complessivo della mente umana[Jackendoff, 1994a, Pinker, 1994], popolarizzando ulteriormente queste posizioni.

Il quarto punto all’elenco e un po un corollario di quello precedente, perche una semplice obiezioneall’innatismo potrebbe scaturire osservando come la diversificazione delle lingue non avvenga certo perfamiliarita, ma per eventi contingenti successivi alla nascita, per cui i figli di un cinese nati, per esempio,in Finlandia, impareranno e parleranno il finlandese. La grammatica nella sua accezione matematica, chedescrive il funzionamento della facolta umana, deve essere quindi indipendente dalle singole lingue, edesprimere una capacita sintattica “universale”. Naturalmente ci si espone cosı ad un problema non da poco:questa base matematizzata comune deve poter dar conto dell’esplicazione di tutte le diverse lingue umane.Questa esigenza improntera fortemente le direzioni di ricerca piu mature della scuola, e i suoi risultati cheverranno descritti nella sezione successiva.

Uno degli aspetti piu singolari della posizione di Chomsky e il contrasto tra un approccio formale, in cuila matematica assume il ruolo di sistema di descrizione di meccanismi astratti, e la ferma convinzione chel’apparato sintattico cosı concepito non sia soltanto la facolta di una mente “cartesiana”, ma debba trovareuna sua definita collocazione fisica nel corpo umano. Questo stretto aggancio con il lato materiale dell’uo-mo e ricordato nelle pagine introduttive di quasi tutte le opere di Chomsky, al punto che talvolta la sua edenominata “teoria biologica del linguaggio” [Lightfoot, 1982]. Il paradosso e che la scuola generativa ha

3idee verdi senza colore dormono furiosamente∗senza colore dormono verdi furiosamente ideecon ordine variato rispetto all’originale, conformemente alla grammaticalita dell’italiano.

Le Matematiche del Linguaggio 61

sempre manifestato la piu totale indifferenza nei confronti delle scoperte biologiche relative alle funzioni co-gnitive umane. Il tipo di simbiosi scientifica che pare proposta e una divisione di compiti piuttosto definita:indagare sul corpo umano e preciso compito dei biologi, mentre i linguisti possono dalla loro garantire chequesto apparato sintattico esiste, funziona in un certo modo, dunque i primi si diano da fare a cercarlo. Lageneralizzazione e naturalmente poco seria, esistono invero alcuni esponenti anche all’interno della scuolagenerativista che hanno attenzione ai risultati biologici, esemplare e Ray Jackendoff, che riesce a conciliaredati neuroscientifici con una parte consistente dell’apparato teorico chomskiano [Jackendoff, 1994b]. Di-verso e il caso di George Lakoff, per il quale l’incontro e l’approfondimento delle tematiche neuronali hacomportato il traghettamento dalle sue iniziali posizioni generativiste alla sponda diametralmente opposta,con argomentazioni che verranno ampiamente trattate in §4.2.1.

L’atteggiamento dominante della scuola e comunque quello delineato prima, dove il disinteresse versol’approfondimento della realta biologica umana si combina con le posizioni di principio prima elencate,per cui per esempio l’autonomia della sintassi e il suo carattere innato si traducono nel supporre una nettamodularita del suo correlato biologico e quindi si parla disinvoltamente di un “organo” del linguaggio,materialmente esistente, alla stessa stregua di, appunto, un polmone.

3.1.4 Meno matematica e piu principi

Le pressanti istanze teoriche che l’impresa chomskiana ambiva esaudire, e il difficile equilibrio tra gram-matica generativa e trasfomazionale, accennato in §3.1.2, hanno condotto a un progressivo cambiamentodi rotta della ricerca. Si ritiene che il mutamento piu vistoso sia il graduale abbandono di una fondazionematematica rigorosa, a favore di una serie di prescrizioni informali riguardo ai meccanismi generali dellagrammatica, il cui statuto e preservato essenzialmente dall’etichettatura di “principi”.

Non e certo la morte della teoria generativa, che anzi si sviluppera e vivra di vita propria confluendocostruttivamente in tanti ambiti diversi da quello linguistico, come nell’informatica, di cui si parlera ampia-mente in §3.2.2, ma il suo padre continuera a professare un unico interesse, verso il linguaggio umano, conpoco riguardo agli usi collaterali della sua prima teoria.

Nell’evoluzione della ricerca di Chomsky, la comprensione della sua complessa dinamica e in partefacilitata da certe denominazioni attribuite alle sue fasi principali, non sempre con il suo esplicito aval-lo e che, per l’abitudine gia menzionata, non potevano non diventare altrettanti acronimi. La parte giadelineata in §3.1.2, fino al Aspects of the Theory of Syntax [Chomsky, 1965], e la cosiddetta ST (Stan-dard Theory). Certe riflessioni sui rapporti con la semantica e sull’istanziazione mentale dell’apparatosintattico [Chomsky, 1972], hanno condotto alla EST (Extended Standard Theory). La concentrazionesu due aspetti specifici del linguaggio che danno il nome all’opera Lectures in Government and Binding[Chomsky, 1981] ha fatto circolare la G&B, che nonostante la discreta diffusione e ricusata dal suo titolare,a cui e piaciuta invece la successiva P&P, sigla esplicitata dal saggio The Theory of Principles and Parame-ters [Chomsky and Lasnik, 1993], in cui la differenza piu sostanziale rispetto al G&B sono gli avanzamentiesposti in Barriers [Chomsky, 1986a].

In questa sezione si cerchera di dare una sintesi della P&P, mostrando diversi “principi” e qualche“parametro”, dopo aver introdotto il modello cognitivo che viene attribuito al linguaggio, e uno sguardo acosa rimane dalle ceneri della grammatica generativa.

Come appena visto, la prima esigenza teorica e di rispecchiare il funzionamento del linguaggio nell’uo-mo, e per questo e stato anzitutto proposto un modello di base, illustrato nella Fig. 3.2, che e il fondamentodella EST. Il lessico e la partenza, e anche l’unico aggancio con la semantica, da qui provengono gli elemen-ti (una volta detti “terminali”) manipolati da quello che e abitualmente definito il “sistema computazionalesintattico”, che crea la D-structure, dove la D sta per deep. La differenza con quella superficiale, la S-structure, e sostanzialmente lo spostamento degli elementi nel caso di costruzioni non dirette, ovvero, nellaterminologia delle precedenti teorie, il risultato della grammatica trasformazionale. Questa si interfacciacon la LF, che sarebbe il contenuto concettuale dell’enunciato, e con la PF, la sua espressione fonetica. Nel-la Standard Theory esisteva gia qualcosa del genere, la differenza principale era che la LF si interfacciavadirettamente con la D-structure. Le SD (Structural Descriptions) sono ora definite come:

SDdef= 〈π, λ, δ, σ〉 (3.15)

62CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

d−structure

s−structure

logical formphonetic form

PF LF

lexicon

Figura 3.2: Il modello del linguaggio nella Extended Standard Theory.

i cui elementi sono:π rappresentazione esterna PFλ rappresentazione esterna LFδ rappresentazione interna Dσ rappresentazione interna S

(3.16)

ma dietro alla seriosita dei simboli greci non c’e molta matematica, si tratta ne piu ne meno dei quattrocomponenti derivati dal motore sintattico della Fig. 3.2, con le iniziali rese appunto in greco, il formatoreale puo essere sempre quello che fa uso degli alberi sintattici, su PF non c’e stato molto dopo la ST[Chomsky and Halle, 1968], e LF e sempre rimasto piuttosto misterioso. D’altronde non essere impegna-ti ad un reale riscontro con la biologia permette comprensibilmente un’ampia liberta di scelta in questomodello.

Questa ripartizione D-structure/S-structure piacque comprensibilmente molto a Jerry Fodor, che la as-sunse come fondamentale nella spiegazione della comprensione delle frasi nell’uomo [Fodor et al., 1974],sempre per pura via teorica e senza suffragio di specifiche evidenze (che, come si vedra in §4.2.2, non sa-rebbero mai arrivate). Ben piu compromettente e invece la necessita di mostrare come funziona il “sistemacomputazionale”, quando pur essendo universale, deve riuscire a riprodurre tutte le particolarita dei diversilinguaggi reali, o quantomeno una loro parte significativa, la cosiddetta core grammar. La tensione tra rego-le di produzione e parte trasformazionale diventava inaccettabile una volta usciti dal limite dei pochi esempiin inglese, per ambire a tali traguardi. Una soluzione fu trovata guardando piu indietro delle grammatichegenerative, ad alcuni spunti di Zellig Harris, che fu maestro di Chomsky e uno dei primi ad usare metodimatematici di tipo generativo, ma orientati all’analisi di testi, senza alcuna pretesa teorica [Harris, 1951]. Sitratta della teoria X-bar, che sostituisce radicalmente le regole di produzione, tramite delle strutture astrattecomuni a tutte le categorie grammaticali: nomi, verbi, aggettivi, preposizioni e altro. Una generica di que-ste categorie e simboleggiata con la lettera X , ecco spiegata meta del nome della teoria, sull’altra meta sitornera presto.

In linea del tutto generale nel sistema X le strutture sono la realizzazione di un ristretto insieme diregole di produzione:

Xn =⇒ Z Xn−1

Xm =⇒ Xm YX1 =⇒ X0 WX0 =⇒ h

(3.17)

Da notare la seconda delle regole di produzione, che rende il sistema ricorsivo, il significato di questoattributo e le sue ripercussioni saranno trattate ampiamente in 3.2.3. Nel contesto della P&P, sono utilizzatisolo esponenti fino a 2, per cui l’insieme delle regole e:

X2 =⇒ Z X1

X1 =⇒ X1 YX1 =⇒ X0 WX0 =⇒ h

(3.18)

Le Matematiche del Linguaggio 63

X2 XP categorial phrase maximal projectionX1 X non-maximal projectionX0 X category non-projectedh lexical entry headZ Spec specifierY Adj adjunctW Compl complement

Tabella 3.4: Gli elementi che compaiono nelle strutture X − bar. Nella prima colonna da sinistra sono riportati isimboli che compaiono nelle regole (3.18), nella seconda i simboli utilizzati in pratica, la terza colonna indica la loronatura nei termini della grammatica generativa classica, l’ultima colonna a destra elenca le denominazioni nella nuovateoria.

dove h e l’elemento terminale, parte del lessico. Visto che gli esponenti sono fissi, nella pratica non vengonousati, e sono invece introdotti altri simboli ed abbreviazioni4, come mostrato nella Tab. 3.4 che svela anchela seconda parte del nome della teoria, dall’uso della barra sopra al simbolo non terminale ricorsivo, lacosiddetta non-maximal projection. La Fig. 3.3 mostra il tipico sviluppo derivante dalle regole (3.13),notare che i simboli Spec, Adj e Compl non sono nuove categorie grammaticali, ma semplicemente delleindicazioni funzionali all’interno della struttura X-bar, le cui posizioni saranno occupate dalle opportunecategorie grammaticali.

XP

Spec X

X

X

h

Compl

Adj

Figura 3.3: L’albero generico proiettato da h nel modello X-bar.

Vi sono diversi vantaggi derivanti dall’adozione di questa strategia. Un primo e di tipo matematico:la (3.18) permette lo sviluppo di qualunque costrutto sintagmatico in forma CNF, essendo costituita tuttada regole del tipo (3.13) e (3.14), quindi l’albero risultante sara sempre binario. Un secondo, di grandeimportanza teorica, e che tutta la faccenda ora prende il suo avvio dal lessico: e la head che determina lesue “proiezioni”, ovvero la struttura che si diparte da essa verso l’alto. Chomsky esprime questo fatto conla definizione di regole “endocentriche”, la sostanza e che qui si fa entrare nella grammatica un pezzo disemantica, anche se dalla porta di servizio. Infine la mossa piu forte: le regole di riscrittura (3.18), dopoaverle mostrate, possono tranquillamente essere riposte nel cassetto, non servono piu. Quello che containfatti, sono semplicemente le strutture che si proiettano dalle head, la cui forma generale e indipendentedalla categoria grammaticale, mentre la presenza dei diversi elementi e dettata dalle sue proprieta lessicali.

Il primo “principio” legato alla teoria X-bar e il PP (Projection Principle), che afferma piu o menoquanto detto, ovvero e l’elemento lessicale che “proietta”, fissa, la struttura con gli elementi che obbligato-riamente e opzionalmente sono legati a lui in determinati ruoli. Siccome si parla di grammatica universale, iprincipi sono validi indipendentemente dalla specifica lingua, mentre i “parametri” specificano cosa bisognaaggiustare perche il tutto funzioni su una specifica lingua. Per parametrizzare la X-bar e sufficiente stabilirese la head preceda o segua il suo complemento, il primo caso e quello illustrato finora, e riguarda linguecome italiano, inglese, francese, dette pertanto head-initial. Il secondo caso e quello del giapponense, doveeffettivamente in tutte le categorie la head segue il suo complemento, le regole sono sempre del tipo (3.18),ma con l’ordine invertito.

E il momento di vedere nella pratica come funziona, cominciando da un NP, sintagma nominale:

4Notare l’anomalia matematica per cui X0 = X ...

64CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

NP

SpecD

the

N

N

N

memory

ComplPP

“of that evening”

AdjPP

“which is still alive”

Figura 3.4: Esempio di proiezione dalla head memory di una struttura X-bar in cui X e N .

the memory of that evening which is still alive5

L’albero generato e in Fig. 3.4, dove si e usata la convenzione di includere tra doppi apici parti della frasenon risolte fino alle foglie, perche inessenziali ai fini dell’analisi. Si sono inoltre aggiunti ai simboli dellecategorie grammaticali anche quelli dei termini X-bar per comodita. L’elemento Compl e quello legatoin modo piu forte alla head, e nel caso di memory e cio di cui ci si ricorda, che raramente puo mancare,l’elemento Adj e invece piu spesso opzionale, come in questo caso. Lo Spec per questa proiezione e ildeterminante, in questo caso l’articolo the.

Qualcuno potrebbe chiedersi cosa sia Spec nel caso di un VP, la risposta a prima vista e sorprendente...il soggetto! Se equiparare il ruolo dell’articolo per il nome a quello del soggetto per il verbo non e la cosapiu intuitiva di questo mondo, il vantaggio di questa mossa e subdolo ma notevole: ci si e definitivamentesbarazzati anche del fatidico elemento S, assioma della grammatica generativa. Adesso infatti una frasecompleta puo avere il suo albero come proiezione del verbo, vediamo per esempio:

the dog chases a cat in the garden6

il cui albero e in Fig. 3.5. Si tratta inoltre di uno Spec di tutto rispetto, qui si incontra infatti un secondo

VP

SpecNP

“the dog”V

V

V

chases

ComplNP

“a cat”

AdjPP

“in the garden”

Figura 3.5: Esempio di proiezione dalla head chases di una struttura X-bar in cui X e V .

“principio”, il EPP (Extended Projection Principle), che sancisce l’obbligatorieta di Spec per una strutturaX-bar con X = V . Qualcuno potrebbe ricordarsi che in italiano esistono le frasi ellittiche, ma i principisono principi, il soggetto ci dev’essere, anche se non si vede. Comincia cosı l’introduzione di elementi“trasparenti”, che occupano posti negli alberi a livello di D-structure e S-structure, anche se poi svanirannonell’interfaccia PF. L’elemento in questione, il soggetto invisibile, ha come simbolo pro.

Il compiacimento per l’universalita del modello X-bar, capace di valere indistintamente per le varie cate-gorie grammaticali, ha causato un successivo proliferare di categorie, tramite cui potersi servire dello stesso

5il ricordo di quella serata che e ancora vivo6il cane rincorre il gatto nel giardino

Le Matematiche del Linguaggio 65

IP

SpecNP

“the cat”I

I

has

ComplVP

Spect

V

V

V

chased

ComplNP

“a mouse”

AdjPP

“out of the larder”

Figura 3.6: Esempio di proiezione dalla head chase di una struttura X-bar in cui X e I .

approccio per diversi altri fenomeni. E vero che le categorie rimanogno quelle, ma e pur sempre possibileoperare lo stesso stratagemma degli elementi trasparenti: inventare categorie fittizie, non piu grammaticalima funzionali. Una e la I , da Inflection, che assume il ruolo principale, e ha come complemento obbligato-rio V P , il cui soggetto viene sollevato alla posizione Spec di IP , e questo sintagma quindi ad ereditare ilprincipio EPP. Illustriamo anche questo costrutto con un semplice esempio, la frase:

the cat has chased a mouse out of the larder7

il cui albero e in Fig. 3.6, dove si puo ammirare un altro elemento fittizio: la traccia t lasciata dal soggettonella sua originaria posizione di Spec rispetto a V P . Non e che l’inizio, si e presto passati a diversificarele categorie della coniugazione temporale T e di numero, ulteriormente suddivisa tra concordanza con ilsoggetto AgrS e con l’oggetto AgrO. Nella Fig. 3.7 e illustrato lo schema complessivo che ne risulta.Notare che per convenzione si scrive IP = AgrS , e che siccome la diatriba su chi dovesse dominare traTP e AgrP era diventata appassionata [Pollock, 1989, Belletti, 1990], la disposizione relativa di AgrS eAgrO e la salomonica soluzione. Un’altra struttura, l’ultima presentata qui, e dedicata alle frasi subordinate,

IP

Spec AgrS

AgrS TP

T AgrOP

Spec AgrO

AgrO VP

Figura 3.7: Schema di albero di una struttura IP completa di categorie inflessionali.

a cui viene attribuita la generica categoria C (Complementizer), con il suo sintagma CP che ovviamentesegue la X-bar, come illustrato in Fig. 3.8.

7il gatto ha fatto scappare il topo dalla dispensa

66CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

CP

Spec C

C

C

ComplIP

Figura 3.8: Albero tipo di una generica struttura CP .

Tornando alla Fig. 3.6, si nota come la derivazione dell’elemento inflessionale sia incompleta, in quantola head di I contiene solamente l’ausiliare, manca il suffisso -ed, il problema e che questo si troverebbenella posizione sbagliata. Ricordiamo che nell’albero di una SD occorre essere in grado di leggere lafrase dalle foglie nell’ordine da sinistra a destra. Dietro l’angolo vige inoltre un altro “principio”, il FI(Full Interpretation), che vieta di sbarazzarsi di elementi morfofonologici solamente perche non si riescea collocarli nella SD, insomma “metti tutto e al posto giusto”, e questa la difficile eredita della vecchiagrammatica trasfomazionale.

Al suo posto anzitutto non poteva mancare un “principio”. E il move-α che decreta:

tutto si puo spostare dappertutto

che sembrerebbe avallare la riscrittura dello stesso principio come:

dappertutto si tutto puo spostare

non particolarmente intelligibile, certamente no, va letto alla stregua di una costituzione liberale, chepermette tutto al cittadino, salvo cio che violi le altre leggi. Il codice da rispettare e qui codificato innumerosi articoli che vietano movimenti, quali quelli attuati piu sopra nella riscrittura del principio move-α.

Questo caso e esemplare dell’allontanamento da una prospettiva veramente matematica, dove questo“principio” sarebbe privo di senso e di nessuna applicabilita. Prescindendo da un giudizio sull’effettiva mo-tivazione di queste accezioni di “principio”, la teoria del movimento in P&P si articola in diverse sofisticateanalisi di costrutti che coinvolgono spostamenti delle parole, messi in relazione con certe caratteristichesemantico-grammaticali degli elementi lessicali. I risultati sono di tutto rispetto, tenendo conto di quantocomplessi ed elusivi siano questi fenomeni linguistici. Qui ci si limitera a darne un saggio su due casi rela-tivamente semplici, occorre prima introdurre ulteriori dettagli sulla trattazione delle caratteristiche lessicali,su cui si era sorvolato nella precedente esposizione della teoria X-bar. Ogni head, nel proiettare la strutturache la contraddistingue, pone delle specifiche ulteriori ai vari elementi dell’albero, i cosiddetti θ-role, chesarebbero certe classi di “ruoli” svolti dalle parole che abitualmente completano la head. E un concettoimparentato con la teoria dei casi [Fillmore, 1968], dove pero viene fuso l’aspetto semantico e quello gram-maticale, qui invece mantenuto indipendente. In Fig. 3.9 sono indicati a titolo di esempio i θ-role associati

−roleθ

give <someone> <something> <to somebody>

complementisoggettogrammaticalifunzioni

agent theme recipient

Figura 3.9: Esempio dei θ-role associati al verbo give, il riquadro piu basso indica le corrispondenze con le funzionigrammaticali.

ad un verbo. Questo concetto permette una classificazione delle diverse posizioni negli alberi X-bar:

θ-position posizione occupata da un elemento con qualche θ-roleA-position una potenziale θ-position, eventualmente non occupataA-position posizione non-A

La Fig. 3.10 fa vedere dove tipicamente si collocano queste diverse classi di posizioni, quelle in altoa sinistra e al centro sono certificate θ-position, in quanto occupate dal soggetto (la prima) e da qualchecomplemento (la seconda). Nel caso in alto a destra la posizione e invece solamente una A-position, perche

Le Matematiche del Linguaggio 67

V V

C

X

X

ICP

Spec Adj VPI

VP IP

Spece

V NPNP

V

A−positions

A−positions−positionsθ

Figura 3.10: Esempi delle classi di posizioni possibili in varie configurazioni X-bar.

potenzialmente riservata dal soggetto, ma non e una θ-position essendo attualmente occupata dal terminefittizio e. In basso sono tutte posizioni di tipo A-position, per esempio a sinistra c’e l’elemento Spec,che e una A-position non essendo per C una posizione che rivesta alcun θ-role. E sulla base di questaclassificazione che sono state individuate alcune regole per classi di movimento.

Movimento di NP

E quello che si verifica tipicamente nelle forme passive. La D-structure, che e sensibile solamente alsignificato logico della frase, non puo risultare differenziata dalla forma attiva o passiva, la diversificazione,che caratterizza il “tono” fregeano dalla frase, avviene a livello dalla S-structure, pertanto il movimentoavviene tra queste due rappresentazioni. La topologia delle posizioni nell’albero sintattico consente dienunciare una semplice regola: i movimenti sono concessi solamente da posizioni θ-position assegnate aquelle non assegnate, srcritta in modo piu matematico:

NP : θ-position =⇒ A-position¬θ-position (3.19)

dove la freccia verso destra non deve far confondere con le regole di produzione della grammatica, questanon lo e. Si puo provare in azione la (3.19) sulla frase:

Mary has been rewarded8

il cui movimento e illustrato nella Fig. 3.11. Si puo vedere che l’elemento Mary nella D-structure oc-cupa una θ-position, all’interno di un classico albero IP , in cui l’elemento Spec e nello stato A-positionnon-θ-position, e quindi nel passaggio alla S-structure puo prendere il posto prescritto dalla regola (3.19),lasciando una sua traccia t, questo elemento fittizio gia incontrato precedentemente.

Movimento in wh-phrase

Si tratta di certe espressioni inglesi che hanno sempre messo a dura prova la fantasia e l’ingegno dei lin-guisti generativi. Naturalmente sono introdotte da termini wh... quali who, what, ma non solo, peresempio anche how rientra nella famiglia dei wh-, anche se le sue w e h non sono proprio in quell’ordine. Ilmovimento entra in gioco quando tali elementi danno luogo a interrogative dirette o indirette.

In questo caso funziona la seguente regola:

NP : θ-position=⇒A-positionAux I =⇒C

(3.20)

per la cui sperimentazione e pronta la frase:

what did you see9

8Maria e stata premiata9che cosa hai visto

68CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

I

I

IP

VP

V

rewarded

has been

NP

I

I

IP

VP

V

Spece

rewarded

has been

NP

Mary

Mary

t

D−structure S−structure

−positionθ

A−position

Figura 3.11: Esempio di movimento di NP in un costrutto passivo.

che comporta un doppio movimento, illustrato nella Fig. 3.12. Il termine what nella D-structure occupauna inequivocabile θ-position in qualita di recipiente (paziente) della head see, mentre in alto, sotto allaproiezione massime CP attende una A-position, l’elemento Spec che non puo avere nessun ruolo θ. Tuttoe perfettamente in regola quindi per applicare la prima delle (3.20), con l’elevazione di what nella S-structure. Anche l’ausiliare did e pienamente autorizzato a godersi le liberta del move-α, dato che nellaD-structure e la head del sintagma inflessionale, in presenza di un posto tutto vuoto nella head C, propriocome prescrive la seconda delle (3.20).

I VP

V

see

NP

C

C

CP

I

IP

1

did

2

2

I VP

V

see

did

NP

C

C

CP

Spece

I

IP

NP

you

NP

you

A−position

what

what

D−structure S−structure

t

t

−positionθ

1

Figura 3.12: Esempio dei movimenti in una wh-phrase.

La regola (3.20) non esaurisce tutti i casi wh-, vi sono altri codicilli a frenare la liberta di movimento,come quello siglato DFCF (Double Filled Comp Filter), che vieta il movimento di NP nello Spec di CPquando C sia gia occupato, per esempio sono illegali costrutti del tipo di Fig. 3.13.

Entrano in gioco la G e la B

Vi sono poi diversi altri fenomeni di movimento che non possono piu essere regolati facendo solamentericorso ai ruoli θ, ma hanno richiesto la formalizzazione di ulteriori caratteristiche grammaticali da cuidipendono. Si tratta soprattutto dell’iniziale dell’acronimo G&B, quello citato in inizio di sezione che aChomsky non piace venga divulgato come una teoria. Nel rispetto della sua volonta, le si denomina “moduli

Le Matematiche del Linguaggio 69

C

C

CP

IP

NP

who

that

Figura 3.13: Caso proibito dal vincolo DFCF.

del linguaggio”: sono i moduli del government e del binding, di cui qui si vuol dare solamente menzione,senza nessun dettaglio tecnico. Il primo e una continuazione del tradizionale concetto grammaticale direggenza, ma assume una definizione in termini puramente strutturali, indipendenti dal particolare elementolessicale. Il government e una relazione tra due termini nell’albero sintattico, che evitiamo di riportare inquanto richiede ulteriori concetti (barrier), ma la caratteristica essenziale e di sussistere o meno in basesoltanto alle relative posizioni dei due elementi e di altri prossimi, e di essere definibile in modo abbastanzapreciso. Una delle funzioni del government e di fornire, cosı come visto per i ruoli θ, un ulteriore criterio perlimitare la sfrenata voglia di movimento degli elementi. Ecco quindi altri nuovi “principi”, con immancabilirelativi acronimi, quali il HMC (Head Movement Constraint). Cio non esaurisce l’uso di questo modulo,che permette di stabilire in generale diversi criteri di grammaticalita, come nel caso delle espressioni co-referenziali, quelle in cui compaiono anafore, pronomi riflessivi o sintagmi nominali referenziali; il dominioche complessivamente rientra sotto il secondo modulo del G&B: il binding. Anche qui si tenta di spiegareil funzionamento grammaticale con l’esclusivo ricorso ad una relazione, detta appunto binding, definibilein maniera pressoche univoca sulla base delle disposizioni relative degli elementi nell’albero sintattico.

3.1.5 La parsimonia di matematica si fa principio

Se i “principi” e i “parametri” hanno segnato il progressivo allontanamento da una iniziale velleita didescrivere per intero la sintassi mediante un formalismo matematico, nella fase attuale della linguisticachomskiana, riconducibile agli scritti [Chomsky, 1991, Chomsky, 1993] ma soprattutto a [Chomsky, 1995],viene proprio assunto a principio generale l’astenersi da un eccesso di formalizzazione, in particolare dallaproliferazione di regole nel tentativo di irregimentare matematicamente fenomeni lingustici.

E una delle caratteristiche di quello chiamato, da Chomsky stesso, il “programma minimalista”. Se daun lato esisteva certamente l’esigenza di dare un freno alla crescita indefinita in complessita delle regoletrasformazionali, da alcuni paragonate a dinosauri in via di estinzione [MacWhinney, 1994], dall’altro lemotivazioni del minimalismo appaiono ben piu profonde, e con nuovi sentori di matematica. La parolachiave e “ottimizzazione”, che entra in due aspetti diversi del linguaggio:

• la ridotta ridondanza nelle sue espressioni;

• il minimo impegno di calcolo per produrre tali espressioni.

Citando Chomsky:

A working hypothesis [... is] that the language faculty is nonredundant, in that particular phenomena arenot “overdetermined” by principles of language. [...] An other recurrent theme has been the role of the“principles of economy” in determining the computations and the SDs they generate. [...] The linguisticespressions are the optimal realizations of the inteface cognitions, where “optimality” is determined bythe economy conditions of UG10.

[Chomsky, 1993, §1]

10Un’ipotesi di lavoro [.. e] che la facolta del linguaggio non sia ridondante, ossia i fenomeni particolari non sono suvradeterminatidai principi del linguaggio. [...] Un altro tema ricorrente e stato il ruolo del “principio di economia” nel determinare i calcoli e le SDgenerate. [...] Le espressioni linguistiche sono realizzazioni ottime delle interfacce, dove l’ottimalita e determinata dalle condizioni dieconomia della UG.

70CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

logical formphonetic form

PF LF

numeration

computational systemselect merge move

A−P interf. C−I interf.

spell−out

Figura 3.14: Il modello del linguaggio rivisto e corretto nella teoria minimalista.

E piu precisamente:

It seems that a linguistic expression of L cannot be defined just as a pair (π, λ) formed by a convergentderivation. Rather, its derivation must be optimal, satisfying certain natural economy conditions: localityof movement, no “superflous steps” in derivations, and so on 11.

[Chomsky, 1995, p. 220]

Se si tiene presente che l’ambizione di descrivere un dispositivo linguistico coincidente con quello bio-logico umano non e certo venuta meno nel minimalismo, non si puo non considerare quanto oggi vengaricondotto a principi di ottimizzazione in biologia: meccanismi genetici, evolutivi, ontogenetici, etc. .L’ottimizzazione e un vasto consolidato settore della matematica [Wilde and Beightler, 1967], in cui pro-blematiche discrete quali il linguaggio si collocano tipicamente nell’ambito piu specifico, ma sempre dinotevole tradizione, dell’ottimizzazione combinatoria [Papadimitriou and Steiglitz, 1982].

Occorre subito dire che non c’e traccia di un tentativo di collegare un fondamento del linguaggio sul-l’ottimizzazione alle opportune strumentazioni matematiche per impostare in questo senso il problema,rimane piu che altro un’intuizione messa in campo per motivare il minimalismo. Tuttavia vi sono momen-ti, all’interno di questa nuova proposta teorica, in cui traspaiono le simpatie verso l’accezione matematicadi ottimizzazione, per esempio quando si parla di un nuovo “principio”, denominato Greed, chiaramenteispirato dalla tecnica algoritmica greedy12, la piu semplice e comune in ottimizzazione combinatoria. Lasua edonistica denominazione e relativamente recente [Edmonds, 1971], anche se si fonda su una teoria,quella dei matroidi, gia nota da tempo [Whitney, 1935]. La tecnica greedy consiste nel realizzare ad ognipasso di un algoritmo computazionale la mossa che momentaneamente risulta ottimale, il Greed piu li-mitatamente stabilisce che, nel processare un determinato elemento, sono consentite solamente mosse cherisolvano quell’elemento, escludendo ogni mossa che produca invece beneficio ad altri elementi. Oltre aquesta differenza di specificita, nell’accezione algoritmica vengono presi in considerazione requisiti precisiper la sua applicabilita: un sistema e suscettibile di un processo greedy nel caso sia caratterizzato da unasottostruttura ottima, vale a dire che la soluzione ottima del problema generale contenga soluzioni ottimeanche a qualunque livello locale, e quantomeno dubbio che sia cosı nel caso del linguaggio.

Prima di vedere quel poco di matematico che e rimasto nel minimalismo, si illustra ora, in Fig. 3.14,l’aspetto nuovo che ha assunto il modello del linguaggio, che precedentemente aveva la forma schematizzatain Fig. 3.2. Dal confronto delle due figure si possono notare subito le prime vittime eccellenti del principiodi parsimonia: i livelli D-structure e S-structure. Di conseguenza anche le SD (Structural Descriptions),

11Pare che un’espressione linguistica di L non possa essere definita semplicemente come la coppia (π, λ) formata da una derivazioneopportuna. Tale derivazione deve essere proprio quella ottima, sotto determinate condizioni di economia naturale: la localita delmovimento, nessun “passo superfluo” nelle derivazioni, e cos ı via.

12Letteralmente “ingordo”.

Le Matematiche del Linguaggio 71

{ < l , n >2

< l , 1 >1

< l , n >,1 , ... }1 2

select

merge

move

Figura 3.15: Schema di funzionamento ricorsivo del sistema computazionale CHL della teoria minimalista.

definite precedentemente dalla (3.15), dopo la cura dimagrante diventano:

SDdef= 〈π, λ〉 (3.21)

Esiste ora un esplicito sistema computazionale, in sigla CHL (si confessa di non essere riusciti, nonostantediverse ricerche, a ricostruire l’origine di questo acronimo), produttore di tutte le derivazioni del linguaggio,biologicamente isolato, ad eccezione delle due interfacce A-P (Articulatory-Perceptual) e C-I (Conceptual-Intentional). La UG, quella uguale per tutti gli uomini, funziona proprio nel CHL, che quindi non dovrebbeessere affetto da tutte le magagne dei linguaggi e dialetti del mondo, tali idiosincrasie si verificheranno daun lato all’uscita dell’interfaccia A-P, ed ecco a cosa serve il modulo Spell-Out, e dall’altro lato sarannoincorporate nei diversi lessici. A proposito, che fine ha fatto il lessico nella Fig. 3.14? Non e scomparso,naturalmente, e solamente inglobato in questo nuovo concetto che e la Numeration, il nome e decisamentefuorviante, in sostanza e l’input lessicale di volta in volta necessario alla derivazione di una frase. Si tornerasu questo componente, ma e il momento di vedere il funzionamento di questo sistema computazionale nelsuo insieme.

Si e cercato di schematizzarlo nella Fig. 3.15, a cui si fara riferimento in questa breve spiegazione. LaNumeration e matematicamente un insieme di coppie del tipo:

Ndef= {〈l1, n1〉 , 〈l1, n1〉 , . . .} (3.22)

dove li e uno degli elementi lessicali che deve entrare a far parte della derivazione linguistica, e ni esemplicemente il numero di volte in cui comparira. La prima operazione del CHL e la Select, che e anchela piu banale ed innocente: prende semplicemente un elemento, decrementa in N il suo contatore, e lopresenta al seguito del processamento singolarmente, ovvero con il contatore ad 1. Nella Fig. 3.15 ci si epermessi una licenza grafica, di rappresentare le entita sintattiche con la sagoma di alberi, una scorrettezzaveniale dato che anche Chomsky continua ad usare per comodita le rappresentazioni botaniche. Occorrepero avvertire: anche gli alberi sintattici sono caduti sotto l’accetta della parsimonia. Al loro posto vi sono

72CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

manthe

the

manthe

the

it

saw

saw

saw

it

saw

saw

merge

VP

SpecDP

the man

V

V

saw

NP

it

Figura 3.16: Esempio di operazione Merge nella teoria minimalista (a sinistra), confrontato con il modello X-bar (adestra).

degli oggetti piu asettici, tra cui entra a far parte il nuovo arrivato dell’operazione Select: sono gli SOSyntactic Objects, abitualmente indicati nelle formule con K, definiti come:

Kidef=

{

{lj} un elemento lessicale

{lk, {Kl,Km}} lk ∈ Kl ∪Km

(3.23)

Possono avere quindi due forme: la prima contenente solamente un elemento lessicale, che ricorda lo statutodi elemento terminale dei vecchi alberi, e la seconda come insieme di un elemento lessicale ed un altro in-sieme di due elementi. Questi ultimi devono essere oggetti sintattici, e diversi da quello che si sta definendo.L’elemento non contenuto nell’insieme, quello indicato nella (3.23) come lk, deve essere il corrispondentetermine lessicale di uno dei due oggetti dentro il sottoinsieme, ed e chiamato label, l’etichetta dell’oggettosintattico. In questa etichetta si conserva l’eredita, semplificata, del concetto di head nella teoria X-bar, checome si sara gia intuito rientra nel novero delle vittime.

La collezione degli oggetti sintattici costituisce una derivazione, indicata nelle formule con∑

, e ognipasso computazionale consiste in una evoluzione delle derivazioni:

∑(s)=

{

K(s)1 ,K

(s)2 , . . . ,K

(s)M

}

⇐=∑(s−1)

={

K(s−1)1 ,K

(s−1)2 , . . . ,K

(s−1)L

}

M =

L+ 1 Select

L Move

L− 1 Merge

(3.24)

dove con l’indice esponente s si e indicato il passo della computazione, il numero di oggetti sintatticiM si emodificato rispetto al precedente L in base all’operazione effettuata, finora si e descritta solamente la Select.Si e in presenza di una derivazione finale quando M = 1; si e detto “di una” anziche “della”, in quanto epossibile avere, per una stessa N , tante possibili

∑finali, per l’indeterminatezza sia della sequenza con cui

vengono prelevati gli elementi dalla numerazione, che dei risultati delle varie operazioni. La derivazionedefinitiva sarebbe quella tra le finali che risponde meglio ai criteri di ottimalita detti precedentemente.

Passando alle altre operazioni, nella Fig. 3.15 e schematizzata la Merge, che ha lo scopo di amalgamaredue elementi in un unico oggetto sintattico, ed e grosso modo la sostituzione delle vecchie regole generative.Si illustra ora quest’operazione con un semplice esempio, lo stesso impiegato da Chomsky:

the man saw it13.

13l’uomo l’ha visto

Le Matematiche del Linguaggio 73

Nella Fig. 3.16 a sinistra sono mostrati due oggetti sintattici che possiamo, con la nuova terminologia,definire cosı:

K1 = {the, {the,man}}

K2 = {saw, {saw,it}}

l’oggetto risultante e:K = {saw, {K1, K2}}

in cui la scelta dell’etichetta e il verbo saw, che come si puo confrontare nella tradizionale struttura X-bar,a destra nella figura, e proprio la head del sintagma. C’e un’importante differenza tra gli alberi e questinuovi oggetti sintattici: questi ultimi, essendo insiemi, presentano una indeterminatezza nell’ordine deicostituenti. Cio comporta dei vantaggi teorici: non c’e piu l’esigenza di dover distinguere per esempio tralinguaggi in cui la head e destra o sinistra, ma pone certamente problemi con l’abituale visione che abbiamodel linguaggio di una forma sequenziale rigida, o in senso temporale, o spaziale (per gli occidentali) dasinistra a destra. Secondo Chomsky l’ordine e una proprieta che investe il CHL, ma che compete solamenteal livello fonologico, un affare quindi del solo Spell-Out.

Rimane da vedere l’operazione Move, chiara erede del famigerato principio move-α e dei suoi svariatisottoprincipi di controllo. Rimane naturalmente la zona critica della teoria, anche se i vantaggi della curadimagrante ci sono, una volta scrollati i pesanti fardelli di Government, Binding, θ-role e altro. La formaessenziale della Move e:

K(s)i =

{

lj ,{

lo,K(s−1)i

}}

⇐= K(s−1)i =

{

lj ,{

K(s−1)m ,K(s−1)

n

}}

(3.25)

in cui un elemento lessicale lj e stato elevato al target K(s−1)i , sostituito dal nuovo oggetto K(s)

i . E stataconservata la stessa etichetta lj . Entro questo quadro, le strategie per realizzare i tipi di movimenti corri-spondenti ai fenomeni linguistici, sono espressi in termini di ottimizzazione, come il principio Greed di cuisi e gia parlato, o il MLC (Minimal Link Condition), che vieta di effettuare spostamenti in posti occupabili,qualora esistano altri posti disponibili per lo stesso spostamento, comportanti una minore distanza.

Non si vuole entrare qui in merito delle problematiche tecniche della teoria, che fra l’altro e ancorain una fase preliminare, si conclude invece con qualche osservazione sull’insieme di questo modello. Leperplessita di chi scrive riguardano soprattutto il modo con cui viene fatto partire tutto il processo, unavvio certamente critico, visto che, avendo fatto fuori tanti vecchi strumenti, molto del funzionamento eora affidato proprio alle caratteristiche degli elementi lessicali. I quali vengono inseriti, come visto, nellaNumeration, un tipo di struttura che si fa fatica a convincersi possa essere l’avvio del processo linguistico.Chomsky non e certo ignaro di queste perplessita, e risponde in questo modo:

Within the framework just outlined there is also no meaningful question as to why one numeration isformed rather than an other [...] That would be like asking that a theory of some formal operation onintegers - say, addition - explain why some integers are added togheter rather than others, or none. Orthat a theory of the mechanisms of vision or motor coordination explain why someone chooses to look ata sunset or reach for a banana14.

[Chomsky, 1995, p. 220]

Sono considerazioni senz’altro legittime, ma che eludono la vera questione: non tanto capire perche si usiuna numeration piuttosto che un’altra, bensı che sia proprio quella la modalita con cui un parlante utilizzail proprio lessico. Se qualcuno dice al barista:

no, non voglio un caffe, mi dia un te o un cappuccino

non si pretende certo che la teoria linguistica entri in merito dei gusti di questo persona, tuttavia risultaveramente poco intuitivo che, a seguito di tali gusti, il sistema linguistico biologico si trovi un input delformato:{〈caffe, 1〉 , 〈cappuccino, 1〉 , 〈dia, 1〉 , 〈te, 1〉 , 〈mi, 1〉 , 〈no, 1〉 , 〈o, 1〉 , 〈non, 1〉 , 〈un, 3〉 , 〈voglio, 1〉}

per poter esprimere al cameriere le proprie preferenze.

14All’interno di questo quadro concettuale non e nemmeno sensata la domanda su perche venga formata una certa numerazioneanziche un’altra [...] Sarebbe come pretendere che una certa teoria delle operazioni su interi – poniamo l’addizione – sappia spiegareperche vengono sommati alcuni interi anziche altri, o perche non ne venga sommato nessuno. Oppure che una teoria sui meccanismidi visione o sul coordinamento motorio sia in grado di spiegare perche uno guarda il tramonto o voglia prendere una banana.

74CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

3.2 Alan Turing e la macchina che non invecchia mai

Quello di cui si parlera nelle prossime pagine non e propriamente una matematica del linguaggio. E invecela matematica del computer. Ci sono motivi per darle un limitato spazio, le affinita non sono poche, ad-dirittura ad un certo punto sembrano diventare un tutt’uno, inoltre si verifichera che strada facendo questamatematica andra sempre piu stretta al computer, che preferira aderire a quella piu in voga per il linguaggio,ampiamente trattata nelle sezioni precedenti.

Ancora una volta e una matematica con paternita chiara e indiscussa, c’e un nuovo personaggio il cuinome sara sempre inscindibile dalle teorie che verranno illustrate, la cui vita e stata purtroppo segnata dauna tragica fine prematura, che ironicamente gli ha impedito di essere protagonista dell’era delle macchineda lui inventate.

3.2.1 Un computer immaginario

Alan Turing a soli 24 anni pubblica l’articolo On Computable Numbers with an application to the En-tscheidungsproblem [Turing, 1936], in cui viene descritta una macchina astratta, che altro non sara che ilprincipio di funzionamento di tutti i calcolatori a venire, e destinata a diventare famosa come appunto laTuring Machine. L’invenzione e tanto piu ammirevole se si tiene conto che nel 1936 di computer non cen’erano davvero in circolazione, solo alcuni anni piu tardi, durante la guerra, Turing si trovo coinvolto nellacostruzione di una macchina denominata Colossum, destinata alla decodifica dei messaggi criptati tedeschi.

E ben difficile che Turing intendesse lucidamente aprire una nuova era tecnologica con la sua idea,molto probabilmente mirava solo a cio che e dichiarato nel titolo: inventare un modo con cui affrontarel’Entscheidungsproblem. Parola sicuramente sconosciuta alla maggior parte degli odierni utilizzatori dicomputer, ma che per un matematico negli anni ’30 significava molto. Citando colui che pose sul tavolo laquestione:

Das Entscheidungsproblem ist gelost, wenn man ein Verfahren kennt, das bei einem vorgelegten logischenAusdruck durch endlich viele Operationen die Entscheidun uber die Allgemeingultigkeit bzw. Erfullbar-keit erlaubt. [...] Das Entscheidungsproblem muss als das Hauptproblem der mathematischen Logikbezeichnet werden15.

[Hilbert and Ackermann, 1928, p. 73]

Il problema dei problemi, al vertice anche nella graduatoria dei tre piu importanti che si incontreranno nuo-vamente in §4.1.1, a cui Turing arriva a dare risposta negativa con il suo computer immaginario, che luichiamo automatic machine, ma che poi prese il suo nome, ed ora si passera di illustrare. Essendo ancoraoggi il fondamento della scienza informatica, questo modello e stato descritto in tantissimi testi, in modi piuo meno rigorosi e con un proliferare di varianti che, pur risultando tra loro equivalenti, si sono allontanatedalla formulazione originale. Qui si utilizzera un miscuglio tra spiegazioni informali semplificate e defi-nizioni matematicamente precise, prediligendo le versioni e le terminologie correnti meglio comprensibili,ma segnalando le corrispondenze con il lavoro del ’36.

La Turing Machine, d’ora in poi TM, e caratterizzata da un numero finito di condizioni, oggi abitual-mente denominate “stati”, nell’originale “m-configurations” ma anche con premonitrice metafora “state ofmind”, e da un “nastro” suddiviso in elementi, “squares” nell’originale, dove possono essere letti o scrittidei simboli. Nell’articolo del ’36 si parlava esplicitamente di computing machines quando i simboli eranodi due tipi: “0” e “1” detti primari piu altri secondari usati internamente dalla macchina, solamente i simbolibinari erano suscettibili di interpretazione come dati. Era questa la versione in grado di computare numeri,rappresentati come cifre binarie. Piu tardi, con l’idillio tra formalismo e linguistica, i simboli saranno con-siderati elementi di un insieme finito che, per l’appunto, si chiama alfabeto. In ogni momento la TM si trovain un preciso stato e posizionata in una determinata casella, la combinazione di queste due condizioni, dettasemplicemente “configuaration” nell’originale, e tutto cio che serve a stabilire il passo successivo. Che puoconsistere solamente nelle seguenti mosse:

15L’Entscheidungsproblem e risolto quando si conosca un procedimento, in grado di decidere, con un numero finito di operazioni,la validita o meno di una espressione logica data. [...] L’Entscheidungsproblem deve essere segnalato come il problema principaledell’intera logica matematica.

Le Matematiche del Linguaggio 75

TM

stato | input nuovo stato | spostamento | output

..............

nastro di memoria

Figura 3.17: Schema della Turing Machine

• leggere il dato nella casella di memoria corrente

• scrivere un nuovo dato nella casella di memoria corrente

• spostarsi in avanti nel nastro

• spostarsi indietro nel nastro

• cambiare il suo stato interno

Nella Fig. 3.17 e visibile un semplice schema della TM, con l’essenza del suo funzionamento: dalla cop-pia stato-input viene deterministicamente fissato il suo comportamento (“behaviour anche in Turing), checonsiste nella terna nuovo stato/spostamento/output. Tutte e tre queste mosse possono essere opzionali: senon c’e un nuovo stato vuol dire che quello attuale e finale, di termine della computazione, la macchina puorimanere nella stessa casella, e puo non produrre output (Turing standardizza questo caso come scrivere lostesso simbolo letto). Devono essere fissati convenzionalmente uno stato iniziale e una casella iniziale, eil funzionamento complessivo della macchina va specificato in una tabella dove sono scritte le corrispon-denze tra configurazioni e comportamenti, che nella terminologia informatica corrente vengono dette le sue“istruzioni”.

Per dare subito un’idea pratica del funzionamento della TM vediamo l’implementazione dell’operazionelogica ∧, la congiunzione tra due operandi. La TM che realizza questa operazione e illustrata nella Tab. 3.5,nel nastro di memoria i possibili simboli sono vero/falso, con gli operandi nelle prime due caselle, ela terza, inizialmente vuota, usata per scrivere il risultato. La tabella ha le sue cinque colonne divise indue gruppi, le prime due colonne a sinistra, stato e input, costituiscono la configurazione, le ultime tresono il corrispondente comportamento della macchina. Lo stato iniziale e quello contrassegnato con “0”, ecomprende due diverse istruzioni, per tener conto che nella casella iniziale del nastro puo trovarsi il simbolo

⇓ vero/falsovero/falso vero/falso

STATO INPUTNUOVOSTATO

CASELLA OUTPUT

0 vero 1 ⇒ -0 falso 2 ⇒ -1 vero 3 ⇒ -1 falso 4 ⇒ -2 - 4 ⇒ -3 - 5 - vero4 - 5 - falso5 - - - -

Tabella 3.5: Esempio della TM che realizza l’operazione logica ∧, la congiunzione. In alto il nastro di memoria, inbasso la tabella delle istruzioni. La freccia verticale sul nastro indica la casella d’inizio.

76CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

⇓vero vero

STATO INPUTNUOVOSTATO

CASELLA OUTPUT

0 vero 1 ⇒ -0 falso 2 ⇒ -1 vero 3 ⇒ -1 falso 4 ⇒ -2 - 4 ⇒ -3 - 5 - vero4 - 5 - falso5 - - - -

⇓vero vero

STATO INPUTNUOVOSTATO

CASELLA OUTPUT

0 vero 1 ⇒ -0 falso 2 ⇒ -1 vero 3 ⇒ -1 falso 4 ⇒ -2 - 4 ⇒ -3 - 5 - vero4 - 5 - falso5 - - - -

⇓vero vero

STATO INPUTNUOVOSTATO

CASELLA OUTPUT

0 vero 1 ⇒ -0 falso 2 ⇒ -1 vero 3 ⇒ -1 falso 4 ⇒ -2 - 4 ⇒ -3 - 5 - vero4 - 5 - falso5 - - - -

⇓vero vero vero

STATO INPUTNUOVOSTATO

CASELLA OUTPUT

0 vero 1 ⇒ -0 falso 2 ⇒ -1 vero 3 ⇒ -1 falso 4 ⇒ -2 - 4 ⇒ -3 - 5 - vero4 - 5 - falso5 - - - -

Tabella 3.6: Un’istanza del problema della congiunzione logica ∧, vedi Tab. 3.5.

vero oppure il simbolo falso, e i due casi devono condurre a comportamenti diversi, nel primo andareallo stato 1, nel secondo andare allo stato 2, in entrambi spostandosi a destra sul nastro. Anche lo stato 1prevede due alternative, a seconda del simbolo in input. Lo stato 2 non ha questa necessita, input, in quantose gia il primo input era falso (seconda riga della tabella), il risultato della congiunzione non puo cheessere falso, e quindi non c’e neanche bisogno di verificare il secondo input. Gli stati 3 e 4 sono gli uniciche producono un output, il risultato dell’operazione logica, mentre lo stato 5 e quello finale, di arresto dellamacchina. La Tab. 3.6 mostra passo dopo passo un’istanza di questa TM: nell’esecuzione dell’operazionevero ∧ vero.

La versione di TM qui illustrata informalmente puo essere descritta in termini matematici come una5-pla:

Mdef= 〈Q,A, δ, q0, F 〉 (3.26)

dove Q e l’insieme degli stati, A l’alfabeto dei simboli, q0 ∈ Q e lo stato iniziale, F ⊆ Q sono gli statifinali, e δ e la funzione di transizione:

δ : (Q− F ) ×A→ Q× (A ∪ {−}) × {⇐,⇒,−} (3.27)

La configurazione della TM in ogni momento i puo essere specificata mediante la terna:

Cidef= 〈qi, Li, Ri〉 (3.28)

dove qi e lo stato attuale, e Li e la sequenza ordinata:

Lidef= 〈x1, x2, . . . , xj−1〉 (3.29)

dei simboli correntemente sul nastro a sinistra della casella attuale xj esclusa, analogamente Ri e lasequenza ordinata dei simboli alla destra della casella attuale xj ora inclusa:

Ridef= 〈xj , xj+1, . . . , xn〉 . (3.30)

La partenza della computazione avviene dalla configurazione iniziale:

Co = 〈qo, Lo, Ro〉 (3.31)

che puo condurre dopo un certo numero di mosse ad uno stato finale

Cf = 〈qf , Lf , Rf 〉 . (3.32)

Le Matematiche del Linguaggio 77

STATO INPUTNUOVOSTATO

CASELLA OUTPUT

0 - 1 ⇒ 01 - 0 ⇒ 1

Tabella 3.7: Esempio di una TM circle-free che produce la sequenza infinita 0101... .

Cicli e numeri computabili

Lasciando momentaneamente queste formalizzazioni per tornare all’articolo originale, non si puo non sve-lare quali siano i computable numbers, per questo occorre aggiungere che possono esserci benissimo TMche non raggiungono mai uno stato finale, quindi pur essendo dotate di un numero finito di istruzioni, con-tinuano idealmente a calcolare all’infinito. Si vedra come questo sia un concetto molto importante e anchecritico nella scienza informatica, per ora ne indichiamo una, che anche Turing ha usato come esempio, chescrive sul nastro la sequenza infinita 01010101010101... La sua semplicissima tabella di istruzioni e in Tab.3.7, si noti come lo stato 0 conduca sempre allo stato 1 e da questo si torni nuovamente allo stato 0, costruttogenericamente detto, in terminologia attuale, loop, e piu precisamente in questo caso loop infinito. Questogenere di macchine viene detto da Turing circle-free, termine non troppo appropriato, che potrebbe anchefar pensare all’opposto, che e invece chiamato circular. Quest’ultima non e strettamente la categoria dellemacchine che arrivano ad uno stato finale, piu ampiamente di tutte quelle che dopo un numero finito di passinon scrivono piu nulla sul nastro (situazione compatibile anche con un loop infinito attraverso istruzioni chenon producono output).

Bene, ecco arrivare i computable numbers: sono tutti quei numeri reali la cui parte decimale puo esserescritta (in codifica binaria) da una TM circle-free, la sequenza infinita si chiamera pure computable sequen-ce. Turing dimostrera che non sono pochi i numeri reali computabili, per esempio e, gli zeri reali dellefunzioni di Bessel, e tanti altri.

La macchina tuttofare

Naturalmente generare sequenze computabili come parte decimale di qualche numero reale non e che unadelle possibili occupazioni delle TM, anzi, piu speso puo essere utile considerarla come il mezzo per pro-durre una certa uscita, in base ad un ingresso, alla stregua del concetto matematico di funzione. La faccendapuo essere formalizzata per esempio definendo una generica TM i come la funzione Mi:

Y = Mi (X) (3.33)

dove X e la sequenza iniziale di simboli del nastro, e Y quella finale:

Co = 〈qo, 〈〉 , X〉 (3.34)

Cf = 〈qf , Y, 〈〉〉 (3.35)

con la convenzione che la macchina inizia con la casella di ingresso piu a sinistra e termina sulla casellasuccessiva a quella valida per l’output. Si puo anticipare che, come sara discusso piu avanti, le funzionirealizzabili tramite TM, nonostante la semplicita del modello, sono tutte quelle realizzabili con qualunqueprocedimento automatizzabile, e pertanto sono tutto cio che sono in grado di fare, anche oggi, i computer.Naturalmente anche le macchine che generano sequenze computabili care a Turing possono essere sempreviste come casi particolari, in cui l’uscita e indipendente da ogni output. In ogni caso, nonostante la potenzadi questo meccanismo, c’e un inconveniente. Succede che ogni TM e atta a produrre un solo specificooutput, oppure a realizzare una sola determinata funzione, in base alla tabella di istruzione, e questa rigiditanon puo che apparire come una forte limitazione del modello. Turing ha pronta la ricetta, ancora una voltasemplice ma formidabile: dato che la TM e lo strumento piu potente per risolvere compiti meccanici, perchenon progettarne una con un compito del tutto particolare:

simulare il comportamento di una qualunque altra TM

questa TM veramente speciale e chiamata UTM (Universal Turing Machine), ed e il modello piu com-pleto possibile del concetto di calcolatore programmabile. Si puo, analogamente alla (3.33), considerare

78CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

stato input casella outputnuovo stato

S I N C O

Figura 3.18: Principio di codifica di una TM come dato di input in un nastro di memoria.

una funzione matematica U corrispondente alla UTM, definibile come:

Y = U (Mi, X) (3.36)

La UTM e cioe una funzione che ha due variabili: una generica TM Mi e un nastro di memoria X , il suooutput Y e proprio l’output che produrrebbe quella Mi quando il suo nastro di memoria fosse inizialmenteX . Turing ha dimostrato come sia veramente possibile riuscire a realizzare una UTM, e cioe possibileprogettare la tabella di istruzioni e definire l’ organizzazione di memoria di una TM in grado di simulareuna qualunque altra TM.

Evitando i tecnicismi della dimostrazione originale, si puo mostrare in linea di principio come potrebbefunzionare, usando lo schema delle TM adottato finora. Come si vede dalla (3.36), un primo problema eche, se Mi e un input per la UTM, occorre in qualche modo poterla rappresentare nel nastro di memoria.Guardando una tabella di TM, e facile notare che ogni istruzione di passaggio di stato comprende cinqueelementi, per cui ogni riga della tabella di istruzioni puo essere conservata tramite cinque caselle di memo-ria, come schematizzato nella Fig. 3.18. Da notare che non ci sarebbe nessun problema a rimanere fedeliall’originale di Turing nell’usare solamente simboli binari per i dati: e sufficiente numerare tutti gli statinecessari alla Mi, e considerare che per gli elementi S e N della Fig. 3.18 anziche una sola casella ne sononecessarie di piu, quanto basta per la rappresentazione binaria di tutti gli stati.

Per quanto riguarda X , ovvero il nastro di memoria di input, naturalmente non c’e nessun problema perla UTM a riceverlo come ulteriore input, e sufficiente che venga copiato in una porzione del proprio nastro.A questo punto, tutti gli elementi necessari per simulare una generica TM sono stati incorporati nel nastro dimemoria. Quando la UTM comincera a simulare la TM, di cui ha codificato la tabella di istruzioni e la suamemoria, dovra anche tenere il filo della situazione, ovvero conoscere lo stato e la casella della TM ad ognipasso del suo funzionamento simulato. L’intera memoria della UTM sara organizzata come in Figura 3.19Il funzionamento e questo: la UTM in ogni momento conosce qual’ e lo stato e la casella corrente della TMche sta simulando. La casella conterra il simbolo di ingresso. La configurazione, ovvero la coppia di valoristato ed ingresso (nella figura S I, dovra trovarsi in una delle tante possibili righe di istruzione della TM.Pertanto la UTM non fa altro che cercare l’istruzione in cui si trovano come primi elementi proprio questaS e questa I: il resto dell’istruzione dice come andare avanti: e quindi quale sara il nuovo stato da metterenella casella dove si conserva lo stato di TM, l’eventuale uscita da scrivere nella memoria dedicata alla TM,e quale sara la prossima posizione in questa memoria. E poi tutto ricomincia finche non si e raggiunto lostato finale di TM.

A questo punto, la porzione di memoria dedicata alla TM, avra gli stessi risultati esattamente come seci fosse stata la sola TM in esecuzione. Il funzionamento comprensibilmente richiedera qualche ulterioredettaglio tecnico, vi saranno per esempio dei simboli speciali (quelle barrette verticali nella Fig. 3.19) chesegnalano inizio e fine delle varie porzioni del nastro di memoria, e cosı via, ma sostanzialmente non e nulladi piu di quanto descritto.

Va sottolineato ancora come la UTM non sia solamente una mirabile ideazione teorica, che ha gettatole fondamenta per la scienza del calcolo meccanico programmabile, ma sia stata anche l’idea base per ilmodo con cui sara risolto il problema pratico della programmabilita nei computer, che e quello di trattareistruzioni alla stessa stregua di dati comuni: nella (3.36) i “dati” X sono incorporati nel nastro di memoria,allo stesso modo delle “istruzioni”, ovvero delle righe della Mi.

Le Matematiche del Linguaggio 79

I.......

I N C I.......S I N C O

S I N C O

S I N C O

tabella istruzioni nastro di memoria

TM da simulare

S O.......

la tabella di istruzioni dellaTM da simulare della TM da simulare

Copia del nastro di memoria

S C

statocorrente

della TM

attualecaselladella TM

memoria di lavoro della UTM

nastro di memoria della UTM

Figura 3.19: Organizzazione della memoria nella UTM

Tornando all’Entscheidungsproblem

Anche se non e il punto essenziale ne per il futuro del computer ne per il suo coinvolgimento con il linguag-gio, sarebbe veramente ferire l’orgoglio di Turing passare oltre l’application to the Entscheidungsproblem,una volta terminata di illustrare la TM. Invero la risposta negativa che Turing arriva a dare tramite il suocomputer immateriale e tutt’altro che priva di conseguenze per la scienza informatica, anche se i nuovi inte-ressi hanno contribuito a tramandarne una versione non originale, meno orientata a Hilbert e piu ai problemidel software, ribattezzata Halting Problem.

Il procedimento messo in campo da Turing puo essere schematizzato nei seguenti passi:

1. non puo esistere una TM MD in grado di stabilire se una data Mi sia circle-free, la dimostrazioneutilizza il metodo cantoriano di diagonalizzazione;

2. non puo esistere una TM MO in grado di stabilire se una data Mi produca un output 0, e un corollariodel punto precedente;

3. e possibile per ogni Mi costruire una corrispondente proposizione U (Mi) del sistema Z (il sistemaassiomatico di Zermelo)

4. se esistesse un metodo per determinare se U (Mi) sia provabile, allora sarebbe provabile se TM MO

produce o meno l’output 0.

e evidente che gli ultimi due punti sono una contraddizione, e che quindi non puo esistere un metodo concui decidere verita o falsita delle proposizioni di un sistema matematico assiomatico.

L’Halting Problem e un analogo del primo punto, anche se si riferisce, anziche all’accezione originaledi macchine circular/circle-free, alla proprieta di una macchina di “arrestarsi”, arrivare cioe in tempi finitiad uno stato q ∈ F , con riferimento alla definizione (3.26). Peccando un minimo di rigore, si puo cogliereil senso della dimostrazione in modo semplice, con la stessa notazione qui impiegata finora, aggiungendo ilsimbolo ⊥ per indicare l’uscita (inesistente) di una macchina che non arriva mai ad arrestarsi. La questionepuo essere posta in questi termini: se esista o meno la seguente TM:

MH (Mi, Xj)def=

{

1 quando Mi (Xj) 6=⊥

0 quando Mi (Xj) =⊥(3.37)

che scriva quindi 1 sul nastro di memoria quando la macchina sotto indagine, la Mi, si e arrestata avendocome nastro iniziale Xj , o scriva 0 se e entrata in un loop infinito. Bene, se questa MH esistesse, non c’enessun problema a costruirne un’altra, un po strana, che verra chiamata M∗

H, definita in questo modo:

M∗H (Mi)

def=

{

1 quando MH (Mi,Mi) = 0

⊥ quando MH (Mi,Mi) = 1.(3.38)

80CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

I passi che dalla (3.37) conducono alla (3.38) sono del tutto legittimi: usare la stessa Mi come nastroiniziale Xj e consentito dalle strategie illustrate in Fig. 3.18 riguardo la (3.36), la UTM. Far scrivere 1nel caso in cui il risultato della MH fosse 0 e banale, ma anche entrare in un loop infinito quando la MH

produca 1 e immediato: basta modificare l’istruzione che avrebbe prodotto 1 indicando come nuovo statoquello stato stesso. Assodato che dall’esistenza della MH deriva l’esistenza della M∗

H, si puo provare avedere cosa viene fuori da questo calcolo:

M∗H (M∗

H) . (3.39)

La M∗H ha due soli possibili risultati, ma entrambi sono contraddittori. Si supponga che la macchina abbia

terminato il calcolo scrivendo 1. Dalla (3.38) cio significa che MH (M∗H,M

∗H) = 0, ma il valore 0,

come si puo controllare nella (3.37), segnala che la M∗H, avendo come nastro di memoria sempre M∗

H, eentrata in un loop infinito. Impossibile, visto che stiamo esaminando proprio il caso in cui si e arrestataproducendo 1. Si puo vedere se c’e maggior fortuna con l’altro possibile caso, in cui la (3.39) risulti inun loop infinito. Sempre tramite la (3.38), e immediato diagnosticare che questo e successo a seguito diMH (M∗

H,M∗H) = 1, e, ricontrollare la (3.37) per credere, questo 1 ci assicura che la M∗

H si e arrestataregolarmente. Peccato che invece il caso in esame sia proprio quello in cui e entrata nel loop infinito.

Serpeggia in questa dimostrazione, come nel procedimento originale di diagonalizzazione, quell’oscuramossa dell’autoreferenzialita, che sottendeva anche il paradosso con cui Russell infranse le troppe libertadelle costruzioni di Frege, come visto in §2.2.4. Si potrebbe ritenere pertinente anche qui il ragionamen-to di Wittgenstein (che si vedra a p. 101), in fin dei conti perche drammatizzare l’impossibilita di unaproposizione aliena da ogni applicazione quale

Si arresta una macchina equivalente alla macchina che verifica se un’al-tra macchina si arresta con un certo nastro di ingresso, modificata inmodo che si arresti quando quella dia responso positivo, avendo come na-stro di ingresso l’altra macchina, nel caso in cui si applichi alla mac-china equivalente stessa.

Le cose stanno diversamente, nel mondo dei computer non solo questa e una proposizione che avrebbe usopratico, ma anche con le conseguenze piu importanti. Infatti nell’ingegneria del software uno dei traguardidi maggior portata sarebbero i sistemi di diagnosi automatica dei malfunzionamenti di un programma. Nonc’e peggior inconveniente per un software che entrare in un loop infinito. A tutti gli utilizzatori di computer(soprattutto di quelli con sistemi Windows) sara capitato almeno una volta quel fastidioso inconvenientequando il computer pare non rispondere piu a nessun comando, con l’unica soluzione il suo riavvio. Si-curamente in qualche angolo del sistema operativo si nascondeva un loop infinito, che invano i progettistiavevano tentato di eliminare: gia nel lontano 1936 Turing sapeva che non esiste metodo in grado di mettereal riparo da questo guaio.

3.2.2 Il software al femminile

Le prime incarnazioni della UTM vennero alla luce una decina di anni dopo il famoso articolo, e in Americanomi come UNIVAC e IBM cominciarono la lenta ma inesorabile diffusione dei computer. Naturalmenteil passaggio dalla U matematica all’oggetto fisico aveva richiesto diversi aspetti ingegneristico-realizzativi,che concettualmente possono essere riassunti in due innovazioni:

• l’idea di una memoria indirizzabile in aggiunta a quella a nastro

• l’idea di un set di istruzioni

Sono due concetti importanti dal punto di vista dell’architettura dei computer rimasti sostanzialmente inva-riati fino ad oggi, senz’altro di portata decisamente marginale in confronto al principio introdotto con la TMe la UTM, che non modificano assolutamente la capacita computazionale teorica del sistema, ma presentanouna certa rilevanza matematica, come si vedra presto. Si possono sintetizzare molto semplicemente. Perquanto riguarda il primo, occorre ricordare che nel nastro di memoria di una TM le caselle sono prive di unproprio identificativo, e solamente necessario che, quando il nastro sia usato da input, per convenzione lamacchina sia posizionata sulla prima casella contenente i dati, accortezza che non e nemmeno necessariaper una computing machines (che produce solo sequenze). Con la memoria indirizzabile invece ogni cellae caratterizzata non solo da un simbolo, che puo essere letto e scritto e quindi variare, ma anche da un altro

Le Matematiche del Linguaggio 81

simbolo, unico per ogni casella, che svolge il ruolo di suo indirizzo. E in questa memoria che nei computerviene attuata quella indistinzione tra dati e istruzioni alla base della UTM.

Il secondo punto riguarda invece l’assenza di operazioni vere e proprie nella TM, il cui funzionamentoe puramente basato sui passaggi di stato. Il set di istruzioni non e altro che una serie di TM elementarisintetizzate nella logica dell’elaboratore, ciascuna con abbinato uno specifico simbolo, che vengono attivateautomaticamente qualora il loro simbolo venga letto nella memoria indirizzabile, all’indirizzo corrente.

Questa estrema sintesi e piu che sufficiente a caratterizzare i corrispettivi fisici delle UTM, quello chee invece piu interessante ai fini dell’incontro tra computer e linguaggio, e l’esigenza di realizzare le Mi

ora eseguibili tramite la U tangibile, il problema di scrivere quello che equivale alla tabella di istruzionidella TM che si desidera realizzare, cio che presto verra battezzato software. Un bene immateriale la cuiproduzione si rivelo subito molto piu problematica e costosa rispetto all’hardware, le materiali incarnazionidi U . In un mondo come quello matematico tradizionalmente dominato da personaggi maschili, gli alboridella scienza del software sono curiosamente segnati da due donne. Colei che e passata alla storia come laprima programmatrice, la contessa Ada Augusta Lovelace, figlia di Lord Byron, effettivamente fu la primaad affrontare le problematiche di un calcolo meccanico universale, ma nell’era “prima di Turing” di pocointeresse in questo contesto, quando si trovo a sviluppare i programmi per la macchina analitica di CharlesBabbage che non vide mai la luce [Lovelace, 1842].

Chi aprı la strada all’idea moderna di programmazione fu un’altra donna, Grace Murray Hopper, com-ponente del gruppo di lavoro presso l’UNIVAC, il primo computer commerciale. Fino al 1950 l’unicamaniera concepibile di sviluppare software era semplicemente produrre la sequenza opportuna di codici,corrispondenti al set di istruzioni della macchina, combinando appropriatamente gli indirizzi in memoria,in modo tale che il flusso di istruzioni e le corrispondenze dei risultati parziali conducesse al risultato finaledesiderato. Questa pratica diventava estremamente gravosa sopra certi livelli di complessita del problemada risolvere, ed inoltre comportava la frequente riscrittura di porzioni di programma concettualmente moltosimili, ma in realta incompatibili soprattutto per le differenze degli indirizzi in memoria. Era una situazionedi cui la Hopper aveva particolare sentore, data la sua precedente esperienza presso il laboratorio di HowardAiken (un altro pioniere dei computer) ad Harvard.

L’idea innovativa fu quella di scrivere dei programmi del tutto particolari, il cui scopo era proprio facili-tare la scrittura di altri programmi, tramite il computer stesso, nel 1953 comparve il termine “compilatore”e il suo primo esemplare commerciale chiamato “A-2” [Hopper, 1953], l’intera attivita di programmare me-diante compilatori fu denominata Automatic Programming. Con questa modalita era possibile sviluppareporzioni di software in modo del tutto indipendente dal problema a cui erano destinate, per esempio libre-rie di funzioni matematiche, era poi questo mirabile programma a risolvere le complesse concatenazionidi indirizzi sia dei dati che delle istruzioni, in modo da poter amalgamare i componenti in un programmamirato al problema complessivo da risolvere. Lanciata l’idea di sfruttare lo stesso calcolo automatico per larealizzazione delle astruse Mi, e avendo superato le non poche difficolta nel metterla in pratica, mediantei compilatori, la strada era spianata alle proposte per nuove matematiche tramite cui ideare algoritmi, cheopportuni compilatori avrebbero ricondotto ad altrettante Mi.

La proposta vincente fu proprio il linguaggio. Complice la precisa coincidenza storica con la nascentegrammatica generativa, non fu trovato niente di meglio che il linguaggio, come mezzo piu generale peresprimere passaggi risolutivi meccanici, confidando che l’interpretazione di tale linguaggio e la sua tradu-zione in Mi fossero alla portata dei compilatori, una volta che si adottasse un’adeguata formalizzazione neldefinire questo linguaggio per computer. Il primo ad aprire la serie dei “linguaggi di programmazione” fu ilFortran (da FORmula TRANslation), sviluppato nel 1957 da John Backus, che accolse in pieno la propostadelle grammatiche generative, introducendo una sua variante, la BNF (Backus Noar Form), perfettamenteanaloga a quella chomskiana salvo per piccole differenze di notazione [Backus, 1959]. La si puo apprezzaresubito nella Tab. 3.8, dove si sono riscritte le regole di produzione del famoso primo esempio di Chomskygia citato in §3.1.2, come si nota gli elementi non terminali sono sempre racchiusi tra parentesi triangolari.Le grammatiche per definire corpi di programmi rientrano nella categoria delle CFG, le grammatica di tipo2 nella gerarchia di Chomsky, ma a differenza del linguaggio naturale, quantomeno, non sono grammaticheambigue. E il minimo che consenta di scrivere quel componente fondamentale del compilatore, che orasi rende necessario: un dispositivo in grado di generare automaticamente, tramite la grammatica, l’alberosintattico di qualunque frase accettabile nel linguaggio: il parser. Un tipo di problematica del tutto nuovarispetto all’impiego in linguistica dell’apparato chomskiano, che sara uno dei campi di studio primari nella

82CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

〈S〉 ::= 〈NP 〉 〈V P 〉〈NP 〉 ::= 〈D〉 〈N〉〈V P 〉 ::= 〈V 〉 〈NP 〉〈N〉 ::= man

〈N〉 ::= ball

〈V 〉 ::= hit

〈D〉 ::= the

Tabella 3.8: La notazione BNF applicata al primo esempio di “grammatica” di Chomsky, vedi Fig. 3.1.

scienza informatica dagli anni ’60 in poi, contribuendo a fondere sempre piu le due aree, all’insegna dellagrammatica generativa.

La forma linguistica primaria in un linguaggio tipo Fortran e l’assegnazione di un valore, risultante dauna qualunque espressione del linguaggio, ad una locazione astratta della memoria indirizzabile, indicatamediante un simbolo definito nel programma stesso, che viene comunemente chiamato variabile, anche seil suo significato non e assimilabile all’analogo concetto matematico. Per esempio:

A = TAN(0.2) - 0.1

puo significare due cose:

1. esiste nel dominio linguistico corrente una variabile che ha nome A, allora nella locazione di memoriaindirizzabile associata a questa variabile scrivi cio che risulta dalla soluzione dell’espressione a destradel simbolo “=”;

2. non esiste nel dominio linguistico corrente nessuna variabile con nome “A”, allora cerca il primoindirizzo di memoria non associato a nessuna delle variabili attualmente nel dominio, aumenta ildominio con il nuovo nome “A”, collega questo nome all’indirizzo appena scelto, e scrivi locazionedi memoria corrispondente a tale indirizzo cio che risulta dalla soluzione dell’espressione a destra delsimbolo “=”.

Altri linguaggi simili piu recenti, come il C o Java non accettano la mossa 2), perche prevedono che ildominio linguistico sia popolato esclusivamente tramite apposite operazioni di battesimo, per esempio, inC:

int A;

significa aumentare il dominio con il nuovo nome “A” e cercare il primo indirizzo di memoria libero capacedi contenere un numero intero di certe dimensioni, e associa il nome all’indirizzo.

La diversita linguistica non caratterizza solo il linguaggio naturale, anche i computer, una volta scopertaquesta interessante modalita, non si sono certo fermati alle proposte di Backus, arrivando al punto di equi-parare o quasi le lingue naturali. Attualmente risultano circa 2400 diversi linguaggi di programmazione16,non pochi considerando il divario tra il numero di umani e quella loro piccola porzione che sono i parlantidei linguaggi di programmazione, e che si sono sviluppati in non piu di mezzo secolo. Naturalmente lamaggior parte di questi linguaggi sono poco usati, e non differiscono sostanzialmente da altri piu diffusi.

E singolare che la diversificazione piu profonda tra i linguaggi di programmazione risalga in effettisempre alla fine degli anni ’50, quando John McCarthy ideo un linguaggio basato su un paradigma radi-calmente opposto a quello dell’assegnazione, sopra descritto, destinato a diventare il preferito nell’ambitodell’intelligenza artificiale, e a promuovere nuove connessioni teoriche tra computer, matematica e lin-guaggio. Il linguaggio si chiamava LISP (da LISt Processing) e il paradigma era quello della ricorsione[McCarthy et al., 1962].

3.2.3 Il fascino della ricorsione

La faccenda della ricorsivita richiede un ritorno agli anni ’30 di Turing e di altri protagonisti del dibattitosull’Entscheidungsproblem, ma prima e utile introdurla discorsivamente.

16Censimento congiunto del gruppo CUI dell’Universita di Ginevra e di B. Kinnersley, University of Kansas,http://cuiwww.unige.ch/langlist e ftp://wuarchive.wustl.edu/doc/misc/lang-list.txt .

Le Matematiche del Linguaggio 83

Essere ricorsivo per un sistema vuol dire includere in se stesso una sua copia, non necessariamente iden-tica, magari un po piu piccola, un po semplificata o modificata. Se ci si riferisce alle funzioni matematiche,una funzione e ricorsiva quando e definita mediante se stessa, l’esempio piu citato e il fattoriale, N !:

{

0! = 1

(x+ 1)! = (x+ 1) × x!(3.40)

Se non si disponesse della funzione “moltiplicazione” sui numeri naturali, anche questa potrebbe esseredefinita ricorsivamente: {

y × 0 = 0

y × (x+ 1) = x+ y × x(3.41)

Tornando alle auliche problematiche della matematica, la nozione di funzione ricorsiva risa-le a [Dedekind, 1888] ed entra nel mezzo della questione sulla calcolabilita con il famoso articolo[Godel, 1931], che per altri motivi verra discusso in §4.1.1, dove vengono definite le funzioni (oggi dette)ricorsive primarie sui numeri naturali, mediante composizione di altre funzioni piu semplici:

f (x1, . . . , xn) = g (h1 (x1, . . . , xn) , . . . , hm (x1, . . . , xn)) (3.42){

f (0, x1, . . . , xn) = h (x1, . . . , xn)

f (x+ 1, x1, . . . , xn) = g (x, f (x, x1, . . . , xn) , x1, . . . , xn)(3.43)

dove le varie g e h devono essere a loro volta funzioni ricorsive primarie. Quelle di base, le piu semplici ditutte, possono essere una delle seguenti tre funzioni:

C (x) = 0 funzione zero; (3.44)

S (x) = x+ 1 funzione successore; (3.45)

Uni (x1, . . . , xn) = xi funzione di selezione. (3.46)

La composizione mediante la (3.42) e detta di sostituzione, quella con la (3.43) ricorsione. I sempliciesempi di prima ricadono in quest’ultima categoria, nel caso (3.40) del fattoriale h e la funzione 0 e g lamoltiplicazione, che dalla (3.41) puo essere a sua volta composta usando ora come g l’addizione, che po-trebbe essere finalmente definita, sempre ricorsivamente, usando per g la (3.45). L’importanza di questefunzioni era di rappresentare quelle garantite computabili, o per usare la terminologia di Godel, determina-bili con un procedimento effettivo. Quale potesse essere questo procedimento, di li a poco lo avrebbe dettoTuring. Nel frattempo, occorreva rimediare ad una pecca: le funzioni ricorsive primitive sono certamentecomputabili, ma non sono le sole, come aveva mostrato l’assistente di Hilbert [Ackermann, 1925], rimedioKleen con la funzioni ricorsive parziali, che in aggiunta a quelle primarie sfruttano questo ulteriore sistemadi composizione [Kleene, 1936]:

f (x1, . . . , xn) = µ(=0)x (g (x1, . . . , xn, x)) (3.47)

detto di minimizzazione, dove con µ(=0)x (·) si indica il minimo x per cui · = 0. Senza questa aggiunta

sarebbe per esempio risultata incalcolabile la funzione che restituisce il minimo numero naturale in uninsieme finito, cosa evidentemente poco accettabile.

In quello stesso periodo entrarono in circolazione alcune categorie di oggetti tra il matematico il logicoe l’informatico, che sorprendentemente risultarono essere tutti fra loro equivalenti. Alcuni sono qui bennoti, altri si citano solamente: le funzioni ricorsive, il λ-calculus di Church, i sistemi di riscrittura diPost, i sistemi semi-Thue, gli algoritmi di Markov e, naturalmente, le Turing Machine, e la cosiddettatesi Church-Turing sancisce proprio che questi diversi sistemi sono tutti equivalenti, e sono i formalismimassimi, il meglio che si puo avere da un calcolo meccanico. Puo sembrare che in queste disquisizionisi stia perdendo ogni aggancio ed interesse al linguaggio naturale. Quella lista pero non e finita, mancaqualcosa: il linguaggio, piu precisamente nell’accezione vista in §3.1.2, l’insieme di elementi accettatida una grammatica generativa. E stato proprio Chomsky a dimostrare che, tra i rappresentanti di questasingolare elite di campioni della computabilita, rientrano le PSG (v. Tab. 3.2), perfettamente equivalentia funzioni ricorsive, TM e via dicendo [Chomsky, 1958]. Questa performance e garantita proprio dalla

84CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

caratteristica ricorsiva delle regole di produzione grammaticali, come si puo riscontrare immediatamentenelle formule (3.17) e (3.18) della teoria X-bar, ed autorizza Chomsky a parlare a pieno titolo di “sistemacomputazionale” quando si riferisce alla sua teoria del linguaggio (v. 71).

Il linguaggio e un problema

L’influsso della linguistica chomskiana e stato talmente pervasivo per la scienza della computazione cheoggi l’approccio teorico prevalente, tra i tanti disponibili, e proprio quello basato sul concetto formaledi linguaggio. Per cui, per esempio, i grandi temi di discussione di Hibert, in cui un concetto basilareche richiede chiarezza e proprio quello di “problema”, sono preferibilmente impostati identificando comeproblema ... un linguaggio.

In termini piu precisi, si considera che qualunque caso di “problema” trattabile formalmente, consistenel decidere se e vera la proposizione:

w ∈ L (3.48)

ove w ∈ A∗ e una generica stringa generata dall’alfabeto A, ed L e il linguaggio del problema in questione.Quindi l’entscheiden hilbertiano e decidere un linguaggio, che risulta decidibile se e solo se quel linguaggioe generato da una grammatica di tipo PSG. La (3.48) non puo non suscitare qualche perplessita, ancherimanendo nell’ambito computazionale, la sensazione comune e che una vasta porzione di problemi nonesauriscano il loro risultato atteso in una semplice risposta vero/falso, per esempio da un algoritmo checalcoli la radice quadrata di un numero ci si aspetta proprio la radice quadrata, o ancora, per rimanere intema, si puo dire che un parser abbia risolto diligentemente il suo problema solo se in uscita ha prodottodegli alberi sintattici. I teorici non battono ciglio di fronte a queste obiezioni, spiegando che in entrambi icasi, il problema formale sottostante e decidere vero/falso, nel primo caso riguardo la questione se uncerto numero sia o meno la radice quadrata di quello iniziale e nel secondo caso se un certo albero sintatticosia la corretta interpretazione della frase data oppure no. Rimane un dubbio di fondo: se in generale lequestioni sulle equivalenze tra formalismi rimangano degli asserti teorici o se le correlazioni tra loro sianorealmente pertinenti nei relativi sviluppi.

Pensare ricorsivamente

La risposta e senza dubbio positiva per McCarthy, a cui si fa ricorsivamente ritorno dopo questa non breveparentesi. Per lui l’equivalenza tra TM, il principio del computer, le funzioni ricorsive, i linguaggi definititramite grammatiche in cui la ricorsione e caratteristica, sono significativi del modo profondo con cui siesplica la potenza computazionale [McCarthy, 1960, McCarthy, 1963]. Pertanto e essenziale nella praticadella programmazione (lo scrivere le famigerate M〉), poter disporre di un linguaggio dove si possano espri-mere direttamente e semplicemente gli algoritmi in forma ricorsiva, prerogativa antitetica rispetto al princi-pio di assegnazione su cui si basava il Fortran. Con queste sue impostazioni presto nel mondo dei linguaggidi programmazione si scontrarono due paradigmi ben definiti: i cosiddetti linguaggi imperativi, aderenti alprincipio di assegnazione, a cui appartengono il capostipite Fortran e i piu recenti C, C++, Java; e i linguaggifunzionali che partono dal LISP, con Scheme tra i piu recenti discendenti [Steele and Gabriel, 1996]. I pri-mi sono dominanti nei software di basso livello e piu conosciuti tra i programmatori commerciali, mentre isecondi hanno piu pubblico a livello accademico, con applicazioni nelle ricerche algoritmiche, la linguisticacomputazionale e in generale l’intelligenza artificiale.

L’impresa di McCarthy riuscı grazie a diversi elementi innovativi su cui si baso il LISP, quali il concettodi lista come struttura di base dei dati, e l’implementazione del λ-calculus di Church [Church, 1941]. Que-st’ultimo e un formalismo basato su un’astrazione di funzioni dal loro predicato. Matematicamente e unmodo di uscire da alcune delle ambiguita denunciate da Frege (vedi §2.2.1) sulla notazione delle funzioni,per cui nei casi:

f(x) = x2 + 1

f(x) = 5

f(3) = 10

Le Matematiche del Linguaggio 85

la prima sarebbe una definizione, la seconda un’equazione, e la terza l’applicazione della stessa funzione f .Con l’astrazione λ la stessa funzione verrebbe definita mediante

(λx(x2 + 1)

)

da cui(λx(x2 + 1)

)(3) e il numero 10.

Entrando nel merito, in LISP o Scheme la programmazione avviene essenzialmente dichiarando me-diante il linguaggio le proprieta degli oggetti del discorso, con la procedura fondamentale define. Peresempio dopo aver scritto:

( define a 3 )

nel contesto del programma esiste un’oggetto a che e il numero 3, mentre con:

( define l ( list 5 ’bye ) )

si introduce l’oggetto l, una lista con primo elemento il numero 5 e secondo elemento la stringa bye.I pregi della non ambiguita dei linguaggi di programmazione rispetto a quello umano si pagano con lapedanteria: la notazione e rigorosamente prefissa (prima il nome della procedura poi i suoi argomenti) ele parentesi non sono un’opzione. Naturalmente l’oggetto definito puo essere una funzione, come quelladell’esempio precedente, basta usare l’operatore chiamato proprio lambda:

( define f( lambda ( x )

( + ( * x x ) 1 ) ) )

per cui scrivendo:

( f 3 )

si otterrebbe 10. La ricorsione e chiaramente di casa, ecco come si scrive la definizione di fattoriale:

( define fattoriale( lambda ( n )

( if ( = n 0 )1( * n ( fattoriale ( - n 1 ) ) ) ) ) )

che come si puo vedere si presenta molto aderente alla sua scrittura matematica (3.40). L’ultima rigadi questa procedura racchiude la ricorsione: richiama se stessa, pero con argomento non piu n ma n − 1.Una particolarita di qualunque procedura ricorsiva, e che include il rischio di un loop infinito, qui evitatodall’istruzione condizionale if.

I linguaggi funzionali posero ben presto un’esigenza nuova: le grammatiche generative, sia nella formatradizionale orientata ai linguaggi naturali, che in quella di Backus, non sono sufficienti; l’albero sintatticodelle espressioni in un tale programma non e immediatamente interpretabile come operazioni che cambia-no lo stato del computer. McCarthy stesso intraprese lo sviluppo di un formalismo del tutto nuovo, da luioriginariamente chiamato delle S-expressions (dove S sta per Symbolic), ora noto come semantica deno-tazionale [Manna, 1974, Stoy, 1977]. Non e argomento qui particolarmente rilevante, si accenna solo chela motivazione del nome deriva proprio dalla necessita, nell’interpretare le espressioni di un linguaggiofunzionale, non tanto di operare assegnazioni su locazioni di memoria del computer, quanto di identifi-care le funzioni matematiche denotate da tali espressioni. Come ulteriore cenno tecnico, questa teoriaformale e strettamente connessa a quella matematica delle funzioni ricorsive e ai suoi successivi sviluppi[Rice, 1954, Tarski, 1955, Kleene, 1967].

Il mito

La ricorsivita quindi non sarebbe solo quel concetto di grande portata teorica nella fondazione della com-putabilita, ma allo stesso tempo una proficua pratica della programmazione. Non e finita qui, il fascino cheha suscitato la ricorsivita in diversi ambiti, ma soprattutto tra i pensatori dall’intelligenza artificiale e andatoben oltre, rasentando per esempio la venerazione in Douglas Hofstadter. Nel suo famoso e accattivantebest-seller [Hofstadter, 1979] e l’eterna ghirlanda d’oro che lega tra loro la musica, il computer, la pittu-ra, la matematica, la mente umana, in un’avventura dove al rigore formale delle procedure algoritmiche simescola favola, ironia, ed un velo di misticismo.

86CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

2 3 4

6

Figura 3.20: Diversi passi di ricorsione nell’approssimare la curva di Koch.

Un’ulteriore attrattiva proviene da alcune evidenze della ricorsivita nella natura: sia strutture organicheche inorganiche mostrano di avere caratteristiche che riproducono se stesse su scale via via piu piccole, perun numero talvolta molto elevato di passi. Gia negli anni ’60 il biologo Lindenmayer [Lindenmayer, 1968]aveva inventato un metodo ricorsivo, L-system, che poteva racchiudere in una forma estremamente compat-ta le leggi biologiche di crescita degli organismi vegetali. Un L-system e del tutto simile alla definizionedata all’inizio di funzione ricorsiva: e un valore iniziale, che questa volta anziche un numero e un for-ma geometrica, e poi una o piu formule ricorsive, che indicano come da ogni cella geometrica precedentesi suddividono quelle nuove. La ricorsione di caratteristiche geometriche, riscontrabile in diverse morfo-logie naturali quali le montagne, la forma delle coste, e anche il tema di fondo della geometria frattale[Mandelbrot, 1983], che per questo si reputa piu aderente alla realta rispetto a quella classica. Le comuninozioni di “una dimensione”, “due dimensioni”, vengono generalizzate in dimensione frattale, che non epiu necessariamente intera.

Per esempio il fenomeno delle dimensioni non intere puo essere mostrato immediatamente su uno diquelli oggetti matematici astratti definiti ricorsivamente, come la curva di Koch.Il procedimento ricorsivo che la costruisce e semplicissimo: data una linea, si eli-mina nel mezzo un terzo della sua lunghezza, e lo si sostituisce con due altre lineeposte come a triangolo equilatero, sopra a quello mancante.

La caratteristica anomale di questa curva e la sua lunghezza. Man mano che si procede ricorsivamente,la curva acquista un aspetto simpatico, vagamente ricordante il cavolfiore, rimanendo apparentemente con-finata nello stesso spazio in cui era contenuta la linea iniziale. Ma analizzando al microscopio ogni pezzettodi questa curva, ripete esattamente ogni dettaglio di se stessa, e il risultato e che la lunghezza totale diventaenorme. Nella Fig. 3.20, gia con sole sette ricorsioni la curva e quasi 10 volte piu lunga dell’originale.Supponendo di cominciare con una curva di 10 centimetri, dopo una settantina di ricorsioni, la curva appa-rirebbe identica ma “srotolandola” coprirebbe la distanza tra la terra e la luna. Questa strana figura per lageometrica classica continuerebbe ad aver dimensione 1, pur avanzando evidentemente pretese maggiori.La teoria frattale le da ragione, attribuendo una dimensione di 1.26.

La grande attrattiva dei frattali e della ricorsione per gli artificialisti e anzitutto perche, grazie ai lin-guaggi introdotti da McCarthey, diventano immediatamente riproducibili nel computer fenomeni comples-si e pervasivi del mondo reale, e poi per l’accattivante prospettiva che siano le proprieta computazionalia forgiare il mondo, anche nella sua dimensione estetica, come in The Computational Beauty of Nature[Flake, 1999].

3.2.4 Conversazioni con il computer

Pochi anni prima del suo suicidio Turing mette a segno un altro di quegli articoli che continueranno a fardiscutere fin ad oggi, Computing Machinery and Intelligence [Turing, 1950], dove le ambizioni delle TMvengono elevate ad un livello cui nessuno aveva ancora osato mirare. In modo esplicito e provocatoriol’articolo inizia con la famosa frase:

I propose to consider the question “Can machines think?” 17

Senz’altro e la risposta di Turing, a patto che il generico “machines” venga sostituito da un accezionepiu precisa, su cui naturalmente ha le idee molto chiare: una UTM o, per usare i suoi termini, un digital

17Io propongo di considerare la seguente domanda: “una macchina pu o pensare?”

Le Matematiche del Linguaggio 87

computer. Nel suo lavoro elenca minuziosamente tutti i punti di vista che potrebbero essere contrari: quelloreligioso, quello matematico, etc., nove in tutto, includendo anche quello di Lady Ada Lovelace. La famosaprima programmatrice aveva infatti moderato le possibilita da lei e Babbage attribuite alla nuova macchina,asserendo che in definitiva non avrebbe mai potuto fare qualcosa non previsto dal suo programmatore; eprobabile che in queste esternazioni vi fosse una dose di dovuta prudenza, visto quanto era gia consideratoeretico il loro atteggiamento nell’ambiente scientifico inglese dell’epoca. Comunque Turing la prende sulserio, ma mostra che cio che dice non preclude l’intelligenza della macchina, qualora fosse proprio cio cheha inteso realizzare il suo programmatore.

L’articolo e di tutt’altro genere del On computable numbers..., anche quando si accinge a risponderealle obiezioni di tipo matematico, il tono e discorsivo, a tratti colloquiale, con varie punte di ironia e senzal’ombra di una formula. E ricorrente in diverse confutazioni l’appello a distinguere tra dei meri fattori dicomplessita o invece reali motivi di principio che neghino la possibilita ad una macchina di essere intelli-gente. Infatti tante obiezioni che vengono sollevate come appartenenti a quest’ultima categoria, in realtanon sono che questioni su livelli di complessita: per esempio riguardo alla gamma di comportamenti esibitidall’uomo, la molteplicita dei fattori che influenzano una scelta qualsiasi, l’influenza di stati emozionali eargomenti simili. La semplicita di comportamenti implementabili in una macchina e puramente, secondoTuring, un limite tecnologico contingente, sulla sua capacita di memoria, quantita che comunque sara desti-nata a crescere in modo rapido e continuo. Turing aveva anche fatto una previsione, e cioe che fra 50 anni,i computer avrebbero potuto disporre di memorie dell’origine di 1 GB, con una sorprendente preveggenza.

Il gioco linguistico di Turing

Un aspetto qui particolarmente rilevante e il metodo che Turing propone per provare o meno l’intelligenzadi una futura macchina con prestazioni adeguate: un gioco da lui chiamato imitation game, ma rimasto poifamoso come Turing Test. Una persona, chiusa in una stanza, puo porre domande di qualunque genere eleggere le risposte, alternandosi tra due terminali. Uno dei due terminali e collegato ad un computer cherisponde automaticamente, e l’altro invece ad una seconda persona, che quindi risponde in modo umano.

Se la prima persona, che ovviamente non sa chi c’e a rispondere, non riesce a distinguere dalla conver-sazione chi sia l’uomo e chi sia la macchina, evidentemente quest’ultima puo essere definita a pieno titolointelligente. Secondo Turing quindi, il principio discriminante per eccellenza sulla similarita tra uomo emacchina e la competenza dimostrabile in una conversazione, anche realizzata per iscritto, una competenzaquindi del tutto linguistica. Naturalmente nel suo test e irrilevante dimostrare una particolare padronanza suicontenuti del dialogo, che fra l’altro possono vertere su qualsiasi argomento, e sufficiente una prestazione daparlante standard, anche di bassa cultura. I requisiti basilari sarebbero pertanto l’abilita nel riconoscimentoe nella produzione linguistica, ogni ulteriore considerazione sulle effettive conoscenze della macchina sulmondo, sulla mente degli altri e cosı via sarebbero marginali e indiretti. L’uso corretto delle parole neldialogo sarebbe la definitiva controprova che riflettono un sistema di relazioni compatibile con le credenzedel mondo tipiche del “senso comune”.

Questo legame tra intelligenza e prestazioni linguistiche effettive fu pressoche assente nel seminario chediede il battesimo all’intelligenza artificiale, il Summer Reseearch Project on Artificial Intelligence organiz-zato da McCarthy a Dartmouth pochi anni dopo, nel 1956, quando oramai Turing non c’era piu. L’assuntoche sorreggeva l’ipotesi di veder convergere le due intelligenze era la comunanza della manipolazione disimboli, il cui manifesto puo essere considerato il noto articolo [Newell and Simon, 1976].

I primissimi programmi che comunque tentarono l’impresa del Turing test, come il famoso Eliza diJoseph Weizenbaum, avevano le principali limitazioni proprio nella mancanza di un riconoscimento delcontenuto delle frasi scritte dall’interlocutore, operavano solamente con astute generazioni di frasi innesca-te da alcune occorrenze di parole [Weizenbaum, 1965]. Fu solamente diversi anni dopo che, anche grazieagli sviluppi della scuola di Chomsky, l’interesse verso il linguaggio naturale divento serio, con la disci-plina che risponde all’acronimo NLP (Natural Language Processing), oggi di particolare rilevanza per iformidabili interessi di mercato in gioco (quali le traduzioni telefoniche simultanee). Sono sviluppi chemeritano menzione, pur dovendo tenere ben presente che sul fronte delle applicazioni commerciali l’a-spetto dell’indagine cognitiva e del tutto irrilevante, per cui qualunque scorciatoia in grado di consentireprestazioni apparentemente linguistiche, utili allo scopo, pur senza coinvolgere un pieno riconoscimento,

88CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

e sempre privilegiata. Prima di entrare in questi aspetti piu tecnici, c’e altro da dire sull’impatto teoricosuscitato da Turing.

Menti e macchine

La provocazione lanciata dal londinese non era certo passata inosservata nella discussione filosofica sullamente, fu soprattutto Hilary Putnam ad accoglierla con favore [Putnam, 1960], con riferimento proprioall’allusiva metafora sugli stati mentali utilizzata in On computable numbers.... Sarebbe del tutto plausibileipotizzare che gli stati interni di una TM corrispondano agli stati mentali dell’uomo, cosı come gli input divolta in volta presenti nelle caselle del nastro sarebbero qualcosa come le impressioni soggettive, e propriola combinazione tra queste due entita motiverebbe il continuo passaggio attraverso i vari stati mentali,regolato da leggi sulla falsariga delle istruzioni in una tabella della macchina.

Con una precisazione: la corrispondenza tra TM e mente umana non va confusa con un’identifica-zione, va intesa in senso logico e non fisico. Non potrebbe essere altrimenti volendo restare fedeli aTuring, nella cui concezione la TM e appunto una macchina astratta, indipendente da ogni sua realizza-zione. Puo pertanto essere un utile strumento per descrivere come funziona la mente, ed eventualmenteper comprendere meglio la sua logica e i suoi limiti, fermo restando che nell’implementazione biologicanon va cercata nessuna corrispondenza precisa. E la dottrina del funzionalismo, che ha dominato sia l’in-telligenza artificiale classica che la prima fase delle scienze cognitive. Putnam coltivo questo suo interesseiniziale anche in vesti di matematico, contribuendo ad alcune estensioni delle TM, quali gli stati probabi-listici e non deterministici, per poi abbandonare progressivamente queste posizioni, finendo col criticarlelui stesso [Putnam, 1988]. La sua eredita e stata pero raccolta da molti altri, con diverse varianti e sfuma-ture [Dennett, 1978, Dretske, 1981, Pylyshyn, 1981], e soprattutto [Fodor, 1981], a cui e dovuta proprio ladizione “teoria computazionale della mente”.

Invero non sono emerse da questo dibattito proposte radicalmente innovative per le finalita di questaricerca, ovvero matematiche per il linguaggio alternative a quelle gia viste. Il computazionalismo nei con-fronti del linguaggio si riduce sostanzialmente alle due grandi aree matematiche precedentemente illustrate:la logica matematica e le grammatiche di Chomsky. Le speranze di un computer linguistico, intelligentenell’accezione di Turing, passano quindi soprattutto dalla sintesi di questi due grandi domini, realizzabilein veste di TM. Uno dei risultati piu rappresentativi, che val la pena citare, riguarda i parser. Un’altra areadi ricerca centrale e quella sul lato semantico e la rappresentazione dei concetti, entro cui si sono sviluppatii cosiddetti sistemi di conoscenze, in cui si potranno anche incontrare alcune novita matematiche.

La scienza del parsing

In questo intreccio strano ed ambiguo tra computer e linguaggio, era emersa ben presto un’esigenza: sei programmi sono scritti mediante linguaggi formali, una componente primaria dei compilatori deve es-sere quell’algoritmo in grado di interpretare sintatticamente ogni espressione, nel rispetto della gram-matica, ovvero il parser. Siccome i compilatori sono gli elementi strategici nell’economia del software,questo e diventato un settore scientifico autonomo che vanta oggi una considerevole mole di ricerche[Aho and Ullman, 1972, Aho et al., 1986]. Quindi, nel momento in cui il computer si rivolse al linguag-gio naturale, con i primi tentativi di comprenderlo partendo dall’analisi sintattica, non era quindi del tuttosprovveduto, anche se il passaggio fu certamente traumatico. Anche limitandosi alle grammatiche CFG,un parser in grado di processare porzioni non irrilevanti di una lingua naturale apparve ben presto come untraguardo molto lontano. Potrebbe apparire contraddittorio, dopo che nelle sezioni precedenti si era vistocome addirittura le grammatiche PSG, le piu astruse della gerarchia di Chomsky, siano provatamente deci-dibili da una TM. Purtroppo un conto sono le dimostrazioni teoriche dell’esistenza di un algoritmo, e benaltro discorso e la sua effettiva realizzazione.

Jay Earley fu il primo ad inventare un parser decente per il linguaggio naturale [Earley, 1970], segui-to immediatamente da un altro algoritmo, denominato CKY, dal nome dei tre autori: Cocke, Kasami eYounger [Kasami, 1965, Younger, 1967]. Pur essendo profondamente diversi nell’impostazione i due han-no prestazioni simili, per darne un’idea si illustrera solamente il secondo, che e relativamente piu semplice,usando sempre il famoso primo esempio di Chomsky, quello in Fig. 3.1. Questo parser procede analiz-zando le parole della frase, la cui categoria e data dal lessico, tramite associazione di simboli pre-terminalie terminali. Il tentativo che viene effettuato per ogni pre-terminale, e di vedere se esiste una regola nella

Le Matematiche del Linguaggio 89

grammatica lessico

S =⇒ NP V P

NP =⇒ N

NP =⇒ D N

V P =⇒ Vi

V P =⇒ Vt NP

man Nball Nhit Vt

the D

Tabella 3.9: Grammatica con lessico separato, utilizzato nell’esempio di parser.

categoria segmento di frase compresa tra azione regola identificata

1 D the 0 ÷ 1 shift –

2 N man 1 ÷ 2 shift –

3 NP the man 0 ÷ 2 reduce NP ⇒ D N

4 Vt hit 2 ÷ 3 shift –

5 D the 3 ÷ 4 shift –

6 N ball 4 ÷ 5 shift –

7 NP the ball 3 ÷ 5 reduce NP ⇒ D N

8 VP hit the ball 2 ÷ 5 reduce V P ⇒ Vt NP

9 S the man hit the ball 0 ÷ 5 reduce S ⇒ NP V P

Tabella 3.10: Tutti i passi eseguiti del parser CYK per l’analisi della frase the man hit the ball.

grammatica, in cui tale simbolo compare al posto piu a destra. In tal caso, occorre verificare se il simboloalla sua sinistra nella regola corrisponda a cio che e stato precedentemente individuato nella frase, nelleadiacenze a sinistra dell’elemento ora sotto esame. Si supponga per esempio, che il simbolo terminaleesaminato, sia di categoria X , vengono cercate nella grammatica tutte le regole del tipo:

Z =⇒ Y X

verificando se quello che c’e nella frase immediatamente a sinistra di X sia effettivamente di categoria Y .Se tutto questo e successo, bene, si possono raggruppare felicemente i due simboli in quello che comparea sinistra della regola di produzione (nell’esempio, Z), operazione chiamata reduce. Insomma, si cercadi percorrere le regole della grammatica all’indietro. Se non si e verificato nulla di questo, si continua,prendendo la parola successiva dalla frase, operazione shift, e si ripete il procedimento. La grammatica e illessico minimi per questo esempio sono nella Tab. 3.9.

Visto che c’e l’esigenza di cercare parti da abbinare, questo parser usa dei delimitatori per segnare dovecomincia e finisce nella frase un segmento, questo lo si realizza facilmente nel modo seguente:

the man hit the ball0 1 2 3 4 5

In Tab. 3.10 vi sono tutti i passi di parsing con questo algoritmo, si seguiranno ora analiticamente quelliiniziali. La prima parola della frase, the, e di categoria D, e nella grammatica non esiste nessuna regola(come si puo verificare dalla Tab. 3.9) in cui D risulti l’elemento piu a destra, quindi si passa avanti,operazione shift. Al passo 2 il nuovo termine e man, di categoria N , cui invece corrisponde una regola,nella grammatica, dove N risulta proprio l’ultimo elemento a destra:

NP =⇒ D N

Quindi si puo procedere, verificando se quel D alla sua sinistra e compatibile con la frase, dove nel posto asinistra di man i trova proprio un the, quindi si puo operare la reduce, nel passo 3, ad un unico costituenteNP , the man. Nella Fig. 3.21 e rappresentata la sequenza di costruzione dell’albero sintattico con questoparser.

Anche se questi primi parser sono rimasti ancora oggi dei modelli di riferimento, naturalmente vi so-no stati non pochi sviluppi [Dowty, 1985, Tomita and Bunt, 1995], su cui non ci si sofferma, passandoad illustrare il secondo aspetto indispensabile per una capacita linguistica del computer, oltre a quellosintattico.

90CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

3

NP

D

the

N

man

7

NP

D

the

N

ball

8VP

hit NP

D

the

N

ball

9 S

NP

D

the

N

man

VP

hit NP

D

the

N

ball

Figura 3.21: Fasi della formazione dell’albero sintattico sulla frase the man hit the ball; i numericorrispondono ai passi del parser.

ASubset−−−−→ B A ⊂ B

AMember−−−−−→ B A ∈ B

Af−→ B f (A,B)

Af

−−→ B∀x (x ∈ A ⊃ f (x,B))

A

f

−−−→ B ∀x∃y (x ∈ A ⊃ (y ∈ B ∧ f (x,B)))

Tabella 3.11: Equivalenza tra i tipici archi utilizzati nelle reti semantiche (a sinistra) e la logica matematica (a destra).

Ontologie da ingegneri

Mantenendo idealmente il test di Turing come traguardo per decretare l’intelligenza del computer, la com-prensione del linguaggio in senso chomskiano non e che una condizione preliminare, la cui controparteriguarda il lessico, e le possibilita che si proietti in un sistema concettuale paragonabile a quello umano.A differenza del parsing, rappresentare conoscenze e stato fin dall’inizio uno dei problemi centrali nell’in-telligenza artificiale, incanalandosi a sua volta entro un dominio divenuto specifico, quello della cosiddetta“ingegneria della conoscenza”, il cui scopo e individuare la codifica migliore per immagazzinare nei com-puter “ontologie”. Questo e il termine divenuto standard nel gergo dei programmatori di questo settore,usato con una disinvoltura inusuale per i filosofi. Le ontologie, piu o meno assimilabili ai concetti, vannodai marchi di detersivi (tra le applicazioni recenti i supermercati virtuali effettivamente vanno per la mag-giore) al concetto di tempo, seguendo l’accattivante slogan di Jerry Hobbs dell’Ontological Promiscuity[Hobbs, 1985].

Una maniera possibile di rappresentare conoscenze, che si presta bene alla successiva deduzione di cioche possa conseguire dalle conoscenze note, era gia da tempo sul mercato: la logica. La quale offre ilnon piccolo vantaggio di essere immediatamente implementabile in una TM, ed infatti e stata fin dall’inizioe ancora oggi il riferimento fondamentale dell’intelligenza artificiale. Per la precisione nella logica c’everamente molta matematica su come comporre tra loro conoscenze e dedurne altre, meno per quantoriguarda la rappresentazione semantica delle conoscenze atomiche, l’indicazione principale risale a RudolphCarnap, con i suoi postulati di significato, una serie di condizionali quantificati universalmente che mettendoin relazione tra loro certi predicati, ne caratterizza gli aspetti semantici [Carnap, 1952].

Verso gli anni ’60 trovarono apprezzamento diversi formalismi apparentemente alternativi, in realtadel tutto equivalenti alla logica, come le reti semantiche [Quillian, 1968]. La loro caratteristica dovrebbeessere quella di usare archi (link), come nei grafi (vedi p. 3.1.2), che in effetti introducono solamente un

Le Matematiche del Linguaggio 91

cambiamento di notazione, e delle limitazioni, rispetto alla logica, come mostrato nella Tab. 3.11. Non eescluso che il relativo successo di questi approcci sia anche dovuto ad una certa difficolta nel’uso rigorosodella logica, le cui frequenti interpretazioni confuse (fra le altre, tra appartenenza di individui ad insiemi econdivisione di proprieta tra individui) aveva dato adito ad imbarazzanti critiche [McDermott, 1976]. Nonche le reti semantiche aiutassero a diradare le confusioni, lo stesso concetto di “arco” che congiunge duenodi di un grafo, era caricato di significati imprecisi e vagamente riferiti ad ipotesi sul funzionamento dellamemoria umana di carattere psicologico, problemi messi a nudo fra l’altro da un articolo il cui titolo parlachiaro: What’s in a link? ... [Woods, 1975].

Una sfida effettiva alla logica e stata invece quella lanciata da Marvin Minsky, con la proposta dei frames[Minsky, 1974]. La sua critica ai sistemi fondati sulla logica classica si puo condensare in due punti:

1. la separazione tra proposizioni e calcolo deduttivo

2. la monotonicita

Il primo punto avrebbe pesanti conseguenze sull’efficienza di un sistema, in quanto ogni nuovo frammentodi conoscenza, espresso tramite una proposizione, comporterebbe un numero incontrollato di deduzioni,di cui la maggior parte inutile, con il perenne rischio di inconsistenze. Il secondo stride con la realta dellecose, dove verita e falsita sono costantemente mutabili, in virtu di nuovi fatti. Il nuovo metodo che dovrebbesuperare questi problemi e basato sul frame, una struttura che descrive situazioni in maniera stereotipale,come collezione di diversi attributi. Questi sono divisi in due gruppi, nel primo confluiscono le proprietache sono necessariamente vere, mentre il secondo e costituito da terminali, posti vuoti da riempire conelementi dipendenti dall’attuale situazione. Ogni terminale puo essere completato da un default, valorepredefinito da usare se non c’e modo di stabilirne uno dai fatti e da una serie di markers, condizioni chenecessariamente deve soddisfare.

Il punto 1) di sopra viene superato perche i terminali possono assumere formato deduttivo, nel sensoche sono domande normalmente poste in quella situazione, la cui risposta va cercata attraverso altri frame,in un procedimento di matching. Ecco quali sarebbero i terminali in un frame che riguarda il compleannodi un bambino X , con Y un altro bambino invitato e P il regalo:

Y must get P for X Choose P!X must like P Will X like P?

Buy P Where to buy P?Get money to buy P Where to get money(Sub-questions of the “present” frame?)

Y must dress up What should Y wear?[Minsky, 1974, p. 38]

Riguardo al punto 2), le verita immutabili sono solo una parte nei frame, tutti i terminali sono suscettibilidi revisioni, non solo, ma ad una stessa situazione possono competere piu frame, che possono riflettere, peresempio, diversi punti di vista.

Gli anni successivi hanno dato torto a Minsky. I frame e altre proposte similari sono praticamentescomparsi, mentre la logica e diventata dominante nei sistemi di rappresentazione di conoscenza classici.Si e dell’avviso che un buon motivo sia la grande maturita dell’impianto logico contemporaneo, dove graziealla sua tradizione molti problemi hanno trovato approfondite analisi e proposte complesse, come nellelogiche temporali, modali, non monotone (per toccare il secondo punto della critica di Minsky), e sofisticatimetodi di risoluzione sono oggi disponibili.

All’interno di CYC

Si vuole illustrare ora con un certo dettaglio il CYC (da enCYClopedia) di Douglas Lenat, probabilmente ilpiu rappresentativo sistema di conoscenze attuale, certamente quello su cui si e concentrato il maggiore im-pegno dell’intelligenza artificiale classica: oltre duecento anni-uomo dal 1984 ad oggi [Lenat and Guha, 1989,Lenat, 1995]. Le ambizioni di questo progetto erano proprio di ricostruire nel computer il common-senseumano, supposto risiedere in una serie di conoscenze esplicite, organizzabili in ontologie. Nei primi quattroanni del suo sviluppo furono adottati i frame, progressivamente fu aggiunto un sistema di calcolo dei pre-dicati al di sopra del sistema di frame, che poi furono progressivamente abbandonati in favore di una logicarigorosa, oggi non ce n’e traccia.

92CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTERAll assertions for #$Puffo file:///alex/tar/cyc_puffo_files/cg_002_data/cg_002.html

1 of 1 07/31/2003 08:19 AM

Collection : Puffo

GAF Arg : 1

Mt : UniversalVocabularyMtisa : FirstOrderCollection

Mt : BaseKBgenls : Vertebrate ViviparousAnimal Animal IntelligentAgentcomment : "I Puffi sono entita‘ viventi intelligenti, di colore blu, con comportamento sociale molto simile agli uomini"

GAF Arg : 2

Mt : BaseKB(isa PuffoDotto Puffo)(isa PuffoPigro Puffo)(isa Puffetto Puffo)(isa Puffettina Puffo)

isa Antecedent Rules

Mt : BaseKBDirection : Forward

(implies (and (isa ?P Puffo) (owns ?P Capanna)) (owns ?P Televisione))

Copyright © 1995 - 2002 Cycorp. All rights reserved.

Figura 3.22: Esempio di Collection in CYC

Si entra ora in merito a come e fatto il CYC, con dei semplici esempi. In Fig. 3.22 viene mostra-to, tramite l’interfaccia stile browser del CYC, come e rappresentata una certa ontologia, quella denotatadal termine Puffo. La “collezione” (Collection) e l’entita base, che assomiglia molto all’accezione ma-tematica di insieme. La differenza notevole e che possono esistere due collezioni diverse contenenti glistessi elementi, cio permette di utilizzare queste strutture in modo intenzionale, che gli stessi individui ap-partengano contemporaneamente, per esempio, alle collezioni ImpiegatiComunaliMotecuccoli eSquadraBocciofilaMotecuccoli e informativo.

Continuando nella Fig. 3.22, le GAF (Ground Atomic Formula) sono asserzioni riguardo al terminePuffo, in cui non compaiono condizionali, suddivise in quelle dove tale termine occupi il posto come pri-mo o come secondo argomento. L’indicazione Mt: specifica a quale microteoria appartiene l’asserzione.Sarebbero dei raggruppamenti in cui e partizionato tutto il sapere di CYC, e possibile in fase di inferenzelimitare la ricerca ad una determinata microteoria, con un duplice vantaggio: una miglior efficienza e la pos-sibilita del sistema di accettare contraddizioni, purche non all’interno di una stessa microteoria. Il predicatofondamentale, come nella maggior parte dei sistemi di conoscenze e isa, che assegna l’appartenenza diun termine ad una collezione. Da quello che si e detto sopra, possono coesistere diverse asserzioni isa. IlCYC cerca di essere quanto piu preciso in questi predicati di base, per cui ne esiste uno diverso, genls, peresprimere che il termine sia un sottoinsieme di altre collezioni, naturalmente non sarebbe possibile usaretale predicato su termini individuali. La FirstOrderCollection e la collezione di tutte le collezionii cui elementi sono individui. Un predicato particolare e comment, il cui secondo argomento e una stringadescrittiva dell’ontologia.

Terminate le GAF, e mostrata una regola, ovvero un’asserzione condizionale, in cui il termine comparenell’antecedente. E espressa mediante uno specifico linguaggio di programmazione, il CycL, molto simileal LISP (vedi p. 84):

( implies( and

( isa ?P Puffo )( owns ?P Capanna )

)( owns ?P Televisione )

)

L’espressione ?P indica un termine variabile, inteso quantificato universalmente al livello piu esternodell’asserzione, a meno di diverse esplicite indicazioni, implies e and sono gli operatori logici, rispet-tivamente, ⊃ e ∧. Come in LISP l’etichetta prevedere rigorosamente notazione prefissa e parentesi tonde.Il significato e che tutti i fortunati Puffi possessori di capanna (sono una minoranza) hanno anche un televi-sore. La Fig. 3.23 mostra invece il predicato likesAsFriend, che e sempre definito tramite isa, il cuisignificato e meglio focalizzato anche tramite delle not isa: per esempio non e riflessivo (non e detto che

Le Matematiche del Linguaggio 93

GAF index for #$likesAsFriend file:///archive2/publications/books/mat_ling/ver3/opencyc/cyc_li...

1 of 1 07/31/2003 08:00 AM

Predicate : likesAsFriend

GAF Arg : 1

Mt : UniversalVocabularyMtisa : ObjectPredicate BinaryPredicate

Mt : AgentGVocabularyMtisa : InterPersonalRelationSlot

Mt : AgentGMtnot isa : TransitiveBinaryPredicate IrreflexiveBinaryPredicate SymmetricBinaryPredicate

AsymmetricBinaryPredicate AntiSymmetricBinaryPredicateReflexiveBinaryPredicate

Mt : AgentGVocabularyMtgenlPreds : spatiallyRelated likesObject acquaintedWithgenlInverse : acquaintedWith

Mt : BaseKBarity : 2 arg1Isa : PerceptualAgentarg2Isa : PerceptualAgent

Mt : AgentGVocabularyMtcomment : "An instance of both InterPersonalRelationSlot and #$LikesPredicate that relates a

given agent to another agent s/he feels friendliess toward. (likesAsFriend AGENT1 AGENT2) means that AGENT1 enjoys interacting socially with AGENT2. See alsoFriendliness. Note that this does not preclude AGENT1’s "liking", or being fond of,AGENT2 in other senses (e.g. a romantic sense) as well."

GAF Arg : 2

Mt : HumanSocialLifeMt(genlPreds friends likesAsFriend)

Copyright © 1995 - 2002 Cycorp. All rights reserved.

Hierarchical Display: likesAsFriend http://localhost:3602/cgi-bin/cyccgi/cg

1 of 1 07/30/2003 05:17 PM

Hierarchical display radiating from likesAsFriend

isa: InterPersonalRelationSlot, PublicConstant, PublicConstant-CommentOK, PublicConstant-DefinitionalGAFsOKContext: Union of all contexts

Predicate: genlPreds, genlInverseIndex: 2

Parameters updated at 17:16:42 on 07/30/2003

Change Hierarchy Browser Settings

-> awareOf acquaintedWith [AgentGVocabularyMt]... hasEmotionAboutExistingThing likesObject [AgentGVocabularyMt]... likes-Generic likesObject [AgentGVocabularyMt]... positiveVestedInterest likesObject [AgentGVocabularyMt]... temporallyIntersects acquaintedWith [AgentGVocabularyMt]-> spatiallyRelated

likesAsFriend [AgentGVocabularyMt -> ( acquaintedWith, likesObject, spatiallyRelated)] friends [HumanSocialLifeMt] friends [BaseKB, BiologicalSocialVocabularyMt] ... *see above* mate [HumanSocialLifeMt] mate [BaseKB, BiologicalSocialVocabularyMt] ... *see above* spouse [HumanSocialLifeMt] spouse [BaseKB, HumanSocialLifeMt] ... *see above*

Go to Top

Copyright © 1995 - 2002 Cycorp. All rights reserved.

Figura 3.23: Esempio di predicato in CYC, a sinistra l’elenco delle principali asserzioni, a destra la sua collocazionegerarchica tra altri predicati collegati.All assertions for #$feelsEmotion file:///alex/tar/fe_files/cg_002_data/cg_002.html

1 of 1 07/30/2003 08:20 PM

Predicate : feelsEmotion

GAF Arg : 1

Mt : UniversalVocabularyMtisa : BinaryPredicate ObjectPredicate

Mt : UniversalVocabularyMtarity : 2

Mt : BaseKBarg1Isa : IntelligentAgentarg2Isa : FeelingAttribute

Mt : BaseKBcomment : "(feelsEmotion AGENT FEELING) means that AGENT has the FeelingAttribute FEELING. For example (feelsEmotion

AGENT (HighAmountFn Happiness)) means that AGENT is feeling a high amount of happiness."

Copyright © 1995 - 2002 Cycorp. All rights reserved.

Figura 3.24: Il predicato feelsEmotion in CYC, le asserzioni definitorie.

ci si piaccia), nemmeno simmetrico (quante volte l’amicizia non e ricambiata) ma neanche antisimmetrico(sarebbe veramente un eccesso di pessimismo). Come si vede ci si trova in pieno in una logica del secondoordine, ma sapientemente irrobustita tramite l’uso forzato di tipi. Tutte le definizioni di termini che sianopredicati devono includere, per ogni argomento, una predicazione tramite argIsa, che stabilisce qual’e lacollezione i cui elementi sono autorizzati ad entrare come argomenti in quel predicato. Per cui

( argIsa likesAsFriend 1 PerceptualAgent )

sancisce che il primo argomento di likesAsFriend, ovvero chi prova il sentimento di amicizia, deveappartenere alla collezione dei PerceptualAgent. Mentre isa e usato sia per individui che per pre-dicati, non e cosı per genls, se si vuole indicare che il predicato in oggetto e una specializzazione di unpredicato piu generale occorre usare genlPreds. Tramite questo predicato vengono a formarsi comples-se gerarchie tra termini, in Fig. 3.23 si puo vedere la collocazione di likesAsFriend, che e un casoparticolare (in diverse microteorie) di awareOf o hasEmotionAboutExistingThing, mentre suespecializzazioni sono friends e, ancor piu speciale, spouse.

In Fig. 3.24 sono mostrate le asserzioni definitorie principali di un altro predicato, feelsEmotion.Notare che il suo secondo argomento e di tipo FeelingAttribute che essendo un attributo soggettoa gradualita (come nell’esempio, la felicita non e assoluta ma in un certo grado), deve essere il risultatodi una specifica funzione, quale HighAmountFn. Le funzioni sono un’altra categoria di entita in CYC,e restituiscono NAT (Non-Atomic Terms), ovvero individui che non hanno esistenza nel sistema se non almomento dell’uso di tali funzioni.

94CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

I termini mostrati finora non erano puramente casuali, ma gli ingredienti per vedere la parte piu im-portante: il sistema deduttivo. Ogni inferenza viene innescata dalle query, che hanno lo stesso formato diun’asserzione, ma anziche venir asserita e verificata nel sistema. Per esempio con:

EL Query :( feelsEmotion Puffettina ?E )No answers

si e curiosato riguardo le emozioni di Puffettina, su cui CYC non e in grado di dire niente. Si possonointrodurre nuove regole nel sistema, che diano qualche informazione al proposito:

( implies( likesAsFriend Puffetto Puffettina )( feelsEmotion Puffettina ( HighAmountFn Happiness ) )

)( implies

( and( isa ?P Puffo )( owns ?P Televisione )

)( likesAsFriend Puffetto ?P )

)

Dove con la prima si dice che Puffettina si riempirebbe di felicita se Puffetto le fosse amico, mentre laseconda regola dice che Puffetto si sente opportunisticamente amico di chiunque possiede una televisione(cosa che a lui manca). Ripetendo la query non si avrebbe nessuna risposta come prima.

Ma non appena si asserisce:

( owns Puffettina Capanna )

si ottiene come risultato della query:

EL Query :( feelsEmotion Puffettina ?E )Answers (1 new)Answer ?E (HighAmountFn Happiness)

Il sistema si e reso conto che, in un modo o nell’altro Puffettina e molto felice, dal momento che possedendouna capanna si e ritrovata anche il televisore, motivo della subdola affezione di Puffetto.

I procedimenti deduttivi di base sono quelli diventati standard in questi sistemi, la forma generale e ilmodus-ponens, che viene propagato in tutti i casi riconosciuti pertinenti dal meccanismo di unificazione,che consiste nel cercare corrispondenze tra costituenti atomici. Per esempio, nella regola sulle profondemotivazioni dell’affetto di Puffetto, il costituente atomico

( owns ?P televisione )

viene confrontato con tutte le predicazioni attualmente esistenti di owns in cui il secondo argomento siatelevisione. Tutti i casi trovati vengono conservati, e si procede a verificare gli altri costituenti atomicicon lo stesso quantificatore, se soddisfano unificazioni con termini comuni ai primi, e cosı via. A questoschema di massima si aggiungono non pochi stratagemmi implementativi, per poterlo far funzionare in ununiverso ampio di concetti, alcuni sono di comune dominio nei sistemi deduttivi, come la riduzione ad unformato interno standard di tutte le regole, altri sono del tutto specifici del CYC. Per esempio l’unifica-zione, ogni volta che riguarda uno dei predicati piu comuni, viene eseguita tramite un motore particolare,specializzato solo su di un solo predicato, e questi motori possono agire in parallelo (ve ne sono circa uncentinaio).

L’organizzazione delle ontologie in CYC e ripartita gerarchicamente in quattro livelli, come mostratonella Fig. 3.25. Il livello delle teorie specifiche di un dominio e assente nella versione standard di CYC, eviene sviluppata caso per caso per le sue applicazioni. Naturalmente il livello che piu incuriosisce il filosofoe il superiore, la cosiddetta upper ontology, una sorta di revisione ed espansione ad uso e consumo dellecategorie aristoteliche.

Nella Fig. 3.26 sono state inserite alcune delle principali ontologie che concorrono a questa organizza-zione piu astratta del sapere. In cima a tutto c’e la collezione universale Thing, ovvero per qualunque ?Eche esista in CYC e vera la:

( isa ?E Thing )

Le Matematiche del Linguaggio 95

upperontology

core theories

domain specific theories

facts (databse instances)

abstract conceptsThing

space, time, causality

Figura 3.25: La struttura generale delle ontologie in CYC

e per qualunque collezione ?C presente in CYC deve anche essere vera la :

( genls ?C Thing ).

Esiste tutta un’organizzazione per le entita che hanno esistenza temporale, con il supporto di una sofisticatalogica temporale, che qui per economia di spazio non e trattata. Chiaramente molte scelte sono discutibilie comportano assunzioni filosofiche problematiche. Per esempio, il concetto di “sostanza” (stuff ), e risoltouniformemente mediante collezioni, che fanno parte di ExistingStuffType. L’ontologia Water equindi la collezione di tutti gli individui fatti d’acqua, citando il predicato comment:

An instance of ChemicalCompoundType and a specialization of InanimateThing. Ea-ch instance of Water is one piece of some (pure or impure) portion of the chemi-cal compound H2O. Instances of Water may be in a gaseous, liquid, or solid sta-te (see stateOfMatter); they may be salty or not, drinkable or not. Examples in-clude portions of the ocean, such as the BayOfBiscay and the BayOfBengal (see al-so SeaWater); bodies of fresh water, such as NiagaraFalls and the GangesRiver; quan-tities of chlorinated water (see PoolWater); and the contents of bottles of to-nic water (see SeltzerWater). Any portion of liquid that consists mostly of wa-ter but differs from it in one or more important properties (as does e.g. uri-ne, coffee, and lemonade) is not itself an instance of Water, but has an instan-ce of Water as its main constituent (see mainConstituent)18.

Allo stesso modo Steel e definitoriamente la collezione degli individui di acciaio. E facile vedere comeogni sostanza possa arbitrariamente oscillare tra una collezione vuota (considerando che nella realta nonesistono oggetti composti unicamente di quella sostanza allo stato puro) e una collezione di moltissimioggetti (in cui ci sia una certa quantita di tale sostanza).

In conclusione, per ricollegarsi all’iniziale modello del computer alle prese con il test di Turing, la dispo-nibilita del sapere di CYC nella comprensione e produzione del linguaggio naturale e incorporata tramite unproprio parser sintattico, il CycNL, e una mappatura delle ontologie sul lessico di WordNet. Quest’ultimoe un altro grande progetto di semantica computerizzata della lingua inglese, intrapreso nel 1985 da Geor-ge Miller, come implementazione reale di una psicolessicologia, ovvero la sistemazione informatica delleparole piu aderente possibile alla rete di associazioni mentali dell’uomo [Miller et al., 1990, Miller, 1991].

Si possono sintetizzare i principi con cui funziona il WordNet nella seguente lista:

• ad ogni unita lessicale e associato un set di possibili significati, chiamato synset

• le relazioni tra nodi semantici sono di sei tipi possibili:sinonimia antonimiaiperonimia iponimiaolonimia meronimia

18Un’istanza di ChemicalCompoundType e una specializzazione di InanimateThing. Cia-scun istanza di Water e un pezzo di qualche porzione (pura o impura) del composto chi-mico H2O. Istanze di Water possono essere allo stato gassoso, liquido o solido (vedistateOfMatter); possono essere salate o no, potabili o no. Esempi sono porzioni del-l’oceano, come BayOfBiscay e BayOfBengal (vedi anche SeaWater); corpi di acqua frescacome NiagaraFalls e GangesRiver; quantita di acqua clorata (vedi PoolWater); e il con-tenuto di bottiglie di acqua tonica (vedi SeltzerWater). Ogni porzione di liquido checonsista soprattutto di acqua ma ne differisca in uno o piu proprieta importanti (comeurina, caffe e limionata) non e un’istanza di Water, ma possiede come suo costituenteun’istanza di Water (vedi mainConstituent).

96CAPITOLO 3. AMBIZIONI MATEMATICHE DELLA GRAMMATICA, DESIDERIO DI

GRAMMATICHE DEL COMPUTER

Thing

Individual

ParitallyIntangible

Intangible

SpatialThing

ParitallyIntangibleIndividuals

Collection

ExistingObjectTypeAgent−Generic

SetMathematicalSomethingExisting Event

IntangibleIndividuals

ExistingStuffType

TemporalThing

SetOrCollection

MathematicalObject

ParitallyTangible

Figura 3.26: Alcune delle ontologie superiori in CYC

• vi sono quattro categorie sintattiche:

nomiverbiaggettiviavverbi

All’interno di CYC la mappatura di una certa ontologia e stabilita tramite il predicatosynonymousExternalConcept. Il modulo CycNL puo realizzare la traduzione di un enunciato in-glese nel formato logico CycL, oppure viceversa la sintesi in linguaggio naturale del risultato prodotto dalmotore inferenziale di una query.

Capitolo 4

Matematiche in crisi

Le matematiche del linguaggio esposte nei precedenti capitoli hanno vissuto momenti difficili. Sia la logica,sia le grammatiche formali, che il computazionalismo, hanno subito una serie di duri colpi, che sicuramentenon intaccano il loro valore, confermato in generale dagli indubbi progressi scientifici, e in particolare dallenotevoli conoscenze specifiche sul linguaggio che hanno prodotto. Ne esce invece ben meno credibile laloro candidatura a matematiche del linguaggio, nel senso che si e voluto dare nell’introduzione.

I motivi di queste crisi sono abbastanza complessi e le origini delle critiche non poco diversificate, inquesto capitolo si tenta di tracciarne un filo. Anzitutto si sono considerati due tipi di problemi diversi: daun lato le difficolta interne, che sono emerse negli sviluppi stessi di queste matematiche, e dall’altro delleistanze esterne, che hanno opposto critiche e esercitato pressioni per cambiamenti di rotta delle ricerche.I problemi interni sono emblematici nel caso della logica, dove sono proprio i suoi principali esponenti aportare alla luce inquietanti difficolta che ne incrinano la costruzione. Per il computazionalismo e diverso, isuoi problemi interni si manifestano soprattutto tramite le evidenze empiriche degli insuccessi, specificata-mente nei confronti del linguaggio, che contrastando con gli iniziali entusiasmi e le reiterate dichiarazionidi fiducia, finiscono per prestare facile fianco alle critiche.

Le critiche del primo gruppo, che cioe emergono dall’interno stesso di queste matematiche, sono par-ticolarmente significative, perche non affette da pregiudizi o da ostilita a priori nei confronti in generaledi ogni processo di matematicizzazione di problematiche umanistiche. Esistono naturalmente anche posi-zioni critiche di questo genere, ma proprio per questo atteggiamento preconcetto sono spesso scarsamenteincisive e poco pregnanti.

Nel selezionare gli elementi di crisi esterni piu significativi, si puo dire che l’aspetto complessivamentesaliente di questo gruppo di critiche, dal punto di vista di questa ricerca, non sia tanto nel segnalare gli even-tuali errori delle matematiche del linguaggio in difficolta, quanto nell’evidenziare cio che tali matematicheavevano trascurato, reclamandone la centralita per un’effettiva comprensione del linguaggio umano.

4.1 Il declino della logica

Il periodo dopo Frege non e certo un momento di decadenza per la logica, anzi il primo dopoguerra eestremamente fecondo, con una grande concentrazione di interessi attorno ai problemi logici da parte diuna cerchia di pensatori formidabile. Questo apice della ricerca in logica avviene pressoche interamenteall’insegna della svolta, impressa da Frege, attorno a due cardini precisi: il rifiuto di ogni interesse ver-so i meccanismi mentali del ragionamento e del linguaggio, e la prevalenza della logica all’interno dellamatematica.

Forse e proprio questo fervore di studi, la coincidenza collaborativa di tante menti feconde, ad averportato molto presto alla scoperta di inaspettate limitazioni e difficolta, che inizialmente a loro volta furonodi grande stimolo, ma col tempo finirono per attenuare non poco le prime ambizioni della logica matematica.Ironicamente la constatazione dei suoi limiti ha anche coinciso con la sua maggiore ricaduta: l’informatica ele nuove ambizioni, quelle dell’intelligenza artificiale. Questo non e oggetto di questa sezione, dove si vedrainvece il ridimensionamento che, a seguito dei fatti accennati, ha subito il ruolo della logica all’interno della

98 CAPITOLO 4. MATEMATICHE IN CRISI

matematica nel suo complesso. Questa graduale perdita di egemonia e stata naturalmente accompagnata dauna crescita di altre branche, che oggi caratterizzano la complessa diversificazione della matematica.

4.1.1 Incompletezza e altri disagi

I problemi per la logica erano cominciati presto, proprio durante la sua fondazione, con quel gran dispia-cere che Russell, tramite il suo paradosso, diede a Frege (vedi §2.2.4), tanto da non trovare piu energie emotivazioni per cercare nuove strade, rifugiandosi nella stretta scappatoia provvisoria, la legge V “debole”(2.91).

Era doveroso che fosse Russell stesso ad ideare un rimedio piu organico, ed e cio che fece con la suafamosa teoria dei tipi, prima in appendice ai Principles [Russell, 1903], e poi nell’Introduzione dei Prin-cipia Mathematica [Whitehead and Russell, 1913]. Si tratta di una classificazione gerarchica delle entitadi un sistema logico, partendo dagli individui, poi insiemi di individui, insiemi di insiemi di individui, ecosı via, con la regola che e possibile predicare solamente su entita dello stesso tipo. E un’idea abbastanzagenerale, che ha avuto notevole successo e diversi ampliamenti, e per esempio la base della modellisti-ca di Montague [Montague, 1973], cosı come di diverse recenti formalizzazioni della programmazione[Asperti and Longo, 1991].

Un’interessante alternativa e quella di Quine delle stratificazioni [Quine, 1937], in cui anziche classifi-care a priori le entita, viene posta una condizione prelimiare all’esistenza stessa delle classi. Niente di malea dire che A non appartiene ad A, solamente che la (2.90) non e sufficiente a dire che a questoconcetto corrisponda automaticamente una classe, no, la sua esistenza e subordinata alla “stratificazione” diquel concetto. In cosa consiste: e necessario che nell’enunciato del concetto, tutte le occorrenze del genereappartiene ad, mettano in relazione elementi a strati, come in una cipolla. C’e una semplice ricettaper verificarlo: si etichettano con dei numeri gli argomenti delle appartiene ad. Se e possibile farlo inmodo che il numero a sinistra sia sempre minore di quello a destra, bene, il concetto ha superato la verificae la classe corrispondente esiste.

La prima risposta a Hilbert, sempre negativa

Il computer, come visto (§3.2.1), era nato quasi per caso, da quell’ingegnoso metodo ideato da Turing perrispondere a uno degli interrogativi basilari posti da Hilbert, l’Entscheidungsproblem, cui la macchina diTuring dava una risposta negativa. Un altro problema non da meno, alla base del programma hilbertiano difondazione della matematica, era quello della completezza1 di un sistema formale, ovvero se di qualunqueenunciato formalmente esprimibile in quel sistema fosse possibile provarne la verita/falsita.

Kurt Godel prima di Turing aveva gia detto il suo “no” anche in risposta a tale quesito [Godel, 1931].La sua argomentazione ha la gradevole caratteristica di essere apprezzabile anche in termini discorsivi,senza nessuna difficolta: la risposta negativa deriva dall’aver individuato un enunciato che e sicuramenteindimostrabile nel sistema formale dell’aritmetica. Eccolo:

questo enunciato non e dimostrabile. (4.1)

Ci sono solo due alternative, si puo prendere per buono il contenuto di questa frase, e quindi l’aritmeticae incompleta, oppure cercare di confutarla, asserendo quindi che la (4.1) e falsa. Si e imboccato cosı unastrada ancor peggiore, perche si sta asserendo in contemporanea la falsita e la verita dello stesso enunciato,vale a dire dall’aritmetica nascono contraddizioni, il sistema e incoerente. Tra i due mali, si finisce perscegliere l’incompletezza.

Ci sono due aspetti particolari in questa presentazione informale della dimostrazione, anzitutto si per-cepisce quell’odore di autoreferenzialita oramai familiare, dal paradosso del mentitore all’Halting Problemdi Turing, passando naturalmente per Russell. In secondo luogo, ci si sta riferendo al sistema formaledell’aritmetica, ma certo la (4.1) non fa pensare tanto ad un enunciato aritmetico, come potrebbe essere:

il successore di un numero primo maggiore di 2 e divisibile per 2

1In tedesco Vollstandigkeit, citato di rado. Per l’altro problema di Hilbert, l’uso quasi esclusivo del termine originale nella lettera-tura matematica, anche in lingua inglese, e stato sempre opportuno in quanto esistono diverse accezioni matematiche di “decisione”,mentre parlando di Entscheidungsproblem non ci si puo sbagliare. La completezza, invece, non lascia adito ad ambiguita.

Le Matematiche del Linguaggio 99

che e suscettibile di una scrittura concisa, nel formalismo abituale:

∀n∃m(

n > 2 ∧ P (v) ⊃ ((n+ 1) = 2m))

(4.2)

dove P (·) e il predicato che restituisce vero se · e un numero primo.Per quanto riguarda il primo aspetto, c’e una differenza importante rispetto a Russell e al mentitore: qui

non si e davanti ad un’antinomia, cioe un paradosso che, mediante regole corrette, produce una contraddi-zione. In questo caso, usando la distinzione in [Quine, 1966], il paradosso e “veridico”, ovvero non vuolecondurre alla contraddizione che e lı in agguato, ma alla verita che ne consegue rifiutandola. Riguardo ilsecondo aspetto, dare una veste aritmetica alla frase (4.1), subentra la parte tecnica della dimostrazione, conl’ingegnosa trovata di Godel: un metodo per associare qualunque enunciato, come la (4.2), ad un numeronaturale distinto, in modo da poter sfruttare l’aritmetica stessa come metamatematica, cioe come strumentoper trattare proprio le asserzioni sulla matematica.

Se ora quindi si assegna un numero a tutti gli enunciati del sistema che abbiano una sola variabile,costituita da un numero naturale, si puo chiamare fn (·) l’enunciato associato al numero naturale n, efn (m) la sua espressione quando si sostituisca il numero m alla sua variabile. Usando il predicato d (·),che ha come argomento un’enunciato valido del sistema, e valore vero nel caso · sia dimostrabile, e falsoaltrimenti, si puo considerare il particolare insieme:

K ={

n ∈ N | ¬d(

fn (n))}

(4.3)

di quei numeri n che corrispondono ad una formula fn (·), non dimostrabile quando applicata al nume-ro n stesso. A questo punto non e difficile definire una nuova formula, che asserisce semplicementel’appartenenza o meno di un numero naturale a K:

f (n)def= n ∈ K (4.4)

Questo e un enunciato che ha un’unica variabile, di tipo numero naturale, pertanto avra un suo numeroassociato, che si puo chiamare k, quindi fk (·) ≡ f (·). Bene, l’incriminata frase (4.1) e proprio:

fk (k) (4.5)

infatti la (4.5) asserisce, tramite la (4.4), che il numero k e in K, ovvero, dalla (4.3) che fk (k), cioe sestessa, non e dimostrabile. Si sono naturalmente omessi i passaggi, piuttosto laboriosi, su come possanoessere associate formule e numeri naturali e sul modo di esprimere la fk (·) nel sistema, partendo dallefunzioni ricorsive primarie (vedi §3.2.3).

Vi sono diverse punti da notare sul risultato di Godel. Anzitutto, visto che l’aritmetica e stata dimostrataincompleta, avendo scovato l’enunciato (4.5), o il suo equivalente informale (4.1), allora quegli enunciatidi fatto sono veri. Ma se si e in grado di dire che un enunciato e vero, con questo non si e arrivati a dimo-strarlo? C’e una sottigliezza: tale fatto e noto agli umani, anzitutto ai lettori di Godel, e poi alla piu ampiaschiera di chi si e imbattuto in righe come queste; evidentemente grazie a certi strumenti epistemici nonlimitati all’aritmetica, entro cui non c’e modo di rendere conto della verita di (4.5). E un punto certamentesconcertante, che non manchera di far discutere e anche affascinare, come si avra modo di dire piu avanti.

Una seconda osservazione: l’incompletezza e il risultato di una scelta, quella di considerare l’aritmeticacoerente. E proprio una scelta obbligata, come stabilisce la seconda parte del suo teorema: la coerenzapuo essere dimostrata solamente accettando l’incompletezza. Ma attenzione, come appena detto la suaincompletezza e “dimostrata” al di fuori di se stessa, pertanto anche la coerenza non e dimostrabile con i suoisoli mezzi. Povera aritmetica. Come magra consolazione, non e certo sola, anzi, si trova in gran compagnia.Infatti la scelta del sistema assiomatico dell’aritmetica, e a titolo di esempio, illustre perche si trattava delsistema piu importante nelle mani dei matematici di allora, ma il risultato non e assolutamente limitato adesso. Come chiarisce Godel, l’incompatibilita tra completezza e coerenza viene fuori in qualunque sistemache sia “sufficientemente potente”, in cui cioe sia possibile esprimere la (4.1) nei suoi termini elementari.Un esempio potrebbero essere le grammatiche generative, dove non occorrerebbero nemmeno le acrobazieper trasformare enunciati in numeri naturali.

Il dramma, per fortuna, non afflisse l’intera logica, c’e chi si salva in virtu della sua insufficiente potenza,per esempio la logica dei predicati del primo ordine. Questa parziale consolazione per la logica era gianota a chi poi gli infliggera il gran dispiacere, era proprio il contenuto della tesi di dottorato a Vienna[Godel, 1930b] e sara dimostrata con un percorso diverso successivamente da altri [Henkin, 1949].

100 CAPITOLO 4. MATEMATICHE IN CRISI

Inquietudini e ipocondrie

Se si volesse fare una graduatoria dei pensatori piu ammaliati dal teorema di Godel, difficilmente qualcu-no potrebbe togliere il primo posto a Douglas Hofstadter, per quel suo singolare pezzo di letteratura giadiscusso a proposito della ricorsione (vedi §3.2.3). Il fenomeno dell’autoreferenzialita, che attraversa tuttal’opera, incontra la sua espressione piu sublime nella frase (4.5), e il suo ideatore e l’eroe senza pari. Alpiu puo reggere il confronto un certo Mumon, monaco Zen del 1200, tant’e che diversi suoi versetti sonoautoreferenziali, e questo puo spiegare una delle caratteristiche basilari dello Zen, di non essere suscettibiledi spiegazione, un po come l’aritmetica. Non che Hofstadter prenda sul serio il misticismo, ne indulgeassecondando mode americane dell’epoca, seria e invece la sua convinzione che l’autoreferenzialita sia ve-ramente importante per la costituzione della mente umana, e il teorema in questione indicativo anche per isuoi limiti.

In altri l’esaltazione del risultato di Godel ha condotto in una direzione opposta, prendendolo come lanefasta diagnosi dell’incurabile malattia delle matematiche formali. Tipica la posizione di John Lucas, chemostra quanto ne siano affette tutte le macchine artificiali di cui Turing sognava di attribuire l’intelligenza,unica a salvarsi la mente umana, per una ignota vaccinazione che questa volta sa veramente di mistico[Lucas, 1961].

Piu con i piedi per terra e la posizione di Roger Penrose, che come Lucas sfrutta il teorema di Godel inuna favola di alta matematica tra un robot, vittima di incompletezza, e l’uomo che ne e esente [Penrose, 1989,Penrose, 1994], ma a differenza del primo, Penrose si lancia in un’ardita spiegazione fisica di questa immu-nita. La mente umana trarrebbe vantaggio da effetti quantistici che si verificano nei microtuboli cerebra-li, strutture di dimensioni microscopiche costitutive delle sinapsi neuronali [Hameroff and Penrose, 1996,Penrose, 1997]. E un ipotesi che, qualora confermata neuroscientificamente, farebbe veramente la diffe-renza, e noto infatti come una macchina quantistica sia un modello formale superiore rispetto ad una TMconvenzionale [Deutsch, 1985]. Pochi hanno preso sul serio Penrose, anche se i suoi libri hanno suscitatoun dibattito veramente insolito, a cui non e mancato praticamente nessuno dei personaggi attuali: da Putnama Searle, Dennett, Boolos, Hofstadter, Chalmers, McDermott e tanti altri.

C’e anche chi sdrammatizza

Dopo aver attraversato le varie euforie da incompletezza, e forse utile concludere con una posizione del tuttoalternativa, quella di Wittgenstein, e ci si sarebbe stupiti se non fosse cosı. Nelle sue lezioni sui fondamentidella matematica, lui contesta proprio la necessita di una riforma sistematica della logica ogni volta emergala presenza di una paradosso, la credenza, che per i matematici rasenta la superstizione, dell’impossibilitadi convivenza con la contraddizione. Tant’e che la presenza di antinomie, constatata o anche solamentesospetta, viene comunemente metaforizzata, da parte dei logici, in termini di malattia:

Suppose that one uses Russell’s logic in order to draw conclusions. Would this use be vitiated by the factthat a contradiction can be produced somewhere in Russell’s logic? And how would it be vitiated? You’ve[Rush Rhees] compared a contradiction to a germ; and that is the analogy which immediately springs tomind. One thinks of a doctor saying “You look all right from the outside, but this germ is a sign of yourbeing fearfully ill inside.” But then the question arises: What the illness in this case? [. . .] suppose thatthere is a contradiction in the statutes of a particular country. There might be a statute that on feast daysthe vice-president had to sit next to the president, and another statute that he had to sit between two ladies.This contradiction may remain unnoticed for some time, if he is constantly ill on feast-days. But one daya feast comes and he is not ill. Then what do we do? I may say, “We must get rid of this contradiction.”All right, but does that vitiate what we did before? Not at all2. [Wittgenstein, 1939, Lect. XXI]

2Supponiamo di usare la logica di Russell per trarre conclusioni. Quest’uso sara viziato dal fatto che si puo essere prodotta unacontraddizione in qualche punto della logica di Russell? E in che modo dovrebbe essere viziato? Tu hai paragonato la contraddizionead un germe; e questa l’analogia che viene in mente. Uno pensa al dottore che dice “Dall’esterno sembri in ottima salute, ma questogerme e il sintomo che nel tuo interno sei spaventosamente malato”. Ma allora sorge una domanda: cos’ e la malattia in questo caso?[. . .] supponi che nella costituzione di un certo stato vi sia una contraddizione. Ci puo essere un articolo che sancisce che nei giornifestivi il vice-presidente si deve sedere a fianco del presidente, un altro che dice che deve sedersi tra due donne. La contraddizionepuo rimanere nascosta per un certo tempo, se lui e sempre ammalato nei giorni festivi. Ma arriva il giorno che e festa e lui sta bene.Allora cosa bisogna fare? Potrei dire “Bisogna uscire da questa contraddizione.” Va bene, ma questo ha viziato tutto ci o che abbiamofatto finora? No di certo.

Le Matematiche del Linguaggio 101

Naturalmente non e che la contraddizione di per se sia innocua, il punto e che la portata del suo danno,e conseguentemente la misura per il suo rimedio, sta nell’applicazione che trova nel linguaggio naturale.In altre parole, non vi e nulla di automatico nel principio “pseudo-Scoto” di cui sopra, la contraddizioneva trattata come un fenomeno locale del linguaggio, da analizzare nelle ripercussioni che comporta il suoutilizzo. Ed ecco cosa succede se si analizza sotto questa prospettiva il paradosso di Russell:

No one says “Wolf isn’t a wolf.” We don’t know what it means. Is “Wolf” a name? – in that case Wolf maybe a wolf. If someone asked, “Is ’wolf’ a wolf?”, we simply would not know what to answer. But thereis one way in which Russell would have used it. Nobody would say, “ ’Wolf’is a wolf”, but “ ’Predicate’is a predicate” peeople would say. We can distinguish between predicates which apply to themselves andthose which don’t, and form the predicate “predicate which does not apply to itself”. Does this apply toitself or not? It is clear that if it apply to itself, then it does not; and that if it does not, then it does. Fromthis is presumably follows that it both does and does not apply to itself. I would say, “And why not?” If Iwere taught as a child that this is what I ought to say, I’d gladly say so. What is queer about this sentenceis that we don’t know what on earth to do with it, any more than we know what to do with “ ’Wolf’is awolf” 3.

[Wittgenstein, 1939, Lect. XXIII]

4.1.2 La rivalsa delle altre matematiche

Nella matematica del dopo-Godel la posizione di Wittgenstein potrebbe suggerire dei saggi interrogativi:ammesso che il neo di tutti i sistemi formali abbastanza potenti sia solamente il fatidico io non sonodimostrabile (non e proprio cosı, come si vedra fra poco), e poi cosı grave? E veramente penalizzanteper le matematiche dover rinunciare a quell’enunciato? Sono realmente utili le sue applicazioni?

In realta l’unico uso che i matematici fanno di quell’enunciato e solamente quando si discute del teoremadi Godel, lo stesso vale per i filosofi, si dubita che altre categorie di persone lo abbiano mai pronunciato.I matematici non direttamente impegnati nei progetti fondativi della matematica hanno di fatto seguitoWittgenstein: l’incompletezza non ha turbato piu di tanto i loro sonni, anzi, le difficili acque in cui si etrovata la grande logica hanno favorito lo spostamento dell’attenzione verso altri rami della matematica,con molti nuovi sviluppi. Non che la fondazione della matematica abbia chiuso i battenti, al contrarioha continuato a produrre risultati di notevole portata, ma e andata sempre piu caratterizzandosi come unadisciplina tra le tante, senza nessuno statuto privilegiato.

Dare un quadro non certo esaustivo, ma nemmeno significativo, delle tendenze attuali della matema-tica e impresa probabilmente difficile, sicuramente fuori dalla portata di chi scrive. Una certa indicazio-ne puo fornirlo l’opera di due matematici, Bjorn Engquist e Wilfried Schmid, che al termine del mil-lennio passato vollero tentare di emulare Hilbert, nella sua famosa presentazione dei ventitre problemipiu importanti della matematica, rimasti aperti all’inizio del ventesimo secolo [Hilbert, 1900]. Consape-voli che difficilmente una sola persona, o anche un gruppo ristretto, potesse ripetere Hilbert dopo centoanni di impressionanti nuovi e diversi sviluppi, indirizzarono la richiesta ai piu famosi matematici delmondo, selezionando sessanta risposte, pubblicate nel volume Mathematics Unlimited – 2001 and Beyond[Engquist and Schmid, 2001].

Nessuno dei problemi tocca esplicitamente questioni fondative della matematica, ce ne sono cinqueespressamente di logica, ma tutti e cinque strettamente legati all’informatica, che vanta altri quattro proble-mi non logici. In parte per le difficolta appena toccate, ma non ultimo per la potente spinta del mercato, lalogica e oggi in buona parte confluita nell’informatica, dove il suo contributo e stato di primaria importanza.

3Nessuno dice “Lupo non e un lupo.” Non sappiano che significhi. “Lupo” e un nome proprio? – allora Lupo potrebbe essere unlupo. Se qualcuno chiede “lupo e un lupo?”, non sapremo cosa rispondere. C’ e un modo in cui Russell userebbe questo. Nessunodirebbe “Lupo e un lupo”, ma la gente pu o dire “ ’Predicato’ e un predicato”. Possiamo distinguere tra predicati che si applicano a sestessi e quelli che non si applicano, e formare il predicato “predicato che non si applica a se stesso”. Quest’ultimo si applica a se stessooppure no? Chiaramente se si applica, allora no; se non si applica allora si. Quindi si potrebbe dedurre che contemporaneamente siapplica e non si applica a se stesso. Io direi “E perch e no?” Se fin da bambino mi avessero insegnato che questo e cio che bisognadire, direi volentieri questo. Cio che e singolare in questa frase, e che non abbiamo assolutamente di cosa farcene, niente di piu che di“ ’Lupo’ e un lupo”.

102 CAPITOLO 4. MATEMATICHE IN CRISI

La geometria

Chi reclamo una sua autonomia dal predominio della grande logica fu la geometria, che fin dall’inizio erarisultata un interlocutore scomodo. Era sicuramente un interesse centrale in Frege, fu proprio l’argomentodella sua dissertazione di dottorato [Frege, 1873], in cui le riconosce l’aspetto intuitivo nel senso kantiano,ma e proprio per questa caratteristica che non puo prestarsi ad una formalizzazione fondativa. E il numeroil concetto certo e suscettibile di una teorizzazione tutta interna alla logica:

Newton will unter Zahl nicht so sehr eine Menge con Einhieten als das abstracte Verh altniss einer jedenGrosse zu einer anderen derselben Art verstehen, die als Einheit genommen wird. [...] Danach scheintes, dass die Erklarung der Zahl im engern Sinne, der Anzahl, nicht uberfl ussig werde; den Euklid brauchtden Begriff des Gleichvielfachen um die Gleichheit von zwei Langenverhaltnissen zu definiern; una dasGleichvielfache kommt wieder auf eine Zahlengleichheit hinaus4. [Frege, 1884, §19]

E proprio l’identita numerica a poter diventare la forma dominante, entro cui anche parte della geometriapotrebbe sottostare:

Das Urtheil: “die Gerade a ist parallel der Gerade b”, in Zeichen a ‖ b, kann als Gleichung aufgefasstwerden. Wenn wir dies thun, erhalten wir den Begriff der Richtung und sagen: “die Richtung der Gera-de a ist gleich der Richtung der Gerade b”. Wir ersetzen also das Zeichen ‖ durh das allgemeinere =,indem wir den besondem Inhalt des ersteren an a und b vertheilen. [...] Nun frage ich, ob jemand eineAnschauung von der Richtung einer Gerade hat. Von der Gerade wohl! aber unterscheidet man in derAnschauung von dieser Gerade noch ihre Richtung? Schwerlich! [...] Dagegen hat man eine Vorstellungvon parallelen Geraden5. [Frege, 1884, §64]

Nelle ultime parole traspare il prezzo da pagare nel subordinare la geometria all’aritmetica, la perdita del-l’aspetto intuitivo dei suoi primitivi, che l’avevano posta, per duemila anni, come la porzione di matematicain diretta simbiosi con l’esperienza del mondo. Questo radicamento degli elementi della geometria rientranelle motivazioni che faranno opporre Frege al tentativo di Hilbert di formalizzazione della geometria, incui anche i concetti primitivi, ‘retta”, “punto”, ... possono essere trattati meta-matematicamente, in mo-do del tutto formale, indipendente dal significato che assumerebbero nell’esperienza reale [Hilbert, 1899,Frege, 1903b].

Per entrambi la geometria era identificata con il quadro di riferimento euclideo, in generale in queglianni poca attenzione fu posta sui primi segni delle grandi innovazioni, a cominciare dalle superfici curvedi Carl Friedrich Gauss, ma soprattutto gli sviluppi del suo allievo Bernhard Riemann [Riemann, 1854] equelli paralleli di Lobacevskij. Nelle loro geometrie, ora note rispettivamente come iperboliche ed ellittiche,non vale piu il quinto postulato di Euclide, quello per cui due rette che tagliate da una terza formano angoliinterni non retti, si incontreranno dalla parte in cui questi angoli sono minori di 90 gradi; equivalente a direche esiste una sola retta parallela a una data passante per un punto esterno ad essa, oppure che la sommadegli angoli interni di un triangolo e 180 gradi. Nella geometria iperbolica esistono infinite rette parallelead una data passanti per un punto esterno e la somma degli angoli interni di un triangolo e minore di 180gradi, al contrario in quella ellittica, di Riemann, tutte le rette coplanari si incontrano in qualche punto, ela somma degli angoli interni di un triangolo e maggiore di 180 gradi. Riemann aveva inoltre associatola geometria con il calcolo differenziale, per cui la lunghezza infinitesima di un arco ds e legata alle suecoordinate intrinseche nel piano u e v dalla relazione:

ds2 = du2 + cos2( u

R

)

dv2 (4.6)

4Newton vuole che per numero non si intenda un insieme di unita, bensı il rapporto astratto fra una grandezza e un’altra dellastessa specie, che viene presa come unita di misura. E evidente come cio presupponga in qualche senso il concetto di numero; di fattoEuclide, per definire l’identita tra due rapporti di lunghezze, usa il concetto di equimultipli; ma equimultiplo riconduce all’identita tranumeri.

5Il giudizio: “la retta a e parallela alla retta b, in simboli a ‖ b, puo essere afferrato in termini di eguaglianza. Facendo inquesto modo, otteniamo il concetto di direzione, e possiamo dire “la direzione della retta a e uguale alla direzione della retta b”. Noisostituiamo anche il segno ‖ con quello generale =, ripartendo il contenuto particolare del primo segno su a e b. [...] Ora mi chiedose qualcuno possa avere l’intuizione della direzione di una retta. Della retta stessa, sicuramente! ma puo distinguere l’intuizione dellaretta da quella della sua direzione? Difficilmente! Al contrario si ha un’intuizione del parallelismo tra rette.

Le Matematiche del Linguaggio 103

categoria oggetti morfismi

Ens insiemi funzioniTop spazi topologici funzioni continueGr gruppi omomorfismi tra gruppiRel insiemi relazioni binarieVect spazi vettoriali trasformazioni lineariHtp spazi topologici omotopiegrafi orientati vertici percorsi orientatiinsieme parzialemnte ordinato elementi dell’insieme ≤

Tabella 4.1: Alcune tra le principali categorie matematiche. La colonna piu a sinistra indica la sigla che e solitamenteusata dai matematici per quella categoria.

dove la costanteR e la curvatura del piano. QuandoR = ∞ si ritorna alla convenzionale geometria euclideadove:

ds2 = du2 + dv2. (4.7)

La sua sorprendente intuizione fu anche nel motivare il distacco dalla visione euclidea nella realta fisica,suggerendo che la metrica nella geometria di un sistema reale (ovvero quella ds nella (4.6), avrebbe dovutoessere una diretta conseguenza delle forze in gioco in quel sistema. Fu proprio nell’indagine sulla naturafisica dell’universo che, mezzo secolo dopo, questi temi matematici balzarono in primo piano nell’interessescientifico, Anzitutto Hermann Minkowski produsse l’assetto geometrico in cui accogliere la teoria dellarelativita speciale di Einstein, un sistema a quattro dimensioni, tre spaziali piu il tempo, in cui vigonole trasformazioni di Lorenz tra diversi osservatori in movimento, secondo cui, per esempio, cio che simuove contrae la sua lunghezza (se la sua velocita e comparabile con quella della luce). Ma soprattuttoEinstein stesso, nella teoria generale della relativita, dove entra in gioco il campo gravitazionale, fara ricorsoall’intero impianto riemanniano, dove la traiettoria di un corpo segue linee geodetiche, quelle a minordistanza nella geometria spazio-temporale curva. Anche se alle scale tipiche dell’esperienza umana pareche la teoria sia soprattutto popolata di fatti curiosi poco verificabili, come invecchiare prima se si hal’abitudine di accelerare e decelerare esageratamente per raggiungere velocita vicine a quelle della luce,su scale piu vicine alle dimensioni dell’universo pare ben piu consona alla realta della geometria euclidea.Nella storica dimostrazione di Arthur Eddington, durante l’eclissi totale di sole del 1919, fu verificata lastessa curvatura della luce in seguito al campo gravitazionale, previsto dalla teoria.

Einstein successivamente ribadı la necessita teorica di un’indipendenza della geometria dalla logicamatematica, in forza della sua stretta alleanza con la realta fisica,

[...]we may in fact regard it [Geometry] as the most ancient branch of physics6. [Einstein, 1921, ]

La geometria, dopo queste storiche rivalutazioni, e rimasta un settore vitale della matematica moderna,con tanti diversi sviluppi, dai gia citati sistemi frattali (vedi p. 86) agli spazi topologici; ispirando ancheteorie del tutto generali, come quella delle categorie di Eilenberg e Saunders MacLane. Le categorie sonoclassi di oggetti matematici, a cui possono venire applicati morfismi, detti anche semplicemente frecce(perche rappresentati cosı graficamente). La maniera migliore per illustrare concisamente di cosa si tratti,e di riferirsi alla Tab. 4.1 dove sono elencati alcuni esempi, anzi quelli fondamentali. Come si vede, anchela teoria degli insiemi puo trovare alloggio, sia nella categoria Ens che Rel. Il vantaggio principale diquesta teoria e di mettere a disposizione una serie di operazioni, di cui risultano note le proprieta, comuni atanti campi diversi. L’operazione principale tra frecce e la composizione, mediante cui si ottiene una freccianuova da due date, ed e proprio la naturale estensione del concetto geometrico di prodotto cartesiano. Anchel’equivalente della buona vecchia “variabile” logico-matematica, e ispirato a un concetto geometrico, quellodi proiezione, e la quantificazione universale di una variabile diventa una proiezione del prodotto cartesiano,pullback nella terminologia categoriale. Le categorie stesse possono diventare oggetti, suscettibili quindidi combinarsi in strutture piu complesse, anche per loro sono applicabili le frecce, con le loro proprietagenerali, essendo un caso piu speciale vengono ora chiamate funtori.

Esistono oggi tante estensioni e specializzazioni di questa teoria, come le n-categorie (ovvero cate-gorie di categorie di categorie...) fondamentali nella topologia dei campi quantistici, i Topos (categorie

6potremo in effetti considerarla [la geometria] come la piu antica branca della fisica

104 CAPITOLO 4. MATEMATICHE IN CRISI

di insiemi, equivalenti a certi oggetti topologici detti sheaf ), e categorie per il λ-calculus abbinate allateoria dei tipi (vedi p. 84 e §4.1.1 p. 98), come strumento per la modellazione avanzata del software[Asperti and Longo, 1991].

4.1.3 Essere discreti e le labbra di due amanti

C’e un altro punto di dissenso che emerge dalle difficolta della logica matematica, che analogamente allageometria trova sue motivazioni nel rapporto con il reale e la sua esperienza percettiva: la riduzione delcontinuo al discreto. Tutti i sistemi logici classici hanno natura discreta, la necessita di includere la ma-tematica del continuo ha trovato la soluzione piu accettata nella sistemazione dei numeri reali di Cantore Dedkind [Cantor, 1883, Dedekind, 1888]. Il numero reale si ritrova anche lui ad essere un insieme dielementi discreti, precisamente l’insieme di tutti i razionali piu piccoli di se stesso. A questo punto entitacontinue, come la retta, possono a loro volta essere definite come insiemi, di numeri reali.

E la soluzione che trovera ampio consenso, quella che tutto sommato ancora oggi si insegna nellescuole, ma gia allora qualcuno aveva da ridire. Wittgenstein, naturalmente, secondo cui la collezione dipunti era una soluzione ben poco soddisfacente per rappresentare entita geometriche, una linea per lui none un insieme di punti discreti, bensı una legge, e l’intersezione tra due linee e proprio l’intersezione tradue leggi [Wittgenstein, 1964]. E poi Hemann Weyl, nel suo Das Kontinuum [Weyl, 1918] a lamentarel’incongruenza tra la continuita del reale, che si manifesta essenzialmente nel tempo e nel movimento, maanche in esperienze come il tendere un filo, e la soluzione discreta offerta dalla teoria degli insiemi.

Queste voci isolate hanno trovato oggi un appoggio piu diffuso, anche all’interno stesso della logica,come gia si evince dal titolo del saggio Weyl vindicated: Das Kontinuum 70 years later [Feferman, 1988].Giuseppe Longo rivaluta le posizioni di Weyl sul piano matematico, ma con una valenza piu ampia, com-prendente il punto di vista fenomenologico. Cosı quei flussi di dati dell’esperienza che Husserl chiamaspazio pre-fenomenale e coscienza interna del tempo [Husserl, 1907], sarebbero strettamente legati a quellaintuizione originaria del continuo, cosı poco malleabile formalmente, come dimostrano le difficolta incon-trate da Aristotele a Cantor [Longo, 1999]. Una sua revisione matematica, non piu vincolata al discreto,viene auspicata da Longo come di basilare importanza per una corretta trattazione di spazio e tempo nellenuove frontiere della matematica, quali la modellazione in biologia [Bailly and Longo, 2003].

C’e chi, come Bruce MacLennan, prova a stuzzicare il discreto proprio a casa sua: nei sistemi formali enei modelli di calcolo. Anche lui auspica anzitutto una inclusione matematica del continuo piu consona allarealta, in una prospettiva che si rifa ad Eraclito, per cui, nell’interpretazione di Popper, gli oggetti sono statidi equilibrio temporaneo nel flusso continuo [Popper, 1962, pp. 160-162]. In contrapposizione con i pitago-rici, i primi a tentare la riduzione della realta nel discreto. Da queste premesse, MacLennan si lancia versoi massimi regni del discreto, proponendo sistemi formali continui in grado di superare le limitazioni cheaffliggono la logica, in cui sono consentiti assiomi essenzialmente infiniti (ovvero non generabili in modospecificabile finitamente), e regole continue [MacLennan, 1988]. Sono proposte piu che teorie consolidate,qualche sviluppo e alcuni risultati in [Pour-El and Richards, 1981, Stannett, 1990, MacLennan, 1993].

George Lakoff e Rafael Nunez fanno della contrapposizione discreto-continuo uno dei temi centralinella ricostruzione delle idee matematiche, mostrando la forte dissonanza cognitiva tra il continuo naturale,dello spazio e del movimento, e i termini discreti della sua sistemazione insiemistica. E ben esemplificatadalla risposta alla domanda:

Do the Points on a Line Touch?

We have received two kinds of answers to this question. The most common answer, sometimes fromprofessionals who have studied college mathematics, is somethins like, “Yes, of course they touch. Ifthey didn’t touch, the line wouldn’t be continuous. There would be gaps between the points.” The otheranswer, usually given by mathematicians, is, “Of course not. If two points on a line touched, there wouldbe no distance between them, and so they would be the same point.” [...]the only way in discretized mathematics [...] two points can “touch” is if they are the same point. This isnot like our ordinary notion of touching at all. It would be like saying that two lovers’lips can touch onlyif they shared common skin. The image is a bit creepy7. [Lakoff and Nunez, 2000, p. 270]

7I punti di una linea si toccano? Abbiamo ricevuto due tipi di risposte a questa domanda. La piu comune, talvolta da professionistiche hanno studiato matematica all’universita, e del tipo “Certo che si toccano. Altrimenti la linea non sarebbe continua, ci sarebberodei vuoti tra i punti.” L’altra risposta, in genere data dai matematici e “Naturalmente no. Se due punti della linea si toccassero, la loro

Le Matematiche del Linguaggio 105

Probabilmente la matematica attuale non e riuscita ancora a dare un’immagine piu romantica delle labbradei due amanti, certamente ha trovato non pochi vuoti tra quei punti della rappresentazione discreta di unalinea. La linea di ricerca dell’analisi non-standard, dovuta inizialmente soprattutto a Abraham Robinson,in cui esistono infinita di numeri nell’intorno di un reale, gli iperreali, che “coprono” il vuoto prima delprossimo reale, allo stesso modo esistono infiniti punti non-standard nelle vicinanze di un punto in unospazio topologico, piu vicini che qualunque altro punto standard [Robinson, 1966]. E una teoria che haavuto diverse ricadute nel campo dell’analisi stocastica (di quei fenomeni che hanno uno andamento neltempo, con un certo fattore di casualita) e nella teoria dei sistemi dinamici [Albeverio et al., 1986].

distanza sarebbe nulla, e quindi sarebbero lo stesso punto.” [...] l’unico modo per cui, nella matematica discretizzata, due punti sipossono toccare, e di essere lo stesso punto. Questo non e il nostro senso ordinario di “toccare”. Sarebbe come dire che le labbra didue amanti possono toccarsi solamente se hanno della pelle in comune. E un’immagine che fa venire i brividi.

106 CAPITOLO 4. MATEMATICHE IN CRISI

CP

What1,2 VP

“did John” V

V

eat t1

VP

and V

drink t2

Figura 4.1: Esempio del movimento secondo il principio Coordinate Structure Constraint. I complementi che hannosubito movimento sono racchiusi in un rettangolino.

4.2 Grammatiche in difficolta

Anche per la matematica proposta da Chmosky i tempi sono difficili. C’e soprattutto un lato debole, che sipresta immediatamente agli attacchi: la presunta autonomia e centralita della sintassi. Piu che un fianco, sitratta proprio del cuore: e la possibilita del progetto chomskiano che si regge su questa assunzione. Ma none certo una posizione facile da difendere. D’altra parte, il fallimento delle ambizioni complessive di Chom-sky non significherebbe annullare il fondamentale contributo scientifico delle sue teorie. Uno dei principaliindiretti beneficiari e stato il computer, divenuto a sua volta protagonista del dibattito, come possibile sog-getto linguistico. Qui non mancano altri problemi, alcuni di carattere teorico, ma altri soprattutto derivantidalla natura concreta del computer: tutto cio che viene progettato algoritmicamente, viene immediatamentesottoposto a verifica empirica, nell’esecuzione del corrispondente programma. E se i risultati deludono, lecritiche non aspettano ad arrivare.

4.2.1 Non tutto e sintassi

Si e gia accennato come Lakoff da studioso della grammatica generativa sia diventato uno dei principalicritici di questa scuola. Ci sono alcuni casi che sono proprio emblematici della sua transizione, in quantosi trattava di fenomeni linguistici difficili da giustificare sul piano puramente sintattico. Proprio da queitentativi, e dalla constatazione del loro fallimento, si sviluppo lo scetticismo verso la supposta autonomiadella sintassi. Uno di questi casi riguarda il principio CSC (Coordinate Structure Constraint) all’inter-no dei meccanismi del movimento (vedi §3.1.4), che regola lo spostamento dei complementi in clausolecoordinate, ovvero unite da congiunzioni. Per esempio:

What did John eat and drink?8

e come fosse la congiunzione di due frasi What did John eat e What did John drink, inentrambe il complemento e risalito in What, come mostra la Fig. 4.1. Il suddetto principio stabilisce che ilmovimento del complemento deve avvenire per tutti i componenti, non e grammaticale per esempio la:

∗What did John eat and drink something?

dove per il sintagma VP con head eat il complemento e risalito in Waht, mentre per quello con drink c’eil complemento esplicito something, che quindi e rimasto al suo posto. In sintesi, o tutto o niente, con lostatuto di principio universale, comune quindi a tutti i linguaggi, instanziato nel dispositivo computazionaledella sintassi umana. Ben presto pero, fu scoperto un controesempio, frasi del tipo:

What did John go to the store and buy?9

in cui dei due sintagmi VP coordinati, quello con head buy produce il movimento, non l’altro, go tothe store, come mostrato in Fig. 4.2. Lakoff all’epoca avanzo l’ipotesi che si trattasse di una coordi-nata fasulla, che in questo caso and valesse per to, per questo motivo il principio non era piu applicabile.

8Cos’ha mangiato e bevuto John?9Cos’e andato a comprare John nel negozio?, traduzione che in italiano perde il costrutto coordinato,

letteralmente Cosa John e andato nel negozio e ha comprato?

Le Matematiche del Linguaggio 107

CP

What1 VP

“did John” V

V

go “to the store”

VP

and V

buy t1

Figura 4.2: Un controesempio che viola il principio Coordinate Structure Constraint nel movimento.

Sotto sotto gia questo presupponeva un’ingerenza extra-sintattica, in quanto era la possibile interpretazio-ne semantica di and a stabilire l’applicabilita o meno del principio, ma il bello deve arrivare. Su que-sta strada furono trovati molti, troppi controesempi per salvare una spiegazione sintattica del fenomeno[Goldsmith, 1985, Lakoff, 1986].

Una soluzione ben piu soddisfacente si fonda invece sulle caratteristiche semantiche in gioco nei co-stituenti delle strutture coordinate, seguendo [Lakoff and Johnson, 1999, pp. 491–492] le condizioni chepermettono il movimento del complemento sono quelle elencate a seguito.

1. il movimento in tutte le frasi coordinate richiede un parallelismo semantico tra i complementi, cheevidentemente sussiste quando John mangia qualcosa e beve qualcos’altro, ma non per esempio in:

∗What did John eat and say?10

2. il movimento in alcune coordinate si e in altre no puo avvenire nel caso in cui i diversi sintagmicoordinati corrispondono a sequenze naturali di eventi, in tal caso i sintagmi in cui il complementonon si muove sono quelli che non sono parti della sequenza, bensı descrizioni della scena o del suocambiamento. Per esempio, nella frase:

What did John go to the store, buy, put in his car, drive home, andunload?11

illustrata in Fig, 4.3, i sintagmi VP go to the store e drive home non fanno parte dellasequenza incentrata su What, bensı ne determinano dei cambiamenti di scena

3. le frasi con due coordinate congiunte, che siano tra loro in relazioni evento-causale, comportano ilmovimento nella prima ma non nella seconda, per esempio:

How much can you drink and still stay sober?12

in cui il VP drink ha subito il movimento del complemento, How much, mentre l’altro VP coor-dinato stay sober no, il primo e in relazione causale con il secondo. Il “quanto bere” e tale daassicurare l’ “essere sobrio”.

Tutte le tre condizioni sono di carattere prettamente semantico, ed e la semantica a governare questo tipo dimovimento. Questo e, come si diceva, un caso emblematico per la svolta di Lakoff, ma non e che uno tra imolti esempi che sono stati trovati di costrutti, precedentemente spiegati con principi puramente sintattici,che poi si sono rivelati insostenibili senza il ricorso a fattori semantici.

10Cos’ha mangiato e detto John?11Cos’e che John e andato a comprare al negozio, ha messo nella sua macchina, e ha sca-

ricato dopo essere tornato a casa?, anche qui nella traduzione corretta si e perso il costrutto, che letteralmente sarebbeCosa John e andato al negozio, ha comprato, messo nella sua macchina, tornato a casa, escaricato?

12Quanto puoi bere senza ubriacarti?

108 CAPITOLO 4. MATEMATICHE IN CRISI

CP

What1,2,3 VP

“did John” V

V

go “to the store”

VP

e V

V

buy t1

VP

e V

V

V

put t2

“in his car”

VP

e V

V

drive home

VP

and V

unload t3

Figura 4.3: Un esempio del secondo caso nella teoria di Lakoff del movimento in frasi coordinate, retto dallasemantica.

4.2.2 Alla ricerca di strutture profonde

Un’altra pesante confutazione dell’apparato chomskiano ha riguardato un suo passaggio cruciale, la tran-sizione dalla forma generativa risolta di una frase a quella effettiva, che malauguratamente di rado ne econforme. Come visto, esistono tanti modi in cui puo essere espressa una forma sintattica elementare, edarne conto e stato un gran lavoro per i generativisti, dalle prime grammatiche trasformazionali alle solu-zioni piu sofisticate della teoria P & P (vedi §3.1). Indipendentemente dalle diverse modellazioni che sonostate proposte in momenti successivi, c’e un assunto di base costante: esiste un formato “essenziale” dellacodifica sintattica, per lungo tempo denominato D-structure. Anche se nel minimalismo questa termino-logia non ha piu lo stesso gradimento, sostanzialmente e questo l’output del “processo computazionale”linguistico. La forma che poi assumono le frasi nel linguaggio reale, la S-structure nella vecchia dizione, eil risultato di un processo nell’interfaccia fonologica, che non interessa piu la comprensione sostanziale, laforma logica delle frasi.

Se le cose stanno realmente cosı, non dovrebbe essere difficile trovarne dei riscontri empirici, e quin-di fin dagli anni ’60 questo fu un tema di ricerca che attrasse diversi psicolinguisti. La storia assomigliaa quella appena vista sulla sintassi, anche qui una certa indagine nasceva dall’interno del generativismo,assumendo come valida una determinata posizione, in quanto conseguenza necessaria dei suoi assunti teo-rici, di cui quindi andavano trovate evidenze sperimentali. Le difficolta a trovare evidenze del genere perun certo periodo hanno posto diversi interrogativi, sulle metodologie di indagine, ma alla fine hanno con-dotto a forti perplessita su quelle assunzioni iniziali. Non c’e in questa storia un parallelo preciso conl’evoluzione intellettuale di qualcuno, come per Lakoff nel caso appena visto, anche se indubbiamente hapesato su certe nuove prospettive, ad esempio per Philip Johnson-Laird, che ne racconta le vicissitudini in[Johnson-Laird, 1983, §XII.2].

George Miller fu uno dei primi a tentare di correlare sperimentalmente la complessita trasfomazionalecon difficolta cognitive, testando se frasi dallo stesso significato comportavano carichi cognitivi differentiin forma passiva, interrogativa, etc., rispetto alla forma corrispondente alla D-structure. Ma i risultati nonmostrarono nessuna correlazione significativa di questo genere [Miller, 1962].

Le Matematiche del Linguaggio 109

Gli esperimenti in [Johnson-Laird and Stevenson, 1970] hanno tentato di evidenziare una significativitadelle D-structure indipendente dalla semantica, utilizzando frasi del tipo:

John likes romantic music13

romantic music charmes John14.

Il significato espresso e praticamente identico, mentre le D-structure sono completamente diverse. E venutofuori che la struttura “profonda” e talmente sommersa da non lasciare alcuna traccia: i soggetti memorizza-no sempre il significato, con totale indifferenza alle proprieta specifiche delle diverse D-structure.

Successivamente vi sono stati tanti altri esperimenti, con modalita diversificate, su cui non e utile ap-profondirne qui i dettagli, cio che conta e che ne e emersa un’indicazione forte: nella comprensione del-le frasi, cio che viene effettivamente rappresentato riguarda solamente aspetti semantici (eventualmentenon isolabili nella frase, ma di tipo contestuale piu ampio), oppure la sua forma verbale, la S-structure[Anderson, 1974, Dooling and Christiaansen, 1977, Jarvella, 1979]. Per quanto riguarda le D-structure,nessuna traccia.

4.2.3 Delusioni del computer linguistico

Il connubio tra linguistica e informatica e stato senza dubbio proficuo per quest’ultima, i vantaggi che ilinguaggi formali hanno apportato per la teoria della programmazione sono indubbi, la grammatica gene-rativa ha seguito in buona parte lo stesso destino appena visto per la logica, diventando uno strumento alservizio dell’oggetto tecnologico piu importante del mercato mondiale. Naturalmente, con l’evoluzione el’ampiamento delle ricerche informatiche, anche gli aspetti fondativi della programmazione si sono allar-gati, includendo teorizzazioni indipendenti, di natura piu algebrica, come gia accennato a p. 85, purtuttaviadopo diversi decenni l’apparato teorico ereditato da Chomsky non solo sembra ancora soddisfacente, maanche utile per le nuove evoluzioni del software.

Il bilancio e ben diverso sul fronte opposto, l’impresa di dotare un computer di capacita linguistiche estata tutta in salita, anche se sarebbe ingiusto definirlo ad oggi fallimentare, e quantomeno deludente, tantopiu se raffrontato con le previsioni e le aspettative nutrite agli inizi del NLP. Quando si sono introdotti i par-ser per il linguaggio naturale (vedi §3.2.4, p. 88), si e mostrato il funzionamento con la consueta frase presaa prestito da Chomsky (vedi Fig. 3.1), con un risultato convincente. Passando da questo esempio semplicea frasi piu complesse le cose purtroppo non vanno sempre cosı bene, le difficolta nascono soprattutto dallevarie classi di ambiguita caratteristiche del linguaggio. Ve ne sono alcune che lasciano realmente aperta lapossibilita di derivare correttamente piu alberi sintattici da una stessa grammatica con uno stesso lessico,per esempio nella frase

Anna ha visto un aereo mentre faceva il bagno

le cui possibili soluzioni sintattiche sono in Tab. 4.2. Il parser in questo caso va necessariamente assolto,e la pretesa stessa di ridurre la comprensione ad un processo sintattico che non ha funzionato, gli indizi di-sambiguanti stanno al di fuori della grammatica, precisamente nelle conoscenze dei parlanti circa le diverseabitudini di aerei e umani.

Diverse altre fonti di ambiguita sono invece inerenti alla grammatica, si manifestano nella molteplicita diregole di produzione con uno stesso termine a sinistra, sono una caratteristica normale nei linguaggi naturali,pur non conducendo sistematicamente ad una molteplicita di alberi solutivi. Infatti abbastanza spesso anchese, scandendo una frase da sinistra a destra, il parser si trova piu regole alternative da poter seguire, le paroleche seguono possono rendere sgrammaticali tutte le alternative eccetto una, che alla fine sara la derivazionesintattica corretta. Lo stesso puo succedere per molti casi di ambiguita del lessico nei suoi aspetti sintattici(diverse possibili categorie per una stessa parola). Progettare un parser che abilmente possa disambiguaretutte le frasi, ogni volta che grammatica e lessico in linea di principio lo consentano, e un’impresa ardua eancora molto lontana. Da una mano in questo l’aumento geometrico delle prestazioni dell’hardware, chepermette l’esecuzione di parser particolarmente puntigliosi, che qualche anno fa avrebbero fatto aspettarediverse ora per derivare l’albero sintattico di una singola frase.

Qui si accennera brevemente alle attuali linee di ricerca in questo campo, che comprensibilmente di-ventano sempre piu complesse, cio che e piu importante sottolineare e la progressiva divergenza tra talidirezioni di ricerca e i progetti della linguistica generativa, come il minimalismo. Mentre Chomsky usa

13John ama la musica romantica14La musica romantica affascina John

110 CAPITOLO 4. MATEMATICHE IN CRISI

S

NP

N

Anna

VP

VP

VP

“ha visto”

NP

“un aereo”

PP

P

mentre

VP

“faceva il bagno”

S

NP

N

Anna

VP

VP

“ha visto”

NP

NP

“un aereo”

PP

P

mentre

VP

“faceva il bagno”

Tabella 4.2: Esempio di ambiguita non risolvibile sintatticamente, e solamente in virtu della conoscenza che unascoltatore comune, di fronte all’incertezza su chi si stia facendo il bagno, non prenderebbe mai in considerazione lasoluzione a destra (in cui dedito alle abluzioni e proprio l’aereo).

sempre piu disinvoltamente il termine sistema computazionale per riferirsi al dispositivo linguistico bio-logico, il computer per far funzionare qualcosa che gli assomigli, si allontana sempre piu da Chomsky.Beninteso l’impronta originaria, della formalizzazione del linguaggio e delle grammatiche generative ri-mane sempre da sfondo, cosı come sono comuni alcune tendenze di massima, quali lo spostamento dallagrammatica al lessico di diversi aspetti funzionali, ma la divergenza e sempre piu marcata. Vi furono deitentativi di seguire l’evoluzione delle teorie chomskiane, quali la Government & Binding [Stabler, 1992] e laPrinciples & Parameters [Fong and Berwick, 1991] (qui descritte in §3.1.4), che misero in luce le difficoltae le inefficienze di questi approcci.

Di fronte all’intrattabilita che raggiungono i programmi di parsing nel seguire le teorie linguisticheortodosse, le reazioni sono state diverse. Quella piu estrema e anche la piu semplice: se la giungla di regolee ingovernabile, ...niente piu regole. E il parsing probabilistico, in cui i ruoli delle parole sono ricercati senzaricorso a nessuna norma, ma solamente alla prassi, per cui l’uso abituale di certe parole, in un determinatocontesto, ne fa svolgere quel particolare ruolo, una panoramica recente e in [Bunt and Nijholt, 2000]. Enotevole come questa nuova tendenza, che si origina da considerazioni prettamente ingegneristiche, lettain chiave cognitiva strida proprio con uno degli assunti basilari di Chomsky, che la grammatica non e unfenomeno statistico ma un insieme di regole universali. Sempre in chiave probabilistica si sta assistendoal ritorno di un’altra delle alternative bollate da Chomsky come inadeguate per descrivere il linguaggio:le catene di Markov nascoste [Hogenbout and Matsumoto, 1998]. Sono dei modelli matematici generaliper descrivere i “processi stocastici”, quelli cio che avvengono nel tempo mescolando una certa dose dicasualita e una dipendenza da cio che si e verificato prima. Anche le parole in una frase sono un po’ deglieventi che si susseguono uno dietro l’altro, e pertanto tali modelli possono essere un efficace strumento peranalizzarle, come intuito inizialmente dal loro inventore [Markov, 1913], pur senza nessun riferimento acome funzioni il linguaggio nell’uomo.

Esistono anche altri generi di proposte meno radicali, si da un cenno delle piu comuni. Un concetto cheha avuto largo successo e quello della grammatica ad unificazione (unification grammar), un’introduzionein [Shieber, 1986]. L’unificazione e un processo a se stante, che viene ad abbinarsi alle regole di produzionevere e proprie e al lessico, in cui alle categorie vengono aggiunti i valori dei tratti grammaticali. Ecco inTab. 4.3 un esempio di grammatica con unificazione. Alle regole classiche sono associate le unificazioni,che non sono piu produzioni, ma equazioni. Per esempio la regola

S =⇒ NP V P

ha associata l’equazioneNP ≡ V P (4.8)

Le Matematiche del Linguaggio 111

grammatica unificazione lessico

S =⇒ NP V PNP =⇒ NNP =⇒ D NV P =⇒ Vi

V P =⇒ Vt NP

NP ≡ V PNP ≡ NNP ≡ D ≡ NV P ≡ Vi

V P ≡ Vt

gatto N m scane N m sbevono Vt p 3a

guarda Vt s 3a

il D m s

Tabella 4.3: Frammento di grammatica ad unificazione.

che impone la concordanza tra il sintagma nominale e quello verbale, per i tratti che siano in comune.L’unificazione ha anche lo scopo di propagare tratti a categorie superiori, per esempio la regola

V P =⇒ Vt NP

ha associata l’equazioneV P ≡ Vt

che in questo caso fa ereditare a V P i tratti del pre-terminale Vt, i quali a loro volta possono essere quin-di trattati da un’equazione come la (4.8). Il procedimento di unificazione entra in atto durante il parsing,imponendo il confronto tra costituenti, per esempio candidati ad una riduzione in un parser CKY (vedi p.88). Tali costituenti sono accettabili solamente se le parti comuni vanno d’accordo. Le parti che even-tualmente mancano in uno dei costituenti, vengono supplite dagli altri, e cosı si forma un blocco unico dicaratteristiche, che possono essere anche propagate a distanza per verificare possibili abbinamenti con altreparole. E un metodo che risulta particolarmente efficace nel ridurre drasticamente le combinazioni di regoledi produzione da provare per l’analisi della frase, ed elimina in partenza molte possibilita di errori. Infineun formalismo che si sta affermando come migliore alternativa per rappresentare le regole grammaticali e ilTAG (Tree Adjoining Grammar) [Joshi, 1987], in cui anziche strutture categoriali i termini sono frammentidi albero, e ogni regola prescrive come formare un nuovo pezzo di albero abbinando (adjoining) frammentiesistenti.

Tutte queste nuove proposte contribuiscono ad un continuo progresso del parsing del linguaggio natu-rale, anche se il traguardo e ben lontano, ma non hanno alcuna pretesa esplicativa nei confronti del fun-zionamento del linguaggio umano, Sono dichiaratamente matematiche progettate per il computer, ai finidi permettere prestazioni che assomiglino a quelle umane. Il fatto stesso che l’unica strada in discesa siaquella che allontana sempre piu dalla matematica chomskiana, che si prefiggeva invece di descrivere il fun-zionamento del sistema computazionale umano, non e certamente una confutazione empirica, ma ne intaccanon poco la credibilita.

Un test di Turing in cinese

Allargando l’orizzonte all’intera intelligenza artificiale classica, il panorama attuale non cambia molto ri-spetto quanto detto sul parsing del linguaggio naturale: il divario tra i limitati risultati e le ambiziose aspet-tative iniziali alimentano dissensi e critiche. Non che mancassero fin dall’inizio i denigratori, per esempioHubert Dreyfus e stato fin dagli inizi un portabandiera dello scetticismo verso i progetti dell’intelligenzaartificiale [Dreyfus, 1972], con motivazioni che non sono cambiate nel tempo, anche se oggi trovano terrenopiu facile [Dreyfus, 1992]. Sono argomentazioni che hanno una certa presa, pur non eccellendo in rigoree spessore filosofico, su cui si tornera piu avanti. Ben piu interessante e invece una critica incentrata sullinguaggio, si presenta infatti come una parodia di quello che qui si e considerato il paradigma del com-putazionalismo come comprensione linguistica: il test di Turing. John Searle lo ribalta in un’atmosferacinese, producendo quella che finora e sicuramente la piu brillante e suggestiva confutazione del computa-zionalismo [Searle, 1980]. Pur nella consapevolezza di scrivere cose note a tutti, lo si riassume qui. E unesperimento mentale in cui un uomo, chiuso in una stanza, riceve dalla finestra dei fogli con ideogrammicinesi, tramite un opportuno manuale di istruzioni puo selezionare, sulla base di tali simboli, altri fogli, cherestituisce sempre attraverso la finestra. Nei primi fogli c’era una domanda, a cui i secondi rispondevanosensatamente, con quindi tutte le carte in regola per superare un test di Turing. Il punto e che l’uomo nonconosce nulla del cinese, non ha la piu pallida idea di cosa venga domandato e delle rispettive risposte.Ecco dimostrato, dice Searle, che un computer, pur dotato di questa capacita linguistica, in realta non e

112 CAPITOLO 4. MATEMATICHE IN CRISI

intelligente. L’errore dei computazionalisti, secondo lui, e nel trascurare il lato semantico dei simboli, chein un sistema formale, come la TM, possono venire manipolati a piacimento, ma da questo non puo maiderivare alcuna attribuzione di significato, e alcun ruolo causale nel comportamento.

Non e la fine della storia, naturalmente, le contestazioni sono state varie e diversificate, tra le piu autore-voli [Dennett, 1980, Hofstadter, 1980, Churchland and Churchland, 1990], ne e nata una discussione che adoggi conta un centinaio di interventi pro e contro, incluse le molteplici risposte di Searle. Una prospettivaparticolare e in [Marconi, 1997b, pp. 161–164, 180–183 dell’ed. it.], centrata sulla problematica delle duecomponenti del significato, di cui si parlera ampiamente in 4.3.2. Non si intende qui ne approfondire que-sta diatriba cinese, ne prendere una posizione, certamente, anche se con dimostrazioni non inconfutabili, estato messo sul tappeto un problema, quello della semantica dei simboli in un sistema computazionale, chepone difficolta serie ad un sistema linguistico basato sulla matematica classica del computer. Si e anche del-l’avviso che la sua capacita persuasiva derivi da una caratteristica subdola, comune a diversi “esperimentimentali”. Il lettore e invitato a considerare una situazione palesemente impossibile, salvo poi tornare adapplicare il senso ordinario nel trarre le contraddizioni a cui si intende condurlo. Si sorvola sulle effettiveimplicazioni delle condizioni iniziali, che nella loro paradossalita renderebbero ben meno contradditoriele conclusioni. In questo caso e evidente che non puo esistere nessun manuale in grado di dare risposteconvincenti a qualunque domanda durante qualunque conversazione, sia in cinese che in un’altra lingua,ma la seconda fase deel’esperimento mentale prende in esame solamente domande innocue che non fannoemergere questa situazione. Se si provasse invece a prendere in considerazione conversazioni un minimopiu complesse, emergerebbe anzitutto che quei simboli in ingresso non potrebbero mai essere degli indi-ci in una tabella, su cui c’e la risposta, per quanto grande sia tale tabella, ma dovrebbero essere in gradodi modificare la tabella stessa. Ovvero, il sistema dovrebbe essere in grado di apprendere, altrimenti nonpotrebbe mai dare risposte sensate su fatti nuovi, su cui e messo al corrente dall’interlocutore. Il quale po-trebbe informare pure sull’uso di neologismi, che richiederebbe quindi aggiungere la capacita di risponderea fogli con nuovi simboli. Una conversazione potrebbe anche essere la lezione di una nuova lingua, quindiil sistema dovrebbe essere in grado di apprendere un nuovo linguaggio. Continuando di questo passo, efacile vedere come il “manuale” debba essere qualcosa che assomiglia veramente molto alle modalita diapprendimento di un essere umano. Cio non elude necessariamente la problematica sulla semantica deisimboli, ma ridimensiona notevolmente la persuasione sull’inconsistenza dell’idea di una macchina concomprensione linguistica.

Il computer che non impara

Il punto con cui si e appena cercato di mostrare, in linea teorica, una debolezza dell’argomento di Searlee la capacita di apprendere di un sistema artificiale. Si e detto in linea teorica, perche di tutto questonon c’e traccia, o ben poco, nell’intelligenza artificiale classica. Eppure Turing stesso, nel suo ComputingMachinery and Intelligence, aveva intuito che la programmazione di una competenza paragonabile a quellaumana era un’impresa impossibile, che la vera strada era di implementare una capacita di apprendimentoautonoma:

Instead of trying to produce a program to simulate the adult mind, why not rather try to produce onewhich simulates the child’s? If this were then subjected to an appropriate course of education one wouldobtain the adult brain15. [Turing, 1950, §7]

La mente dell’adulto e stato invece il target dei sistemi di conoscenze classici, ennesima delusione delcomputer linguistico. Anche CYC, il piu rappresentativo progetto di questa categoria, (vedi p. 91), vieneconsiderato un fallimento da molti [Smith, 1991], incluso Ramanathan Guha, che insieme a Douglas Lenatne era stato il fondatore, e lo abbandono dopo dieci anni [Stipp, 1995]. L’impressione personale e che,indipendentemente dalle scelte sulle cosiddette “ontologie”, dall’adeguatezza delle logiche matematiche disupporto, dall’efficienza dei motori inferenziali, la spiegazione degli insoddisfacenti risultati risieda proprionella citazione di Turing. Il lavoro di implementare ogni minimo frammento di conoscenza mediante un’e-splicita espressione logica e senza speranze se il traguardo vuole essere la competenza umana, o qualcosache gli assomigli. Nell’uomo, ad ogni eta, le conoscenze linguistiche acquisite sono anzitutto il substrato su

15Invece di provare a produrre un programma che simuli la mente adulta, perche non cercare di sviluppanne uno che riproduca lamente di un bambino? Questo potrebbe poi essere soggetto ad un’appropriata educazione ottenendo alla fine una mente adulta.

Le Matematiche del Linguaggio 113

cui vengono senza sforzo relazionate, filtrate ed accumulate le nuove conoscenze cui l’esperienza sottoponecostantemente. E questo il meccanismo fondamentale la cui mancanza penalizza inesorabilmente i sistemidi conoscenza classici. Le pene di CYC e di simili imprese basate sulla logica non finiscono qui, si profilanoaltri capi di imputazione, forse ancor piu gravi, come si vedra presto in 4.3.2.

Altre critiche

Le delusioni del computer alle prese con il linguaggio passate ora in rassegna nel loro complesso hannocontribuito a quel clima generale, accennato all’inizio di questa sezione, di diffidenza o addirittura rigettodelle istanze artificialiste, di cui gia Dreyfus era stato fiero portavoce. La tesi e che i modelli del computa-zionalismo (in sostanza la logica), non sono che una piccola parte del funzionamento della mente umana,che in [Dreyfus and Dreyfus, 1986] si ipotizza suddiviso in cinque stadi, di cui solo i primi tre suscettibili diessere descritti matematicamente, mentre in quelli superiori, dell’ “abilita” e dell’“esperienza”, alle regoledi decisione subentrano strategie come l’intuizione, l’istinto e la perizia. L’argomentazione piu forte rimanela constatazione dei fallimenti pratici dell’intelligenza artificiale, documentata con dovizia di particolari.

Ben rappresentativo di queste critiche e per esempio il best-seller di Keith Devlin, allievo di Jon Barwi-se, il cui titolo non lascia speranze agli avversari: Goodbye Descartes: The End of Logic and the Search fora New Cosmology of the Mind [Devlin, 1997], che imposta una critica globale al computazionalismo pro-prio sul linguaggio naturale e sulla mancata capacita di comprenderlo e realizzarlo da parte del computer.Devlin ripartisce le sue frecciate tra logica e linguistica chomskiana, alleate in un tentativo di matematiciz-zazione del linguaggio veicolato dal computer. Destinato a fallire perche orfano di troppi aspetti centralidel linguaggio umano, che lui individua nell’oggetto di discipline quali la sociologia, la psicolinguistica,l’etnometodologia e lo studio della conversazione di Paul Grice (vedi p. 116). Si potrebbero salvare alcunimodelli matematici quali, non a caso, la semantica delle situazioni16. Un ulteriore argomento e fornito daitanti esempi di come il ragionare comune possa seguire strade ben diverse da quanto suggerirebbe la mate-matica, sono casi sulla falsariga di quelli che abbondano nella letteratura matematica ricreativa, analoghi aquelli sfruttati, per scopi simili, da diversi altri [Khaneman et al., 1982], gia Peirce aveva riscontrato quantoil calcolo delle probabilita si presti a questo.

Anche qui ci si esime dal prendere una posizione, si vuol solamente notare come sia molto ricorrenteun fondo argomentativo comune, l’esibizione di aspetti del comportamento umano apparentemente nonsoggetti a regole. Come nei vari esempi di scelte dove il buon senso non incontra le leggi della statistica,oppure non soddisfa regole deduttive elementari, in cui le motivazioni che portano alle decisioni sono sottilie sfumate, in cui la comprensione di un enunciato richiede l’interpretazione di vari sottintesi, e cosı via.Tanti di questi casi che sono esposti come netta confutazione della logica, rientrerebbero in realta nellarisposta data gia a suo tempo da Turing verso le obiezioni alla sua macchina intelligente (vedi §3.2.4):occorre distinguere tra motivi di principio per cui un determinato fenomeno cognitivo non e riducibile acalcolo e motivi di complessita, per cui l’algoritmo richiede un’insieme ampio di input e un’elaborazionepiu sofisticata, di cui non si e a conoscenza di tutti gli aspetti.

Rimane un punto fondamentale, l’atmosfera in cui si moltiplicano questo genere di critiche e di profondadisillusione nei confronti del computazionalismo, alimentata soprattutto dalle delusioni nelle prestazioniesibite finora.

16Si tratta di una proposta di estensione della logica classica, in cui la verita degli enunciati e condizionata da certe classi di enunciativeri denominate situazioni, che ne dovrebbe costituire una sorta di contesto, non e mai stata pienamente sviluppata [Barwise, 1989].

114 CAPITOLO 4. MATEMATICHE IN CRISI

4.3 Nuove priorita

Oltre alle difficolta interne delle matematiche del linguaggio, anche forse non del tutto indipendentemente,ad un certo punto si assiste a diverse proposte che hanno un aspetto comune: mostrare come nella sfac-cettata complessita del linguaggio umano vi siano dei punti di vista, trascurati finora dalle matematiche,che potrebbero gettar luce nuova sul suo modo di funzionare. Questo punto comune poi si diversifica, puodiventare per esempio un chiaro appunto alla logica, quando si sottolineano le discrepanze tra il linguaggioche e in grado di trattare e il linguaggio ordinario, oppure un invito al suo completamento tramite nuove di-scipline, per esempio rivolte alla semantica lessicale, o ancora un appello ad allargare gli orizzonti entro cuiintendere il fenomeno linguaggio, comprendendo punti di vista quali l’evoluzione biologica e i meccanismineurofisiologici.

4.3.1 Il ritorno del linguaggio ordinario

C’e una forte tentazione in logica, quella di prediligere le espressioni del linguaggio che meglio si prestinoalla sua modellazione. La frequentazione matematica non puo che accentuare il vizio, naturalmente enun-ciati che abbiano applicazione nell’aritmetica o piu in generale nel ragionamento scientifico, e opportunoche abbiano dei requisiti di chiarezza e univocita non comuni nel linguaggio abituale. Anche in ambito filo-sofico la regolarizzazione fornita dalla logica e stata vista varie volte come una benefica cura nei confrontidelle incoerenze e oscurita del linguaggio ordinario (posizioni espresse piu volte, per esempio, da Russell eQuine), a tutto vantaggio delle discussioni filosofiche. Con l’avvento poi del computer la situazione e peg-giorata, hanno preso forma i linguaggi “formali”, dove e sempre possibile trovare una conformita totale conla logica, che non potevano non suscitare le invidie di coloro che invece tentavano di domare alla matemati-ca le confuse bizzarrie del linguaggio umano. Da notare che la tendenza non e molto diversa passando dallalogica alla sintassi generativa. Prendere in considerazione un linguaggio asettico e ben levigato, disponibilead essere racchiuso in una teoria generale, cercando poi artifici per ricondurre le stranezze del linguaggiovero a quello artefatto, e esattamente quello che fa Chomsky con le D-structure e le S-structure.

Non c’e niente di male nell’agevolarsi la vita, ma a lungo andare questo atteggiamento schizzinosodiventa sospetto, se in logica si predilige sempre un certo tipo di enunciato puo essere proprio perche sottosotto non e idonea a modellare il linguaggio in generale, ma solamente una sua esigua porzione, costituitaproprio da quelle poche frasi ridotte alle parole interpretabili logicamente, emendate da tutta la ricchezzaespressiva originaria. E quanto hanno cominciato ad obiettare diversi filosofi, verso la meta del secoloscorso.

Dal calcolo al gioco

Il primo e il piu significativo e Wittgenstein, anche per la sua ben nota parabola, cominciata in vesti difautore della logica come base del linguaggio, nel Tractatus Logico-Philosophicus [Wittgenstein, 1922]. Eproprio la constatazione della molteplicita di manifestazioni del linguaggio comune non catturabili con lalogica a ridimensionarne la fiducia, con uno spostamento complessivo della sua prospettiva filosofica, cheportera ai nuovi concetti della grammatica (non chomskiana...) come uso delle parole e dello Sprachspiel,il gioco linguistico delle Philosophische Untersuchung [Wittgenstein, 1953]. Dietro quello che qui si esintetizzato in due righe c’e notoriamente una delle storie piu complesse e ricche di spunti teorici di tutta lafilosofia del linguaggio, a cui e si e rivolta una vasta letteratura (vedi [Marconi, 1997a] e la bibliografia ivicitata), non e questo che varra trattato qui, dove ci si vuole invece attenere alla specifica questione sui limitidi un sistema matematico nello spiegare il linguaggio.

Su questo punto un interessante indicatore del progresso di Wittgenstein e il suo minore utilizzo dellaparola “calcolo”, a cui si va integrando, per poi sostituirsi, la parola “gioco” [Glock, 1996]. Anzi “giochi”,perche una delle principali incompatibilita con la matematizzazione e la mancanza di uniformita del lin-guaggio, la molteplicita degli ambiti di regole, i giochi, in cui acquista una definizione. Anche stesse parolepossono funzionare in modo del tutto diverso a seconda degli ambiti in cui compaiono, corrispondenti adaltrettanti giochi entro cui e definito il logo impiego:

Ma quanti tipi di proposizioni ci sono? Per esempio: asserzione, domanda e ordine? – Di tali tipi neesistono innumerevoli: innumerevoli tipi differenti d’impiego di tutto cio che chiamiamo “segni”, “paro-

Le Matematiche del Linguaggio 115

le”, “proposizioni”. E questa molteplicit a non e qualcosa di fisso, di dato una volta per tutte; ma nuovitipi di linguaggio, nuovi giochi linguistici, come potremmo dire, sorgono e altri invecchiano e vengonodimenticati. [...] E interessante confrontare la molteplicita degli strumenti del linguaggio e dei loro modid’impiego, la molteplicita dei tipi di proposizioni, con quello che sulla struttura del linguaggio hannodetto i logici. (E anche l’autore del Tractatus Logico-Philosophicus). [Wittgenstein, 1953, §23]

Non sfugge quanto gia accennato sopra, che nel prediligere un linguaggio idoneo alle sue regole, lalogica puo indurre ad auspicarlo anche come traguardo del parlare comune tra uomini:

[...] potrebbe sembrare che in logica si parli di un linguaggio ideale. Come se la nostra logica fosse, percosı dire, una logica per lo spazio vuoto. – Invero la logica non tratta del linguaggio – o del pensiero– nel senso in cui una scienza della natura tratta di un fenomeno naturale; e al massimo si puo dire checostruiamo linguaggi ideali. Ma forse qui la parola ideale e fuorviante, perche suona come se questilinguaggi fossero migliori, piu completi, del nostro linguaggio quotidiano; e come se ci fosse bisogno dellogico per rivelare finalmente agli uomini che aspetto ha una proposizione corretta.

[Wittgenstein, 1953, §81]

Cos’ha di piu il linguaggio naturale

Dagli anni ’50 a Oxford un gruppo di filosofi segue Wittgenstein in questo spostamento di attenzione, ri-cevendo proprio il successivo appellativo di filosofi del linguaggio ordinario. Il suo primo rappresentantee Peter Strawson, che evidenzia una serie di discrepanze tra quello che succede parlando e la traduzionedegli enunciati in logica. Una prima difficolta riguarda le parole funzionali, quelle che dovrebbero corri-spondere alla costanti logiche, ma di fatto nel linguaggio normale assumono significati e seguono regoleben diversi. Basti pensare agli usi grammaticali della doppia negazione, o alle complicazioni della e cheoltre a comportarsi da buona ∧, fa anche altro. Puo suggerire significati causali, come in:

ha perso l’equilibrio ed e caduto.

Questo uso:

Anna e Cinzia sono italiane

puo essere reso distribuendo il predicato:i(A) ∧ i(C)

dove ovviamente i(·) predica che · e italiano. Ma nella frase strutturalmente identica:

Anna e Cinzia sono sorelle

non funziona, la:s(A) ∧ s(C)

significa che sia Cinzia che Anna sono genericamente sorelle di qualcuno, non necessariamente tra loro.Non migliore e la situazione sul fronte delle famigerate se...allora risolte con l’implicazione, i cuiparadossi non sono una scoperta di Strawson, ma lui riesce ad individuarne una classe per cinque possibiliregole di logica applicate all’implicazione. Per esempio, in virtu della regola:

((p ⊃ q) ∧ (p ⊃ ¬q)) ≡ ¬p

se all’aeroporto si sente dire:

se c’e nebbia l’aereo per Roma non partese c’e nebbia l’aereo per Roma parte lo stesso

si puo dedurre che non c’e nebbia, mentre nella realta la nebbia c’e eccome, e semplicemente sta pro-vocando un po’ di indecisione. Storia analoga parlando dei quantificatori, dove quelli usati dalla logicacorrispondono male alle parole funzionali, inoltre ce ne sono diversi altri dimenticati dalla logica comemolti, pochi, la maggior parte di.

In conclusione

E evidente che non c’e nulla di logicamente sacro nelle costanti logiche. Le inferenze fatte con esse nonhanno, se valide, un grado o un genere di validita superiore alle inferenze che non se ne avvalgono.

116 CAPITOLO 4. MATEMATICHE IN CRISI

[Strawson, 1952, p. 63]

Il peggio deve ancora arrivare, alla forma logica manca la capacita di includere parti di conoscenza normal-mente presupposte da chi parla, la cui mancanza puo produrre risultati paradossali. Per esempio:

tutti i libri nella stanza sono di autore inglese

resa normalmente come:∀x (l(x) ⊃ i(x)) (4.9)

dove l(·) predica essere un libro nella stanza, e i(·) essere di autore inglese, usando semplici equivalenzetra connettivi si puo scrivere la (4.9) in:

¬∃x (l(x) ∧ ¬i(x)) (4.10)

Cioe la frase e vera se non ci sono libri nella stanza, ma nessuno pronuncerebbe mai quella frase in unastanza vuota!

Strawson non e il rappresentante principale dei filosofi del linguaggio ordinario, ma e quello che habasato la sua critica piu puntualmente su dettagli tecnici della logica, per questo ci si e dilungati maggior-mente. Il personaggio piu importante e solitamente considerato John Austin, che ha messo in luce un altroaspetto del linguaggio naturale ignorato dalla logica: l’azione che chi parla intende compiere con quelloche dice, inaugurando la teoria dei cosiddetti atti linguistici [Austin, 1962]. Quando si chiede qualcosa, o siemette un comando, la caratterizzazione vero-funzionale risulta del tutto impropria, ma anche in altre circo-stanze manca alla logica la possibilita di modellare in qualche modo il livello di forza, elemento distintivodi una comunicazione reale. Ci sono altre peculiarita del conversare che sfuggono alla logica, e sono il temadi Paul Grice, soprattutto l’uso comune di frasi in cui il significato logico ha poco a che fare con il messag-gio che si intende trasmettere, caso tipico fa freddo qui dentro come richiesta educata di chiudereuna finestra [Grice, 1957]. E fuori luogo entrare nel merito di questi sviluppi (vedi [Leonardi, 1992]), e quiinteressante come emergano dall’attenzione al linguaggio ordinario nuove priorita che non avevano trovatosistemazione nella logica matematica.

La logica gioca a nascondino

Ci si interroga ora se quanto detto abbia messo definitivamente fuori gioco le vecchie matematiche. Questoprobabilmente non succedera mai, infatti ogni nuova critica stimola puntualmente l’invenzione di un’en-nesima branca della logica, pensata specificatamente per far fronte alle difficolta sollevate. A parte il ser-rato dibattito innestato da Strawson che ha visto scendere in campo i grandi della logica [Quine, 1953,Russell, 1953], successivamente sono state sviluppate logiche che includano la presupposizione, per lomeno alcune sue forme [van Fraassen, 1968, Stalnaker, 1973], in cui vengono risolti alcuni dei paradossidell’implicazione [Anderson and Belnap, 1975, Read, 1989]. Per far fronte alle istanze di Austin e Grice lalogica erotetica ha introdotto la trattazione degli enunciati interrogativi e di risposta [Harrah, 1968], quellaillocutiva tenta in generale una modellazione degli atti linguistici [Searle and D., 1985], ci sono anche incircolazione tentativi di trattare le implicature conversazionali [Gazdar, 1979].

Va notato che prestano maggiormente il fianco alle repliche della logica quelle critiche puntuali che se-gnalano casi dettagliati di inadeguatezza, diverso e per Wittgenstein, che pare precludere in linea di principioquella strada:

Le regole rigorose e chiare della struttura logica della proposizione ci appaiono come qualcosa che stasullo sfondo, celate nel medium del comprendere. [...] Quando crediamo che quell’ordine, l’ideale, sidebba trovare nel linguaggio che effettivamente usiamo, ci sentiamo insoddisfatti di cio che nella vitaquotidiana si chiama “proposizione”, “parola”, “segno”. La proposizione, la parola, di cui tratta la logica,dev’essere qualcosa di puro e di nettamente profilato. E noi ci rompiamo la testa sull’essenza del verosegno. [...] Qui e difficile tenere, per cosı dire, la testa in su – vedere che dobbiamo restar fermi alle cosedel pensare quotidiano e non imboccare la strada sbagliata, dove ci sembra di dover descrivere estremesottigliezze, che tuttavia non saremmo affatto in grado di descrivere con i nostri mezzi.

[Wittgenstein, 1953, §102, 105–106]

Le Matematiche del Linguaggio 117

operazione logica N I

¬ passa la mano a I passa la mano a N

∧ scegli uno dei congiunti

∨ scegli uno dei disgiunti

∃ scegli un individuo, continuanel dominio di quantificazione

∀ scegli un individuo, continuanel dominio di quantificazione

Tabella 4.4: Le regole del gioco “scopri se e vero”, giocano N, la “natura”, e I, l’“io” che pronuncia l’enunciato inesame.

Il paradosso, tipico della facilita con cui la filosofia di Witgenstein e stata spesso interpretata ad uso econsumo, e che invece anche i suoi giochi linguistici hanno subito un audace tentativo di matematizzazionelogica, da parte di Jaakko Hintikka. In alcune considerazioni filosofiche iniziali [Hintikka, 1973] avevaindividuato un’ipotetica analogia tra alcune operazioni logiche e i giochi, in particolare tra la quantificazioneuniversale e il “cercare”. Essendo i quantificatori l’ossatura della logica nella sua applicazione al linguaggio,ecco un buon nesso con quei giochi del viennese sul linguaggio. Per rafforzarlo, vengono prese le distanzerispetto a precedenti tentativi di applicare la teoria dei giochi alla quantificazione [Lorenzen, 1962]: quellierano “giochi da tavolo”, mentre ora si tratta di outdoor games17, in cui cercare la soluzione comportaun’attivita, che forse assomiglia all’idea di “uso” linguistico. Prescindendo dalla credibilita di questo passo,si tratta ora di vedere chi gioca, se si e scelto l’aria aperta, cosa meglio della “natura”, che dispettosa cercasempre di mostrare la falsita di un enunciato, mentre e giusto che a difenderne la verita sia proprio chi lopronuncia, un “io”. Hintikka stila anche le regole, con cui i due contendenti giocano, in corrispondenzadelle principali operazioni della logica che si incontrano in un enunciato, elencate in Tab. 4.4. Un esempiodi come vadano applicate puo essere l’enunciato:

qualunque Puffo ha un amico

che in logica e:∀x∃y (P (x) ⊂ A (x, y)) (4.11)

dove P (·) e il predicato “essere Puffo”, e A(·, cdot) e “essere amico”, predicato binario simmetrico eirriflessivo (ovvero non si puo usare per dire che si e amici di se stessi). Prima di cominciare e necessariostabilire il dominio del discorso, l’insieme di individui cui ci si puo riferire, siano Puffettina, Puffetto ePuffo Pigro, formalmente e il seguente insieme, dove per comodita si sono usate i loro diminutivi:

D = {ina etto pigro} . (4.12)

Circolano voci che Puffettina sia sempre in buoni rapporti con tutti, mentre non corrono buone acque traPuffetto e Puffo Pigro. Il gioco e una specie di nascondino (all’aria aperta) per scovare gli individui di Dche soddisfino la (4.11). La mosse sono illustrate nell’albero di Fig. 4.4, comincia la natura perche c’eun quantificatore universale, poi e la volta di I alle prese con i quantificatori esistenziali. omettendo persemplicita alcuni passaggi intermedi, come l’esclusione del caso y = x nel quantificatore esistenziale e losviluppo del condizionale, si arriva al verdetto finale. L’albero in realta illustra tutte le sequenze di mossepossibili, ben altro e poi vedere quali diversi percorsi si prendano dall’inizio alla fine. Qui Hintikka sicollega ad una teoria matematica ben consolidata, quella dei giochi (non associati dalla logica), le sue originirisalgono a Pascal e alla teoria della probabilita, con uno sviluppo autonomo soprattutto a partire dai lavori diJohn von Neumann e Oskar Morgenstern [von Neumann and Morgenstern, 1947], attualmente strettamentelegato alla ricerca operativa e alle metodologie di ottimizzazione. Uno dei concetti basilari e quello distrategia, ovvero metodo decisionale del giocatore in funzione delle mosse avversarie. E facile constatareche il concetto di verita logica e perfettamente riconducibile a quello di strategia vincente, ovvero l’esistenzadi una possibile scelta di I che conduca alla vittoria per qualunque sequenza di opzioni dell’avversario N.

Nella pratica pero il concetto di strategia pare avere limitata applicabilita. Infatti, se si guarda l’alberoin Fig. 4.4, si riconosce che I puo sempre vincere e N mai, perche il primo puo sempre tener presente la

17giochi all’aria aperta

118 CAPITOLO 4. MATEMATICHE IN CRISI

N∀x

I∃y

ina

vince

etto

vince

pigro

I∃y

etto

vince

ina

perde

pigro

I∃y

pigro

vince

ina

perde

etto

Figura 4.4: Un esempio di logica mediante il gioco della ricerca.

scelta effettuata dall’avversario e scegliere di conseguenza, e il caso, nella teoria dei giochi, dell’informa-zione perfetta, quello che occorrerebbe e invece una situazione in cui la strategia vincente sia applicabilein assenza della conoscenza sulla scelta appena effettuata dall’avversario. Hintikka adduce questo comemotivazione al mancato sviluppo di questa ludica logica, la cui prima intuizione sarebbe ravvisabile in Peir-ce [Hilpinen, 1983], e punta il dito contro Frege, colpevole di aver introdotto una teoria dei quantificatoritroppo rigida. La soluzione e di permettere a piu quantificatori di essere o meno indipendenti tra loro, eallo scopo viene usato il simbolo /. Un espressione del tipo (∃y/∀x) va letta come se la scelta di y debbaessere indipendente da quella di x. Nella logica convenzionale, di derivazione fregeana, i quantificatorisono tacitamente uno dipendente dall’altro, nell’ordine da sinistra a destra. L’esempio originale che mostraespressioni non codificabili senza il simbolo / e:

∀x∃y∀z (∃u/∀x) (f(x, y, z, u)) (4.13)

in cui l’indipendenza di ∃u da x non puo essere resa con un ordine diverso dei quantificatori. Infatti, consi-derando che ∃u deve dipendere da z, un ordine possibile sarebbe ∀z∃u∀x, ma questo sarebbe incompatibilecon le dipendenze di ∃y, che nella (4.13) si vede dipendere da x e non da z.

La nuova logica si chiama IF (Information Frendly) [Hintikka and Sandu, 1996], ed ha proprio il ri-sultato di rendere possibile i giochi a “informazione imperfetta”: l’indipendenza rispetto ad una variabilequantificata universalmente vuol dire proprio dover combattere con la maligna N senza sapere quale sceltaha fatto, contando solamente su una propria strategia in grado di vincere comunque.

Non e possibile sapere cosa ne penserebbe Wittgenstein di questa interpretazione dei giochi in chiavematematica, si sa invece che all’interno della logica ha suscitato diverse perplessita [Tennant, 1998] e il suoimpatto e stato complessivamente modesto, smentendo l’annunciata Revolution in Logic [Hintikka, 1996b].

4.3.2 Le parole in primo piano

Logica e grammatiche formali hanno un aspetto comune: gli atomi inscindibili su cui operano, i “numeri”con cui calcolano, sono le parole. La scala di analisi privilegiata e invece la frase, talvolta ancora maggiori,come nel caso delle proprieta sintattiche delle anafore, o delle logiche che tengono conto di situazioni ocontesti. La parola e invece un dato non analizzato, che esula dalle teorie, se si prescinde da aspetti mino-ri, quali la trattazione delle flessionali nella sintassi, o nella logica la corrispondenza tra operazioni e certeparole (dette appunto funzionali), come se... allora, per qualunque..., e. Il modo con cui, all’in-terno dei sistemi logici, si ricostruisce un surrogato di semantica e mediante l’insieme dei predicati e delleloro regole, come illustrato in §3.2.4 a proposito degli archivi di “ontologie” dell’intelligenza artificiale,attuale eredita dei postulati di significato carnapiani.

In maniera abbastanza indipendente dai difficili eventi interni di queste due matematiche, su cui ci sie soffermati precedentemente, recentemente e stato puntato il dito proprio su questa loro parzialita nel-l’abbracciare il fenomeno del linguaggio umano, con il sospetto che trascurare le parole precluda in lineadi principio la possibilita di una sua soddisfacente sistemazione teorica. La denuncia di questa lacuna hastimolato una direzione di ricerca nuova, in cui l’oggetto primario diventano le parole, e i meccanismi di

Le Matematiche del Linguaggio 119

costituzione del loro significato. Ne sono esemplari rappresentanti due lavori tra loro contemporanei: Si-gnificato ed esperienza di Patrizia Violi e Lexical Competence di Diego Marconi. Il primo comincia propriocon:

Questo e un libro sulle parole [Violi, 1997, p. 1]

e nell’introduzione del secondo si legge:

Fin dall’inizio mi sono concentrato sulla comprensione delle parole. [Marconi, 1997b, p. 3]

Entrambi sottolineano la carenza di un’analisi al livello delle parole nella logica matematica e come cio minile sue pretese di costituire una teoria del significato. Concordano pure in un’avvertenza: non sara certo facilesopperire a questa carenza muovendosi sulla stessa linea adottata finora dalla logica. Non ci si potra piu, peresempio, permettere il lusso di studiare il linguaggio come qualcosa di oggettivo, esterno all’uomo che loadopera. Quando si scende al livello delle parole e ben piu difficile trovare regole generali ed uniformi, cui sidovrebbero attenere le persone, indipendentemente da qualunque altro loro aspetto cognitivo. Al contrario,e il momento di scendere a indagare su cosa succede nella mente, nella formazione del significato delleparole, occorre, come dice Marconi sempre nell’introduzione, “ricondurre la semantica dal cielo alla terra”.Ecco perche diventa centrale nel significato il ruolo dell’“esperienza”, il tramite attraverso cui il mondo perl’uomo assume un’interpretazione nel linguaggio; perche e utile far slittare l’analisi da una “semantica”lessicale ad una “competenza” lessicale, cioe allo studio della capacita di una persona di far funzionare leparole, riconoscendole ed impiegandole.

Anche nella parte propositiva dei due lavori c’e una concordanza nell’individuare un dualismo di fondo.Per Violi nel significato di una parola convive l’insieme di proprieta derivanti dall’esperienza, soprattuttopercettiva e corporea, con l’intreccio di nessi alle altre parole; Marconi trova centrale la dicotomia tra com-petenza inferenziale, il contributo al significato di una singola parola derivante da inferenze linguistiche,e la competenza referenziale, il lato extralinguistico, di natura percettiva. Non ci si soffermera qui sullediverse strade che prendono poi le due proposte, si accenna solo a un paio di punti fondamentali: per Violitutto quanto non deve concretizzarsi un una teoria monolitica, in quanto le varie aree del lessico richiedo-no trattamenti ben diversificati, in talune risultano determinanti certi meccanismi, come quelli prototipali,mentre in altre sono marginali o totalmente assenti. Per Marconi una caratteristica basilare della competen-za referenziale e il suo aspetto procedurale, ovvero di prescrizione delle modalita con cui cio cui si riferiscela parola puo venire riconosciuto percettivamente. Sono argomenti di rilievo per le nuove matematichedi cui si parlera piu avanti, per il momento quello che si vuol capire e come ne escono le vecchie, dalleargomentazioni contenute in questi due lavori.

Il verdetto che pare si possa evincere da Violi non e dei piu magnanimi. Infatti non e solo la mancanzadel trattamento delle parole ad essere imputata alla logica, anche l’incapacita di cogliere diversi aspetti delsignificato che si manifestano nel linguaggio ordinario. Per esempio, di discriminare le differenze legate adun diverso ordinamento lineare in:

e disordinato, ma capacee capace, ma disordinato [Violi, 1997, p. 27]

o le differenze prospettiche in:

il bicchiere e sul tavoloil tavolo e sotto il bicchiere [Violi, 1997, p. 28]

Sono osservazioni del genere visto in §4.3.1, anche qui si potrebbe sempre mostrare come modellazioni piusofisticate dei predicati possano avvicinare logica e linguaggio ordinario in questi esempi, probabilmenteprestando poi il fianco a esempi diversi, in definitiva rimane l’evidenza di una serie di gravi difficolta. Lecose peggiorano passando a quel poco che la logica offre sul significato lessicale, vengono contestati alle“ontologie” artificiali i limiti di soggiacere alle CNS (Condizioni Necessarie e Sufficienti), ovvero ad unaserie di dichiarazioni predicative che dovrebbero formalizzare la lista dei tratti semantici primari di unaparola, costitutivi del suo significato. I guai sono tanti, e Violi non e certo indulgente nel denunciarli, conampio suffragio di prove, per citarne alcune:

120 CAPITOLO 4. MATEMATICHE IN CRISI

• non c’e criterio che funzioni per stabilire quale tratto semantico sia nobilitato a far parte dellafamigerata lista primaria;

• non c’e nessuna differenziazione tra gli oggetti che rientrano in una categoria;

• non c’e possibilita di “sfumare” tra una categoria all’altra, le appartenenze sono ritagliate in modonetto, come metterla per esempio con le parole tazza--scodella--ciotola--piatto--....

Marconi lascia invece diverse possibilita di appello. Anzitutto la critica nei confronti della logica riguar-da essenzialmente la sua parzialita, al piu anche gli equivoci comportati dal non dichiararla apertamente.In altre parole la semantica classica basata sulla logica sbaglia a chiamarsi “semantica” senza ulteriori di-stinzioni, in quanto non copre l’intero ambito del significato, bensı solamente gli effetti della composizionedi parole, ma in questo non e necessariamente inadeguata, quantomeno e cio che di meglio si possa trovarea disposizione oggi. Con una chiara avvertenza, e una teoria che va presa con le pinze qualora si intendaindagare su come funziona veramente il linguaggio nell’uomo. Gli strumenti della logica matematica “piuche esplicare quella capacita, la surrogano” [Marconi, 1997b, p. 129 ed. it.]. E un avvertimento non certoda poco per le finalita di questa ricerca. Anche per i destini del trattamento matematico del lessico ci sonosperanze. Viene pero segnalata una grave lacuna, la componente referenziale, senza cui non si potra maiarrivare ad una modellazione della competenza aderente a quella umana. Nel caso fosse colmata, non siesclude che funzioni, anzi viene messa in discussione la posizione di Searle, che come visto sollevava fortiobiezioni di principio (§4.2.3). Piu precisamente Searle, per respingere una certa reazione al suo test diTuring alla cinese, ne ipotizza una variante, in cui il computer e dotato di appendici sensoriali e organi dimovimento, insomma e un robot completo, nella cui pancia c’e la cavia di questo esperimento mentale,sempre indaffarata a ricevere messaggi e a rispondere tramite il solito efficientissimo manuale. L’unicadifferenza e che adesso alcuni dei foglietti in cinese arrivano dalla telecamera, cosı come altri fogli, semprecon simboli incomprensibili, vanno in uscita ad attivare motori, insomma, sostiene Searle, non e cambiatonulla, non c’e parvenza di comprensione. Marconi sottolinea diverse debolezze del ragionamento, ma so-prattutto un passo che lascia particolarmente perplessi, l’idea che anche dalla telecamera arrivino simbolicinesi, quando abitualmente le telecamere, sia in Italia che in Cina o in America, producono immagini:

Che cos’e essere un input visivo, se non e essere stato (riconoscibilmente) generato da un certo tipo diprocesso? Searle risponderebbe che e essere il tipo di input che noi esperiamo come visivo. Una rispostadel genere pero, sembra dipendere da una decisione a priori di non considerare la nozione di visione co-me generalizzabile al di la dell’esperienza umana, come se uno decidesse che volare e cio che fanno gliuccelli: quello che fanno altre creature o altri dispositivi, qualunque cosa sia, non e volare [...].

[Marconi, 1997b, p. 182 ed. it.]

Pure qui ci sono le aperture, ma anche le avvertenze, di una matematica completa del trattamento di datipercettivi si potrebbe affermare che offra una spiegazione della competenza semantica umana, solamente selo spettro di prestazioni che e in grado di riprodurre sia veramente ampio, ovvero non si ravvedono principilimitativi, ma le differenze di grado sarebbero rilevanti18

4.3.3 Il lato biologico

Il linguaggio e la manifestazione caratteristica di un certo animale, homo sapiens, del gruppo hominoideanell’ordine del primati. La sua comparsa, forse intorno a 200.000 anni fa, che ha prodotto il ben notovantaggio evolutivo rispetto alle specie affini, ha comportato diversi adattamenti morfologici. Queste carat-teristiche fisiologiche attraverso cui il linguaggio si puo manifestare, hanno un loro sviluppo ontogenenticoche interessa gia lo stato fetale. Gli organi fonatori e auditivi sono le periferie di un complesso sistemaneurologico che interessa diverse aree sia della neocorteccia che di parti interne del cervello.

Fatti di questo genere sono stati tradizionalmente considerati di ben poco interesse per la filosofia dellinguaggio, totalmente irrilevanti per quanto riguarda la logica. Piu articolata e la posizione della scuolachomskiana, a cui in realta si deve la prima svolta verso il lato biologico dell’uomo (vedi §3.1.3). E un’at-tenzione che pero e sempre rimasta solo sulla carta, le ricerche e gli sviluppi dominanti non coinvolgono a

18Qui si e parlato sempre di “matematiche” mentre Marconi si riferisce pi u specificatamente ai sistemi artificiali, ma data la gene-ralita del suo discorso, che non richiede un’adesione a particolari posizioni del computazionalismo classico, lo scambio di termini eininfluente.

Le Matematiche del Linguaggio 121

nessun titolo fatti ed evidenze biologiche, talvolta affiora addirittura una posizione ribaltata, come se fossela biologia a dover tener conto dei risultati della linguistica generativa, per scoprirne dei correlati fisiologici.

Che la biologia potesse dire la sua sulle problematiche filosofiche della natura umana non e proprio unanovita, un tale lo aveva detto con una certa enfasi:

He who understand baboon would do more towards metaphysics than Locke19.

[Darwin, 1880, M 84e]

Che il suo nome ricorra in diversi titoli di lavori contemporanei di filosofia del linguaggio e filosofia dellamente la dice lunga sulla crescita di interesse che sta vivendo la biologia [Dennett, 1978, Edelman, 1987,Bichakjian, 2002].

Non manca di citarlo Lakoff, uno dei principali portavoci di questa tendenza, nel suo Philosophy in theFlesh, the The Embodied Mind and its Challenge to Western Thought, il cui titolo provocatorio non lasciadubbi sulle sue posizioni, si legge:

Reason is evolutionary, in that abstract reason builds on and makes use of forms of perceptual and motorinference present in “lower” animals. The result is a Darwinism of reason, a rational Darwinism: Reason,even in its most abstract form, make use of, rather then trascends, our animal nature. [...] Finallly, thereis no Chomskyan person, for whome language is pure syntax, pure form insulated from and independentof all meaning, context, perception, emotion, memory, attention, action, and the dynamic nature of com-munication. Moreover, human language is not a totally genetic innovation. Rather, central aspects oflanguage arise evolutionarily from sensory, motor, and other neural systems that are present in “lower”animals20.

[Lakoff and Johnson, 1999, pp. 4–6]

Ma questa simpatia di alcuni filosofi del linguaggio nei confronti della biologia non esaurisce certo ilfenomeno, l’aspetto scientificamente piu proficuo, che rende queste simpatie non certo epidermiche, e ilcoinvolgimento nello studio del linguaggio proprio dei biologi. Includendo nomi illustri, per esempio ilbiologo molecolare Gerald Edelman, premio Nobel nel 1972, ha spostato i suoi interessi verso la filosofia,mettendo in campo la sua doverosa competenza su quella flesh entro cui, auspica Lakoff, dovrebbe immer-gersi [Edelman, 1992]. Competenza che talvolta diventa eccesso di disinvoltura, come in quei dubbi ibriditra genetica e ottimizzazione che sono i suoi modelli di darvinismo neuronale [Edelman, 1987].

Il linguaggio nel corpo

Un grande merito di Edelman e aver divulgato con convinzione ed entusiasmo la necessita di riallacciarestudi sulla mente e il linguaggio alla loro base fisiologica, corroborata da una buona dose di evidenze eargomentazioni, talvolta aneddotiche, che un altro premio Nobel, Francis Crick, ha sintetizzato sotto iltermine “edelmanismo neuronale”.

Il suo e qualche altro sono casi che si distinguono per l’ampia portata filosofica del discorso, ma discienziati che, in un raggio di azione piu circoscritto, hanno dedicato la loro indagine alle strutture fisio-logiche in cui risiede il linguaggio, ce ne sono veramente tanti. E un campo che naturalmente e sempreesistito all’interno della medicina, ma che da diverse decine di anni ha una propria autonomia con finalitaprettamente cognitive. Al suo interno si va dallo studio del sistema uditivo e di quello fonatorio, a quellodei centri neuronali coinvolti nel riconoscimento e nella produzione del linguaggio. Questi ultimi sono na-turalmente i settori dove si e assistito ad una vera e propria esplosione di nuovi dati e conoscenze, a seguitodei progressi delle neuroscienze, e sara in buona parte il contenuto dei successivi capitoli, ma anche i duesistemi piu periferici hanno avuto recentemente un ritorno di interesse, dovuto al riconoscimento di un ruolotutt’altro che secondario.

122 CAPITOLO 4. MATEMATICHE IN CRISI

Figura 4.5: Il tratto vocale sopralaringeo nei primati (sinistra) e nell’uomo (destra) (da [Lieberman, 1991]).

Quando l’uomo comincio a parlare, rischiando di ingozzarsi

E proprio l’apparato fonatorio al centro dei primi studi di Philip Lieberman, che ne ha individuato l’unicitaper l’uomo. In particolare la conformazione del tratto vocale sopralaringeo e del tutto particolare nell’uomorispetto agli altri primati, con delle differenze marcatamente orientate ad una sofisticata produzione di suonicomplessi [Lieberman, 1967, Lieberman, 1991]. Come spesso succede nell’evoluzione, si e specializzatoun organo originariamente destinato ad altro, respirare e deglutire, come conseguenza di questa conversioneil tratto laringeo non e piu ottimizzato per la sua funzione originaria. Infatti agli umani capita ogni tantoche un boccone vada di traverso, inconveniente pressoche sconosciuto agli altri primati, ma e un fastidioche si puo ben tollerare, di fronte ai vantaggi del linguaggio. Lieberman ha tentato di tracciare all’indietro imomenti di questa evoluzione epocale, certamente non e stato un processo facile e lineare, si e appurato chenon si verifico in diverse linee di ominidi poi estinti. Uno degli ultimi ad apprezzare l’illusorio vantaggio dideglutire perfettamente pare sia stato l’uomo di Neanderthal.

Attualmente Lieberman sta indagando ulteriori aspetti evolutivi del linguaggio, centrati sul controllomotorio, che e il fondamento della capacita di sequenziare suoni, e probabilmente delle capacita sintattiche,il cui correlato fisiologico e la parte interna del cervello, i gangli basali, tradizionalmente trascurati a favoredella neocorteccia negli studi neuroscientifici del linguaggio [Lieberman, 2002].

C’e anche la biologia genetica che offre un ulteriore punto di vista sul quel fatidico periodo dell’e-voluzione, cercando geni che siano in qualche modo correlati al linguaggio. Il gruppo del Max PlanckInstitute of Evolutionary Genetics diretto da Svante Paabo ha individuato il gene FOXP2, presente nel-l’uomo in forma variante rispetto agli altri primati, le cui mutazioni provocano disturbi del linguaggio[Enard et al., 2002]. Un altro gene, Agnostic Right Shift Gene, legato ad anomalie della lateralizzazio-ne cerebrale [Annett, 1999], una caratteristica morfologica del cervello importante per il funzionamen-to del linguaggio, parrebbe connesso alla schizofrenia, che e basilarmente una patologia del linguaggio[Pennisi, 1998].

Quando i bambini cominciano ad ascoltare

In questo clima di rinnovati interessi non poteva mancare la curiosita verso un altro punto di vista sulleorigini del linguaggio, quello ontogenetico, e le recenti scoperte sulla formazione embrionale del linguag-gio non hanno certo deluso le aspettative, fornendo un quadro, anche se del tutto provvisorio, alquantosorprendente. Sono stati trovati diversi indizi secondo cui l’udito avrebbe uno sviluppo avanzato nel feto,in grado di permettere una percezione netta della voce materna, probabilmente gia a partire dal quinto mesedi gravidanza [Tomatis, 1972, Pennisi, 1994]. Questo ascolto precoce, di cui sono state accertate diversecapacita discriminatorie, in una fase in cui e in atto la morfogenesi del cervello, e certamente non casuale e

19Chi riesca a capire il comportamento dei babbuini avra fatto piu progressi in metafisica di Locke20La ragione e un fenomeno evolutivo, il ragionamento astratto infatti emerge dalle forme percettive e le inferenze motorie presenti

negli animali “inferiori”. Il risultato e un darvinismo della ragione, un darvinismo razionale: la ragione, anche nelle sue espressionipiu astratte, non trascende, bensı utilizza la nostra natura animale. [...] Infine, non esiste la persona ideale di Chomsky, per cui illinguaggio e pura sintassi, pura forma, isolata e indipendente da significato, contesto, percezione, emozione, memoria, attenzione,azione, e dalla natura dinamica del comunicare. Inoltre, il linguaggio non e una innovazione interamente genetica. Al contrario,esistono aspetti centrali del linguaggio che emergono in modo evolutivo dai sistemi sensoriali, motori, nonche altri sistemi neuronalicomuni negli animali “inferiori”

Le Matematiche del Linguaggio 123

Figura 4.6: Alcuni lexigrams, i simboli del linguaggio per i bonobo.

potrebbe essere rivelatore non solamente su caratteristiche prettamente fonetiche del linguaggio, ma anchepiu profonde, a livello della strutturazione sintattica [Mehler, 1989].

Non minore attenzione e stata rivolta a tutti i periodi successivi alla nascita, fino allo sviluppo ma-turo del linguaggio, in particolare alle prime emergenze delle capacita sintattiche e di categorizzazionenel bambino. Qui c’e naturalmente una confluenza col filone tradizionale della psicologia dello sviluppo,in cui gia l’impronta fondamentale di Jean Piaget aveva instaurato un nesso con la biologia [Piaget, 1936,Piaget, 1937], ora rafforzato entro un quadro di conoscenze ben piu ampio, soprattutto di natura neurologica[MacWhinney, 1999].

I nostri cugini che non parlano

Come Lieberman aveva decretato, gli altri primati mancano dei presupposti fisiologici per poter parlare.Se ne accorsero a loro spese i Kellogg e i Hayes, che dedicarono vani sforzi nel tentativo di insegna-re qualche parola di inglese ai loro scimpanze allevati in ambiente umano, rispettivamente Gua e Viki[Kellogg and Kellogg, 1933, Hayes and Hayes, 1951].

Ma il capitolo e tutt’altro che chiuso, anzi, lo studio del linguaggio nei primati e diventato un ambitodisciplinare su cui sono puntati gli occhi di molti, essendo un altro versante che potrebbe offrire nuoveconoscenze su questo fenomeno, trattandosi di quegli stessi animali da cui ci si e distaccati evolutivamenteproprio con la comparsa del linguaggio. E un tipo di ricerca che va affermandosi dalla fine degli anni’70, dopo che per lungo tempo lo studio dei primati era stato appannaggio del comportamentismo conil suo disinteresse per gli aspetti cognitivi, seguito dall’etologia classica che si occupava esclusivamentedell’animale nel suo ambiente naturale (vedi, per una rassegna, [Call and Tomasello, 1997]). Ad inaugurarela serie sono i Gardner, che escogitano una scappatoia per superare l’impossibilita di pronunciare parole:insegnano al loro scimpanze Washoe la lingua dei segni, una porzione dell’ASL (American Sign Language)[Gardner and Gardner, 1969].

Da allora si sono susseguiti diversi esperimenti simili, finora il risultato piu eclatante e stato ottenutoda Sue Savage-Rumbaugh con il bonobo Kanzi [Savage-Rumbaugh, 1986]. Il linguaggio questa volta escritto, basato su lexigrams, simboli in cui e accuratamente evitato ogni riferimento iconico (vedi Fig. 4.6,accessibili mediante grandi tastiere o strumenti analoghi, ma la novita e il modo in cui e stato appreso: noninsegnato direttamente dall’uomo, come in tutti gli esperimenti precedenti, ma spontaneamente assistendo atutte le fasi di addestramento (con poco successo...) della madre Matata. Per coincidenza temporale Savage-Rumbaugh aveva una figlia, Alia, con cui compiere facilmente comparazioni sulle capacita e competenzeacquisite da Kanzi, che equipararono la bambina a due anni e mezzo.

E un risultato non certo facile da inquadrare teoricamente che ha aperto un vivace dibattito, e certamentedifficile negare che si sia di fronte a qualcosa di simile al linguaggio umano sotto tanti punti di vista, inclusaun’embrionale struttura sintattica [Greenfield and Savage-Rumbaugh, 1991]. Non ci sono dubbi che nei

124 CAPITOLO 4. MATEMATICHE IN CRISI

primati il linguaggio non e un comportamento naturale, ma la nascita e la crescita in ambienti umani esicuramente un formidabile elemento di impatto sul loro sviluppo, che si evidenzia in tante manifestazioniinesistenti allo stato selvatico, come per esempio indicare [Call and Tomasello, 1994], una circostanza chepuo essere rivelatrice sulle fasi primordiali di emergenza del linguaggio.

Le matematiche?

Si e parlato in questa sezione dell’ingresso della biologia negli studi del linguaggio, assumendolo asettica-mente come uno degli aspetti non contemplati dalle matematiche del linguaggio introdotte nei precedenticapitolo, che a un certo punto ha guadagnato importanza. In realta buona parte dei fautori di questa correnteha una posizione per niente neutrale, la biologia con tutto cio che finora puo rivelare sul linguaggio sarebbepesantemente incompatibile con quelle matematiche. Lakoff e sistematico nel contrapporre la visione bio-logica a quella sia della logica che delle grammatiche chomskiane e del computazionalismo, Edelman non eda meno, Lieberman se la prende soprattutto con Chomsky. E la posizione di gran lunga prevalente, ma nonmancano eccezioni. Sul fonte dei biologi Eric Lenneberg e sempre stato vicino alle posizioni di Chomsky,cercandone una validazione, ipotizzando una possibile discontinuita evolutiva compatibile con l’innatismo[Lenneberg, 1967]. Su quello dei filosofi Dennett ha addirittura tentato un accostamento del computazio-nalismo con la biologia moderna, la Darwin’s dangerous idea non sarebbe altro che quella di algoritmo,e questa la caratteristica rivoluzionaria delle leggi evolutive da selezione naturale [Dennett, 1995]. Unatesi che non poteva che suscitare scalpore, d’altra parte Darwin, un po come Wittgenstein e altri grandi, edestinato al gioco delle sue reinterpretazioni e Dennett non sara certo l’ultimo.

In un bilancio sommario, le nuove prospettive di ricerca che si intrecciano con la biologia, anche sepotrebbero non essere del tutto incompatibili con le vecchie matematiche, sicuramente hanno aperto stradeprofondamente diverse, con punti di incontro sempre piu sporadici, in cui non paiono intravedersi vie diuscita dalla loro crisi.

Capitolo 5

La matematica del cervello

Nel secolo scorso quell’ipotesi puramente speculativa, lanciata provocatoriamente da Hobbes, La Mettrie epochi altri, ha trovato i primi riscontri reale: si e cominciato a far luce su quelli che sono gli “ingranaggi”della macchina naturale con cui l’uomo pensa e usa il linguaggio. E emerso in modo sempre piu evidenteche ogni processo cerebrale e costituito da tante, tantissime operazioni su grandezze misurabili. Tutto cioche avviene nella nostra mente e il frutto di innumerevoli e continui calcoli, realizzati da complessi congegnibiologici in grado di elaborare segnali elettrici.

Anche se si tratta di una svolta scientifica formidabile, di una scoperta con ripercussioni ineluttabili infilosofia, ma anche nel pensare comune riguardo all’uomo e alla sua mente, questi fatti di per se spieganopoco e forse nulla sulla natura del linguaggio e il suo funzionamento. Nonostante questi calcoli avvenganocontinuamente, non c’e la piu lontana consapevolezza di questo, e un livello totalmente impermeabile al-l’introspezione, inoltre la loro particolare struttura, con un numero enorme di circuiti parallelizzati, risultatalmente aliena rispetto alle abituali concezioni del calcolare, da precludere ogni tentativo di comprensioneintuitiva.

Si ritiene che la matematica sia una delle strade tramite cui cercare risposte, la stessa strada attraversocui e stato dato senso a tanti altri fenomeni della realta, caratterizzati dall’evolversi di grandezze misurabili.Tramite i suoi formalismi possono essere sintetizzati meccanismi di complessita altrimenti inafferrabile dauna mente, sia per il numero delle grandezze in gioco, che per la molteplicita di scale tra loro interconnesse.Il formalismo e le sue proprieta astratte diventano poi il mezzo concettuale con cui indagare le caratteristichedel fenomeno reale.

E qui che nasce la nuova proposta di matematica del linguaggio, in disparte dai problemi e dalle crisidelle precedenti, fermamente ancorata al calcolo “vero”, che scorre incessante nel cervello di ogni uomo.Esiste gia qualcosa che assomiglia, inizialmente celata sotto le denominazioni di “connessionismo” o gene-ricamente neural computation, in cui la matematica si ispirava piuttosto liberamente al funzionamento delcervello, evolvendosi poi un quella che Patricia Churchland e Terrence Sejnowski hanno autorevolmentedefinito computational neuroscience [Churchland and Sejnowski, 1994]. Il termine sottolilnea il riferimen-to prioritario alle neuroscienze, quelle senza computational, che hanno preso il loro avvio dalle scoperteaccennate sopra, con una continua e notevole evoluzione nei cento anni successivi. Sotto questa accezionesi muove una matematica che pertanto non considera i neuroni come vaga metafora, ma costituenti dellabase di calcolo, in tutti i meccanismi biologici attualmente riproducibili.

E opportuno chiarire che la matematica di cui si e appena dichiarata l’esigenza, e su cui si ripongonoragionevoli speranze come miglior matematica del linguaggio, e oggetto piuttosto marginale nell’ambi-to delle neuroscienze strettamente biologiche, nemmeno ne fanno necessariamente parte alcuni supportimodellistici ivi impiegati.

In modo piuttosto schematico si puo dire che le neuroscienze tendano a concentrarsi sulle due scaleestreme dei processi cerebrali: su quelli a livello molecolare che avvengono nel singolo neurone o all’in-terfaccia tra due neuroni, oppure sulle caratterizzazione funzionali di aree macroscopiche del cervello e delsistema nervoso in generale. Quest’ultimo tipo di indagine non coinvolge direttamente nessun aspetto ma-tematico, lo scopo e unicamente localizzare la funzione studiata nel cervello, indipendentemente da comeriesca a realizzarsi. Pertanto, anche se questa, grazie al suo carattere descrittivo e macroscopico e la parte

126 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

piu popolare delle neuroscienze, non sara trattata in questa ricerca. Per i processi microscopici al contrarioe di grande aiuto la matematica, indispensabile per modellare i dettagliati meccanismi chimici, elettrici etermodinamici in gioco. Come tutte le schematizzazioni, anche questa e inesatta, se e certo che i due poliestremi attraggono una notevole porzione delle ricerche neuroscientifiche, in effetti ogni scala tra le duetrova una certa letteratura, spesso concentrata su alcune aree cerebrali in cui e stata praticabile l’indagine,per esempio la corteccia visiva nel lobo occipitale che e stata analizzata a livello di organizzazione minutadelle reti neuronali.

Per la neuroscienza computazionale il livello privilegiato e invece quello delle reti neuronali omogenee,che corrisponde alla scala intermedia del cervello meno studiata dalla neuroscienza. E questo il dominio pri-vilegiato dove cercare di astrarre il funzionamento matematico, dove spiegare come dalla interconnessionedi un gran numero di dispositivi di calcolo indifferenziati emerga un comportamento coerente e finalizzato.La spiegazione matematica assume un ruolo diverso da quella coinvolta per l’analisi a livello cellulare emolecolare. Quest’ultima rientra nel tipico rapporto della matematica con le scienze biologiche, ovvero disupporto descrittivo per alcuni aspetti particolari di un fenomeno che nel suo complesso non potra che esse-re trattato qualitativamente. Il ruolo auspicato per il calcolo neuronale dovrebbe invece ricalcare le orme diquello tipicamente rivestito dalla matematica per la fisica, cioe intrinsecamente costitutivo della spiegazionedei fenomeni.

Come gia detto lo sviluppo di questa nuova matematica e strettamente legato ai progressi della neuro-scienza nella sua accezione comune, in particolare il suo punto di partenza devono essere i meccanismi dibase del singolo neurone, il cui dettaglio dev’essere recepito nella misura in cui non precluda la sua inclu-sione nelle reti di dimensioni opportune. Il compito e tutt’altro che facile, non si tratta certo di un puzzle incui i componenti, i processi dettagliati dei neuroni siano gia lı sul tavolo, e si tratti solamente di comporreil tutto. Molti pezzi sono ancora ambigui, indefiniti, alcuni mancano del tutto. Per esempio le indaginisperimentali possono dire molto sullo stato attuale di un sistema di neuroni, ben poco sui meccanismi chelo hanno portato a configurarsi in quello stato.

Per entrare nel merito dello scenario descritto, questo capitolo e organizzato in tre parti: la prima dedica-ta ai neuroni come dispositivi di calcolo naturali; l’ultima alla loro matematica, per quello che attualmentepuo proporre questa giovane impresa scientifica. L’intermezzo e dedicato a quel lato piu oscuro, la for-mazione delle reti neuronali, dove i numeri scarseggiano e per fare matematica occorre una buona dose dispeculazione concettuale, attingendo anche dalla psicologia.

5.1 Al naturale

Nel quadro delle scoperte fatte dalla neuroscienza una delle maggiori sorprese e l’esistenza di un solotipo di cellula nel ruolo di dispositivo capace di calcolare, per gli scopi piu disparati, dal controllo dellefunzioni organiche di base alla percezione sensoriale fino a tutti i comportamenti superiori e ovviamenteal linguaggio. Qualunque sia il tipo di funzione intellettiva sotto indagine, il suo esplicarsi puo avveniretramite reti di varia geometria, architettura, complessita, ma in tutte queste reti l’unico elemento attivorimane sempre e comunque lo stesso: il neurone.

5.1.1 Cosı semplice, cosı complesso

Cosı fu battezzato questo tipo di cellula dal medico tedesco Wilhelm Waldeyer, nel 1891, il periodo in cuinasce la nuova neuroscienza. Camillo Golgi trovo che alcuni sali di argento coloravano le cellule cerebra-li in modo da evidenziare nettamente le loro ramificazioni distinguendole dallo sfondo, ma testardamentecontinuo a considerare il cervello come un unico tessuto piuttosto spugnoso, e quindi il merito della grandescoperta ando al suo rivale Santiago Ramo’n y Cajal. Questi aveva notato che c’era una leggera discontinuitalungo quei filamenti, indizio che lo porto a diverse buone intuizioni. Anzitutto capı che lı terminava unacellula e ne cominciava un’altra, poi che queste cellule erano piu o meno dello stesso tipo, infine che la chia-ve del loro modo di funzionare andava cercata in questi loro stretti accoppiamenti [Ramon y Cajal, 1906].Entrambi inaugurarono anche, nel 1906, la lunga serie dei riconoscimenti Nobel a questa nuova disciplina.

Cosa in effetti transitasse attraverso quei filamenti, che collegavano in reti incredibilmente complesseun numero sterminato di neuroni, rimaneva misterioso, quindi per diversi anni la scarsita di elementi certidissuase dal tentare una costruzione teorica.

Le Matematiche del Linguaggio 127

sinapsi

dendritisoma

assonehillockzone

Figura 5.1: Schema di una cellula neuronale.

Ci prova Freud

Azzardo Siegmund Freud, che interpreto le connessioni neuronali come trasporto di energia, e disegno varischemi di reti neuronali che spiegavano fenomeni mentali sia normali che patologici in termini di cana-lizzazione di energie [Freud, 1895]. Secondo alcuni [Sulloway, 1982] non e stata accidentale l’attenzionedel viennese ai dettagli delle biologia neuronale, ma alcuni temi centrali della sua psicoanalisi, quali laredirezione di energia psichica, la sublimazione, la regressione, risultano convincentemente supportati dalsubstrato fisico, qualora interpretato come aveva fatto lui, con schemi di flussi energetici transitanti traneuroni.

In quel periodo l’inglese Alexander Bain era andato piu vicino alla realta parlando di deboli correntielettriche, che attraverso le fibre nervose potevano provocare nelle celle (non ancora battezzate neuroni...)risposte differenti, legate proprio al valore di tali correnti [Bain, 1873]. Non fondo nessuna psicoanalisi,ma il suo lungimirante contributo non passo inosservato, risultando fra l’altro in linea con l’ipotesi giaaccreditata della corrente elettrica come veicolo di comunicazione del sistema nervoso. Diverse perplessitasorsero quando Hermann von Helmholtz misuro la velocita di trasmissione degli impulsi nervosi, che risultosorprendentemente bassa, intorno ai 30 metri al secondo, drasticamente inferiore a quella tipica dei segnalielettrici. Lui stesso suppose, giustamente, che il passaggio di corrente doveva avvenire grazie ad altrimeccanismi, in grado di sostenerla al prezzo di una bassa velocita.

Nei decenni successivi arrivarono dei primi risultati certi sulla natura del collegamento tra questi neuro-ni; Otto Loewi dimostro che all’interno del neurone la trasmissione e sostanzialmente elettrica, mentre traneuroni e di tipo chimico, e la sovrapposizione dei due principi doveva avvenire in un insieme tutt’altro chesemplice. Come lo e invece la Fig. 5.1, qui impiegata per schematizzare questa cellula, descritta a seguitonel suo funzionamento di massima.

Il neurone e formato dal corpo cellulare centrale, chiamato soma (dal greco � ��� � = corpo), e da diverseramificazioni. I dendriti (dal greco

���� � � ��= albero) sono in un certo senso i canali di input, in quanto

captano segnali da altri neuroni, convogliandoli al soma che si comporta di conseguenza. Uno degli effettipiu importanti e la possibilita di emettere un segnale elettrico, che si propaga lungo l’ assone, una sorta dicanale di output del neurone, attrverso cui il segnale viaggia verso altri neuroni. Nel punto di attacco del-l’assone al soma vi e un restringimento (la cosiddetta hillock zone) dove normalmente e inibito il passaggiodel segnale di output. Al confine tra l’assone di un neurone che trasmette e il dendrite di uno ricevente visono le sinapsi (dal greco ��� �� � � = punto di contatto), che possono modulare con continuita il segnalein transito, attenuandone o meno l’effetto sul neurone che sta ricevendo. Le sinapsi sono delle interfacce,la presinapsi fa parte del neurone trasmittente trasmette e le postsinapsi, situate sui dentriti, sono parte delneurone che riceve. Tutto questo sistema di comunicazioni, come accennato prima, si basa su fenomenisia elettrici e chimici: il neurone assume una carica elettrica soprattutto perche nel suo interno si accumu-lano ioni, solitamente positivi, ma l’accesso di questi ioni attraverso la membrana cellulare e regolato dafenomeni chimici nelle sinapsi, che verranno esaminati in dettaglio piu avanti.

Dato l’esile spessore della membrana neuronale, basta anche una modesta differenza di potenziale tral’interno e l’esterno della cellula per dar luogo a campi elettrici notevoli, tipicamente intorno a 100.000Volt/cm (quanto basterebbe per esempio a produrre un arco voltaico nell’aria). Quando questo campo superaun certo valore, il potenziale che manteneva la chiusura della hillock zone si abbatte, e si crea un’onda di

128 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

input eccitatorioinput inibitoriooutput

3 1 0

Figura 5.2: Le celle di McCulloch e Pitts: a sinistra la congiunzione logica, al centro la disgiunzione, a destra lanegazione. Il numero all’interno del neurone indica la sua soglia.

cariche che attraversa tutto l’assone verso nuovi neuroni. Questo canale e attivo, nel senso che riesce amantiene il livello elettrico indipendentemente dalla distanza, compito che richiede un continuo scambio dimolecole tra il soma e ogni tratto dell’assone, e la velocita di trasmissione e bassa, intorno a 1.5 metro alsecondo, come una persona che cammina di buon passo. Nei dendriti la trasmissione e invece passiva, mala loro lunghezza e tipicamente minore rispetto all’assone.

L’individuazione di questi fenomeni, cosı come diversi altri qui tralasciati per semplicita, non e suffi-ciente per una matematica, manca ancora un’ipotesi sulle relazioni che intercorrono tra le diverse grandezzein gioco: tensioni elettriche, cariche, densita di componenti chimici. Questa informazione, per quanto fon-damentale, non sarebbe che l’avvio dell’impresa piu ardua, la costruzione di sistemi complessi compostida tanti neuroni. Ogni funzione umana, per quanto primitiva, emerge sempre quando questo dispositivodi calcolo biologico e replicato in numero elevato, con molte connessioni fra loro. Per avere un ordine digrandezza, c’e da tener presente che nella sola corteccia cerebrale sono stati stimati circa dieci miliardi dineuroni, cento miliardi nell’intero cervello, e ciascun neurone ha diverse migliaia di collegamenti con altri[Anderson, 1983]. Mentre in questa prospettiva il neurone puo apparire come l’elemento “semplice”, l’uni-co elemento attivo nel sistema, preso isolatamente e in realta molto sofisticato, e non certo ancora compresonella sua totalita.

5.1.2 Breve sogno logico e il suo risveglio

I primi a proporre una risposta a questi difficili interrogativi sono stati Warren McCulloch, professore dipsichiatria a Illinois, e Walter Pitts, matematico, allievo di Carnap a Chicago, che nel 1943 avanzarono unatesi ambiziosa, che ancora adesso rimane affascinante [McCulloch and Pitts, 1943]. Siamo nel momentodi grande sviluppo della logica, e anche se Frege, Russel e gli altri non hanno mai sentito la necessita diindagare su ipotetici dispositivi biologici con cui si esplicassero le capacita di logica dell’uomo, certamentespiegare anche l’intero funzionamento del cervello in termini della logica voleva dire il completamento diun cerchio perfetto. Ed e proprio questa l’impresa tentata dai due. Secondo loro, prescindendo dall’ap-parente complessita del neurone, dovuta proprio alla difficolta di realizzare con materia biologica dellefunzioni matematiche, il suo funzionamento basilare e molto semplice, ed e perfettamente riconducibilealle operazioni fondamentali della logica. Un avvio in questa direzione invero l’aveva dato qualche annoprima Nicolas Rashevsky, pioniere della matematica applicata alla biologia, che per primo parlo di unapossibile organizzazione logica del cervello, supponendo che i segnali in gioco tra i neuroni fossero solo adue valori, e aveva anche avanzato uno schema di disgiunzione logica esclusiva basato soltanto su sommee sottrazioni [Rashevsky, 1938], ma si era fermato lı, senza tentare di elaborare da queste ipotesi un vero eproprio sistema logico.

Il modello di neurone di McCulloch e Pitts comprende solo due tipi di collegamento sinaptico: eccita-torio o inibitorio, il primo corrisponde ad un valore vero (numericamente = 1) qualora attivato, il secondoinvece ad un valore falso. Il neurone ha come sua propria caratteristica una soglia, che e il numero nettodi valori vero che riceve al suo ingresso, tali da produrre un valore vero in uscita. Con questo modello sipossono costruire le operazioni di base del calcolo della verita nelle frasi logiche. Nella Fig. 5.2 il neuronea sinistra che implementa la congiunzione assume valore vero se e soltanto se tutti i tre input sono vero,quello al centro, la disgiunzione, e vero se lo e anche uno solo dei tre input, infine quello a destra e veroquando l’ input e falso e viceversa. Inoltre, un neurone puo avere un collegamento che ritorna su sestesso, provvedendo il sistema di una memoria: i diversi stati logici si evolvono in una maniera che dipendeanche da qual’era lo stato del sistema precedentemente. McCulloch e Pitts dimostrarono che mediante que-sto loro modello di neurone e possibile costruire qualunque sistema logico, e in particolare l’equivalenza

Le Matematiche del Linguaggio 129

∂V

∂t= δ

∂2V

∂x2+ I + F (V, yNa+ , yK+ , yL) , (5.1)

∂yNa+

∂t= γNa+ (V ) yNa+ + αNa+ (V ) , (5.2)

∂yK+

∂t= γK+ (V ) yK+ + αK+ (V ) , (5.3)

∂yL∂t

= γL (V ) yL + αL (V ) . (5.4)

Tabella 5.1: Le equazioni di Hodgkin-Huxley, V e la tensione elettrica e I la corrente, x lo spazio monodimensionale,yX sono concentrazioni, le equazioni (5.2) e (5.3) descrivono i canali ionici di sodio e potassio, la (5.4) il termine didispersione, e la (5.1) somma i contributi al potenziale elettrico; F , γi e αi sono funzioni non lineari.

computazionale con la macchina di Turing. McCulloch postula che l’attivita psichica non sia continua, maesista un evento finito non piu divisibile, che chiama psychon, una sorta di unita psichica primitiva, che e ilcorrispondente della transizione di uno stato nel sistema di celle neuronali, equivalente ad una operazionelogica.

Evviva la logica! (se non fosse per le rane...)

Con la costruzione di questo apparato interpretativo delle reti neuronali vennero centrati contemporanea-mente due obiettivi formidabili: spiegare esaustivamente come funziona il cervello umano, e confermarein modo definitivo che e proprio la logica la base di qualunque ragionamento e di ogni processo cognitivo.Una matematica del linguaggio su queste basi diventa quindi una pura e semplice applicazione di quelloche gia, da Frege in poi, era stato dimostrato come capacita della logica di fondare le funzioni linguisticheumane.

Questo sogno logico duro poco, dopo alcuni anni fu sempre piu evidente che il comportamento delneurone e ben lontano da quello di un operatore logico, che quindi quel modello non aveva nessuna spe-ranza. Furono le rane a far crollare definitivamente il sogno dei due. Pitts negli anni ’50 lavorava con ilmedico Jerry Lettvin all’ MIT, conducendo esperimenti con nuove tecniche, e si trovo a constatare diret-tamente quanto i neuroni su cui stava indagando svolgessero tutt’altro che funzioni logiche. Il lavoro fucomunque pubblicato, e con una certa risonanza, sotto il titolo What the Frog’s Eye Tells the Frog’s Brain[Lettvin et al., 1959], certo gli occhi delle rane al cervello di Pitts non dissero niente di confortante.

Purtuttavia, le conseguenze del loro lavoro furono molto importanti: loro avevano anticipato un modellodi sistema logico costituito da celle elementari che divento attuale dopo pochissimi anni, con i circuitidigitali dei computer. Ed e infatti in ambito informatico che viene accolto il fascino di questo parallelismofisico tra circuiti logici e reti neuronali, e direttamente a loro si rifa Marvin Minsky nella sua tesi di dottorato[Minsky, 1954], il logico Kleene riguardo agli automi agli stati finiti [Kleene, 1956], e anche Von Neumannnel suo confronto tra computer e cervello [von Neumann, 1958]. Questo filone si esaurı presto di frontealle evidenze contrarie della neurologia. Il maggior merito di McCulloch e Pitts e forse proprio nell’averinaugurato la strada dei modelli di funzionamento dei neuroni, con esplicita ambizione di poter arrivare aduna spiegazione in termini matematici di quello che succede nella mente.

Un risveglio difficile, tra chimica ed elettricita

La svolta imposta da alcune fondamentali scoperte sulla matematica del neurone biologico, ha probabil-mente reso il percorso meno suggestivo. Due fisiologi inglesi, Alan Lloyd Hodgkin e Andrew FieldingHuxley, nel 1952 a coronamento di un decennio di studi sui fenomeni elettrochimici delle membrane cellu-lari, realizzano un modello completo di come funziona veramente il neurone [Hodgkin and Huxley, 1952],comunemente denominato H-H, che ancora oggi rimane il riferimento per eccellenza. Purtroppo, questomodello non si presta proprio all’immediata e suggestiva interpretazione dei neuroni di McCulloch e Pitts.

Il loro sistema di quattro equazioni differenziali non lineari (Tab. 5.1), tecnicamente denominate direazione-diffusione, non e di facile soluzione, quelle piu generali richiedono tecniche (indici di Conley,

130 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

−70 mV

t

V

40 mV

2 msec 4 msec

Figura 5.3: La tipica forma d’onda del fenomeno chiamato action potential.

biforcazione di Hopf, etc.) la cui frequentazione e decisamente riservata ai professionisti della matematica.Non e quindi sorprendente che Hodgkin e Huxley, pur essendo gli scopritori della base matematica piuprecisa disponibile oggi del cervello, siano ben poco popolari tra filosofi e cognitivisti.

E invece semplice mostrare con la grafica il risultato principale di quelle quattro equazioni. Si tratta delcosiddetto AP (Action Potential), o spike, la tipica forma d’onda che per prima fu osservata da Emile duBois-Reymond, e inizialmente denominata negative Schwankung [du Bois-Reymond, 1849]. E un impulsoelettrico piuttosto brusco, che si propaga come un’onda lungo l’assone, mantenendo la sua caratteristicaforma, illustrata nella Fig. 5.3, e questo il fenomeno piu importante del modello H-H. La causa di tuttocio sono delle correnti ioniche, soprattutto formate da K+, Na+, e Ca++ (ioni potassio, sodio e calcio),che trovano delle aperture selettive (i canali ionici) dove possono essere invitati all’interno della cellula, equesto grado, per cosı dire, di ospitalita dipende non solo dallo stato elettrico alle estremita dei dendriti,ma anche dallo stato di polarizzazione all’assone, ovvero dal punto in cui ci si trova nell’asse temporaledella Fig. 5.3. Tipicamente un impulso di AP inibisce per un attimo le condizioni che lo favoriscono. Laconseguenza e che quando un neurone si da da fare, la sua uscita sara tipicamente un treno di AP, moltosimili tra loro. Attualmente la lista completa degli ioni che partecipano alla formazione degli AP si eestesa ad otto [Golowasch et al., 1992], e evidente quindi quanta sofisticazione e molteplicita di controllosia esercitata nella generazione dell’AP, sempre a livello di un singolo neurone.

Naturalmente dalle soluzioni di quel sistema di equazioni si deducono anche le condizioni precise chedanno luogo ad un AP. Oggi sono disponibili dei simulatori dove e possibile ricostruire al computer unneurone completo, ed ammirare la sua AP in uscita dall’assone [Bergdoll and Koch, 1995], sono softwareparticolarmente pesanti, con cui non e pensabile simulare connessioni di piu neuroni, anche di dimensioniben lontane da quelle di una rete entro cui possa svolgersi anche la piu elementare delle funzioni cognitive.

Nonostante la sua veneranda eta il modello H-H continua ad essere un riferimento, le sue evoluzionipiu recenti e l’individuazione di alcuni fenomeni non compatibili [Rinzel, 1990, Hille, 1992] rimangonoabbastanza marginali. Originariamente fu sviluppato solo per descrivere la forma d’onda che transitavanell’assone, ma senza significative variazioni fu adattato al soma [Bush and Douglas, 1991] e anche aidendriti [Traub et al., 1991]. Sono tutte matematiche simili a quelle che si incontrano in fisica, e di fattosono applicate ad un fenomeno fisico, un’onda di potenziale elettrico, ma rientrano pienamente in quellacategoria, citata in introduzione, di supporto alla biologia per la sola modellazione di dettagli riguardantiun fenomeno che nel suo complesso non viene spiegato matematicamente.

Negli ultimi anni c’e stato anche chi ha cercato di elaborare modelli piu semplici, suscettibili di unacomprensione intuitiva, pur essendo approssimazioni accettabili del modello H-H, che vanno in direzionedi una matematica costitutiva delle reti neuronali. Uno dei piu popolari e quello correntemente denominatointegrate-and-fire (accumula e spara), in cui il potenziale della membrana e regolato della sola equazionedifferenziale lineare [Gerstner, 1999]:

τ∂V

∂t+ V (t) = kI(t) (5.5)

dove V e I sono le tensione e corrente elettrica, come nella (5.1), τ e la costante di tempo di scaricadella membrana, k una costante (dimensionalmente una resistenza elettrica). Il comportamento non linearedell’AP, che la (5.5) non puo descrivere, e ottenuto aggiungendo le condizioni sopra cui puo prodursi l’onda:

V (t) > θ (5.6)∂V

∂t> 0 (5.7)

Le Matematiche del Linguaggio 131

Ca++

Ca+++

CaM

AC

assone

dendrite

spina dendritica

terminazionepresinaptica canale

ionico

glutammato

terminazionepostsinaptica

Na

recettore

Figura 5.4: Schema di una sinapsi eccitatoria. L’arrivo dell’AP nell’assone apre il canale ionico con influsso di ioniCa++ che, attraverso la CaM, calmodulina proteinchinasi, provocano la fusione delle vescicole alla membrana conrilascio di glutammato. Queste molecole si diffondono all’esterno, e si legano con i relativi recettori nella terminazionepostsinaptica, con conseguente apertura di un altro canale ionico, attraverso cui penetrano ioni Na+. Altre molecolenon provenienti dalla presinapse possono raggiungere diversi tipi di recettori, dal cui legame consegue un aumento dellivello ionico, per esempio di Ca++ tramite la AC, adenilciclasi. Questi ioni favoriscono la depolarizzazione dellamembrana dendritica.

dove θ e la soglia che deve raggiungere il neurone per “sparare”. Nei piu riusciti di questi tentativi disemplificazione risulta che il neurone integrate-and-fire riproduce al 90% quello H-H [Kistler et al., 1997].

5.1.3 La sinapsi e le sue droghe

Il modello H-H e i suoi derivati sono in grado di modellare accuratamente il comportamento elettrico nelneurone, in tutte le componenti dove si manifesta, ma non possono dire niente su quell’oscura interfacciadove l’elettricita cessa di essere prevalente: la sinapsi. Il termine fu introdotto all’inizio del secolo scorsodal neurofisiologo inglese Charles Sherrington che ne intuı l’importanza, pur senza essere in grado di in-dividuarne i meccanismi di funzionamento [Sherrington, 1906]. E il punto di contatto tra due neuroni, lazona dove termina il percorso di un’onda AP nell’assone e si affaccia il dendrite del neurone successivo, cheverra informato dell’eccitazione del neurone precedente non piu elettricamente, ma tramite segnali chimici.

Non esiste alcuna trattazione analitica di questo processo, che ha posto notevoli problemi anche per unasua comprensione di massima, ad oggi non certo esauriente. E stato anche motivo di una delle dispute neu-roscientifiche piu accese, che ha visto da un lato Otto Loewi e Henry Dale, sostenitori della comunicazionechimica attraverso la sinapsi, e dall’altro John Eccles convinto della sua natura elettrica, con la teoria delrapid detonator response, un modo un po esplosivo di terminare la sua corsa dell’action potential, con ne-cessarie ripercussioni sui vicini dendriti. Nonostante nel 1921 Loewi dimostrasse l’azione dell’aceticolina,il primo neurotrasmettitore scoperto [Dale, 1935], con attribuzione nel 1936 del Nobel a lui e Dale, Ecclesnon si diede per vinto, contando anche sull’appoggio e l’incoraggiamento di Karl Popper, perseverando lericerche delle sinapsi elettriche fino al 1951 quando dovette arrendersi alle troppe evidenze sperimentali[Eccles, 1945].

Nella Fig. 5.4 si e schematizzata una sinapsi evidenziando i suoi meccanismi piu importanti. Suppo-nendo che l’assone venga percorso da un AP, alla terminazione presinaptica si verifica una forte depola-rizzazione (ovvero la membrana possiede all’interno una carica piu positiva che all’esterno), che modifica

132 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

K+ Cl− Na+

glutammatoaspartate

GABA

− − − − − − − + + + + + +

Figura 5.5: Due diverse classi di interazioni sinaptiche. Quella a sinistra e di tipo inibitorio, e favorisce l’aperturadei canali di potassio in uscita ed eventualmente cloro in entrata, provocando una iperpolarizzazione IPSP. A destra c’einvece una eccitatoria, che apre canali ionici di sodio in entrata, depolarizzando il dendrite.

la permeabilita dei cosiddetti canali ionici. Si tratta di vere e proprie valvole di controllo elettrochimichenaturali, i cui dettagli furono scoperti solamente nel 1976 da Erwin Neher e Bert Sakmann, che possonoaprirsi e chiudersi per far passare solamente determinati ioni, a seconda se sono soddisfatte certe condi-zioni [Neher and Sakmann, 1976]. Nel caso della terminazione presinaptica e proprio l’AP a determinarnel’apertura, che facilita l’ingresso di ioni calcio. La sinapse in questa zona contiene diverse vescicole, chesono contenitori chiusi con una dose di neurotrasmettitori, molecole che hanno funzione di comunicazionetra diversi neuroni. La presenza degli ioni, tramite trasformazioni chimiche, causa la fusione della pellicolaesterna delle vescicole alla membrana dell’assone, con il suo svuotamento di neurotrasmettitori all’esterno.Tutto questo processo dura un paio di millisecondi.

Dall’altro lato, separata da uno spazio sottile (detto synaptic cleft), c’e la parete postsinaptica dellaspina dendritica, parte del neurone successivo. Qui si affacciano tanti recettori, protuberanze che hannoaffinita a catturare un determinato tipo di molecola. Alcuni recettori saranno quelli sensibili proprio alneurotrasmettitore rilasciato, e sono l’estremita esterna di un canale ionico “controllato”, che si apre soloquando vengono catturate molecole del neurotrasmettitore. Anche i canali ionici sono selettivi, caso dellaFig. 5.4 il canale che si apre e quello del sodio Na+, che entrando depolarizza il dendrite, ovvero facilital’innesco di un AP, cosı come descritto dal modello H-H. Il tempo impiegato da questa reazione e dell’ordinedi un centesimo di secondo.

Un altro meccanismo che influenza pure la probabilita di eccitazione del neurone e provocato da mole-cole a cui corrispondono recettori con affinita selettiva sulla postsinapse, che non comandano direttamentecanali regolanti l’afflusso di ioni in ingresso o entrata, ma che innescano all’interno catene reattive chimi-che il cui effetto finale e la modifica del livello di ioni all’interno del dendrite. Nell’esempio della Fig. 5.4l’effetto e un’ulteriore depolarizzazione della membrana.

Esistono diversi neurotrasmettitori, e anzitutto importante la distinzione in due classi, a seconda se laloro presenza inibisca oppure favorisca l’eccitazione del neurone che li recepisce. E utile specificare che quici si riferisce ai neuroni cerebrali, quelli periferici hanno caratteristiche diverse, per esempio l’aceticolina,il famoso primo neurotrasmettitore scoperto, e il principale nella periferia ma non nel cervello. Qui ilmessaggero che va per la maggiore e il glutammato, insieme con l’aspartate rappresenta una buona partedei segnalatori chimici che vogliono facilitare l’eccitazione dei neuroni vicini. Il maggior responsabiledell’effetto opposto e una di quelle molecole dal nome impossibile (acido glicinico-gamma-aminobutirrico),di cui conviene decisamente usare l’acronimo, GABA. I neuroni caratterizzati da questo neurotrasmettitoresono di conseguenza denominati GABA-ergic, e quando si eccitano inibiscono tutti quelli raggiunti dalloro assone. I due diversi effetti, che sono stati schematizzati nella Fig. 5.5, vengono denominati IPSP(Inhibitory Postsynaptic Potential) e EPSP (Excitatory Postsynaptic Potential).

Una notevole complicazione della sinapsi e che il suo comportamento non e solo determinato dai mec-canismi presinaptici e postsinaptici, gia tutt’altro che banali, ma e sensibile pure a contributi prodotti daneuroni remoti, su scala non piu locale. Esistono diversi neurotrasmettitori che non vivono solamente nel-l’angusto synaptic cleft, ma sono in giro per influenzare neuroni su ampia scala, e per tempi piu sostenuti,sono differenziati da quelli locali con il termine neuromodulatori [Katz, 1999]. Si distingue ulteriormentetra neuromodulazione intrinseca, quando i neuroni responsabili di questo rilascio sono quantomeno coin-volti nella stessa rete di cui fanno parte quelli che ne subiscono l’influenza, e neuromodulazione estrinseca,

Le Matematiche del Linguaggio 133

−+ + −

a dcb

Figura 5.6: I modi con cui un neuromodulatore puo influenzare il comportamento sinaptico. I casi a e b sonofacilitazione e inibizione eterosinaptica, mentre c e d facilitazione e inibizione postsinaptica.

nel caso in cui i neuroni produttori delle sostanze sono in centri completamente indipendenti da quelli a cuie diretto il modulatore.

I modi con cui la probabilita di eccitazione postsinaptica di un neurone e influenzata dai neuromodulatorisono principalmente i quattro illustrati nella Fig. 5.6. Nei casi a e b e la terminazione presinaptica a recepireil neuromodulatore, che influenza l’apertura del canale ionico responsabile della fusione delle vescicole, inquesto modo puo essere diminuito o aumentato il rilascio del neurotrasmettitore proprio della sinapsi. I casic e d riguardano invece i recettori sulla terminazione postsinaptica, il cui effetto puo essere di nuovo su uncanale ionico, per esempio favorente l’ingresso di sodio in c, o il rilascio di potassio in d. In realta unostesso neuromodulatore puo avere piu di una modalita di azione, differenziata a seconda dei neuroni, maanche per lo stesso neurone a seconda di altre condizioni. E evidente quanto si sia lontani dal poter disporredi una rappresentazione matematica di questi fenomeni, i cui effetti anche macroscopicamente qualitativisono confusi e contrastanti. Si conclude questa sezione citando solamente due dei tanti neuromodulatoriscoperti finora, che risultano interessanti ai fini delle funzioni cognitive del cervello, e su cui si ritornerasuccessivamente in §5.2.3.

Il primo e la dopamina, probabilmente il piu studiato dopo la scoperta che il morbo di Parkinson e lega-to alla sua mancanza, cosı come parve che il suo eccesso fosse una causa della schizofrenia, quest’ultimarelazione e stata successivamente piuttosto ridimensionata [Carlsson, 1988]. Viene prodotta dai neuronidella substantia nigra, una delle zone piu interne del cervello, ed interessa diverse aree, soprattutto dellaneocorteccia. Nella Fig. 5.7 si fa vedere come su uno stesso tipo di neuroni la dopamina abbia un effettomarcatamente inibitorio a concentrazioni medio-basse, per poi passare ad un effetto nullo con concentrazio-ni alte, e infine ad una facilitazione per concentrazioni elevate. I fattori che ne determinano la produzionesono svariati e poco noti, e accertato che e facilmente associata a comportamenti piacevoli e gratificanti.Molte droghe agiscono proprio su questo neuromodulatore, le anfetamine ne stimolano direttamente la pro-duzione a livello centrale, mentre la cocaina blocca delle proteine adibite alla sua eliminazione dagli spaziinterneurali, dopo il suo utilizzo normale [Volkow et al., 2000].

Rimane tutto un mistero il secondo neuromodulatore, la serotonina, la cui gamma di effetti macro-scopici e piu ampia della dopamina, e va da disturbi dell’umore, dell’attenzione, motori, gastrici alle al-

cam

biam

ento

pos

tsin

aptic

o

concentrazione di dopamina

Figura 5.7: Il cambiamento nella probabilita di eccitazione postsinaptica indotto dalla dopamina, a differenticoncentrazioni, in neuroni corticostriati.

134 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

lucinazioni visive, aggressivita, turbe ossessive, attraverso interazioni sinaptiche che prevedono sia ini-bizione che facilitazione, con una certa prevalenza della prima, ma con meccanismi ancora poco chiari[Martin et al., 1998, Daw et al., 2002]. Ci sono buone speranze che la sua conoscenza migliori presto, einfatti uno dei neuromodulatori piu indagato negli ultimi anni, sono gia in commercio farmaci per la curadi disturbi dell’umore basati sulla sua inibizione, mentre sul fronte delle droghe ricreative diverse di quellesintetiche recenti sono stimolatori della serotonina, per esempio la diffusa MDMA (ecstasy).

Le Matematiche del Linguaggio 135

Figura 5.8: Variazioni anatomiche dei neuroni cerebrali: a sinistra e al centro due cellule piramidali, tipiche dellaneocorteccia, a destra una cellula di Purkinje del cerebellum.

5.2 Quali regole?

Prima di passare dalla biologia del singolo neurone alla matematica delle reti neuronali c’e un anello man-cante, di grande importanza. Se e vero che il neurone e l’unico dispositivo di calcolo messo a disposizionedalla natura, e se e sempre vero che ogni comportamento animale, dal piu elementare fino al linguaggio, sibasa sui suoi calcoli, come spiegare la differenziazione in attivita cosı diverse? Quali regole portano i varigruppi di neuroni a svolgere una determinata funzioni anziche un’altra?

Anzitutto l’anatomia fa la sua parte per attenuare la difficolta della domanda. Se e vero che a calcolarec’e sempre e solo una cellula che si chiama neurone, e altrettanto vero che le sue forme sono notevolmentedifferenziate, e di conseguenza ne saranno i suoi comportamenti. A parte la scontata differenza tra neuroniperiferici e cerebrali, anche nel cervello queste cellule sono diverse a seconda delle aree. La neocortecciadell’uomo e caratterizzata dalle cellule piramidali, strutture particolarmente allungate e ramificate, cheattraversano i sei strati laminari della corteccia, ma a loro volta questi neuroni si specializzano in unacinquantina e piu di tipi per forma e proprieta chimiche [Braitenberg and Schuz, 1991]. Qui si ferma labiologia. L’anatomia del neurone e le sue proprieta chimiche possono provvedere una certa predisposizionead un certo compito, ma e una diversificazione ancora molto generica, ben lontana dal poter spiegare laspecializzazione delle reti alla vasta molteplicita di compiti di calcolo richiesti dalla vita di una mente.

La matematica d’altra parte qui e piuttosto esplicita: una collezione di neuroni omogenei delle di-mensioni di quelle tipiche cerebrali puo esplicare potenzialmente infinite funzioni diverse, quella specificaattuata contingentemente non e che il risultato di come si e strutturata nel tempo quella particolare colle-zione. Quindi, prima di scrivere una matematica attendibile su cio che fa un’aggregazione neuronale, esisteil problema preliminare di capire le regole che portano una aggregazione neuronale a comportarsi in undeterminato modo, anziche in uno degli infiniti altri possibili.

Questa, che in neurologia viene chiamata plasticita, copre quei fenomeni che gli psicologi chiamanoapprendimento, memoria, ma anche di piu, includendo la strutturazione dei compiti cognitivi, la specializ-zazione delle funzioni intellettive all’interno del cervello, e in definitiva l’ontogenesi del sistema nervosocentrale, almeno in parte.

Su tali regole si sa veramente ancora poco, forse dove c’e piu certezza e su come possono essere. Peresempio, direttamente dettate dalla genetica. Il ragionamento e banalmente sulla necessita di informazio-ne. Basta fare un calcolo per difetto supponendo che tutte le regole di funzionamento del cervello sianoracchiuse solamente nell’efficienza delle trasmissioni sinaptiche, rappresentabili in non piu di un centinaiodi diverse gradazioni. Esistono circa 1015 sinapsi, che quindi non possono richiedere meno di 1017 bitdi informazione per essere specificate, contro i 109 bit dell’intero genoma umano. Si tratta certamente diun’argomentazione molto superficiale, ma 8 ordini di grandezza sono un abisso tale da rendere difficile ognireplica.

136 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

hebbiana anti-hebbiana omosinaptica eterosinaptica

++++++++ −−−−−−−−−−− −−−−−−−−−−− −−−−−−−−−−−

Tabella 5.2: Vari tipi di plasticita sinaptica. Le terminazioni presinaptiche (sopra) e postsinaptiche (sotto) sono ingrigio chiaro quando attive, e scure quando inattive, nello spazio sinaptico e indicato tramite i segni “+” o “-” l’aumentoo la diminuzione dell’efficienza sinaptica indotta dal persistere della configurazione.

5.2.1 L’ipotesi di Hebb

When an axon of cell A is near enough to excite cell B and repeatedly or persistently takes part in firingit, some growth process or metabolic change takes place in one or both cells such that A’s efficiency, asone of the cells firing B, is increased1. [Hebb, 1949, p. 62]

Dell’intera opera The Organization of Behavior di Donald Hebb, questa e la citazione di gran lunga piufortunata, che ricorre nella maggioranza dei testi sulle reti neuronali.

Non senza buoni motivi: per lungo tempo infatti l’unico criterio plausibile che regolasse le modifichesinaptiche e stato proprio quest’intuizione di Hebbs. Di intuizione si trattava, infatti non vi era all’epocanessun dato sperimentale, e l’unica fonte di ispirazione era un buon senso di stampo psicologico, di fattoHebb puo essere considerato il primo dei neuropsicologi. In sostanza, se vi sono motivi per un neurone diattivarsi, e questi motivi co-occorrono tipicamente con qualche altra motivazione che attiva un suo afferente,ci deve essere sotto qualcosa che val la pena codificare nelle sinapsi. Cio puo essere letto filosoficamente,come un principio di rappresentazione del mondo. Se le attivazioni sono derivate da percezioni sensoriali,quella regola non fa altro che rappresentare a livello sinaptico l’associazione tra eventi del mondo, presuntadall’esperienza. La citatissima regola faceva proprio parte di una teoria complessiva sulla visione, in cuiesisterebbero degli analizzatori percettivi innati di poche proprieta elementari, quali contorni, tessiture,angoli, che alimentano assembramenti di cellule la cui strutturazione avverrebbe nel tempo, rafforzando leinterconnessioni corrispondenti alle forme degli oggetti che tipicamente vengono visti. Lo stesso potrebbevalere per rappresentare interrelazioni di tipo linguistico: se un determinato elemento, parola o enunciato,ha una caratteristica concomitanza d’uso con altri enunciati o parole, questo fatto viene progressivamentecodificato come rafforzamento sinaptico.

Naturalmente l’ipotesi di Hebb non ha una sua spiegazione in termini di meccanismi a livello neuronale,e tantomeno una sua formulazione matematica, si tratta solo di un quadro di riferimento generale, che halasciato il segno soprattutto per la sua semplicita e ragionevolezza, entro cui di fatto trovano cittadinanzamodelli matematici molto eterogenei.

La sua regola ha retto abbastanza bene la controprova neuroscientifica, nel senso che non e stata smentitacategoricamente, quello che e emerso e un quadro decisamente piu ampio in cui trova anch’essa collocazio-ne. E vero che in diversi casi le modifiche dell’efficienza sinaptica sono da mettere in relazione con quelloche avviene localmente tra i due neuroni che vi si affacciano, ma gli effetti possono essere molteplici, iquattro principali sono raggruppati nella Tab. 5.2. Tuttavia le modifiche all’efficienza sinaptica non sonotutte qui, non sono cioe dovute solamente ai fattori locali, ma possono anche avvenire in modo indipenden-

1Quando un assone della cellula A e prossimo ad eccitare la cellula B e ripetutamente o persistentemente contribuisce alla suaeccitazione, avviene un processo di crescita o qualche cambiamento metabolico in una o in entrambe le cellule, tale che l’efficienza diA nei confronti dell’eccitabilita di B e aumentata.

Le Matematiche del Linguaggio 137

te, per esempio se una cellula tenta ad eccitarsi spesso puo rafforzare i suoi collegamenti sinaptici ancheverso terminazioni da cui non arrivano abitualmente segnali.

C’e un altro cambiamento di prospettiva piu radicale all’interno della neuroscienza, che evita la nettadistinzione tra fenomeni di plasticita da un lato, che fissano la forza dei collegamenti sinaptici, e attivitaneuronale, dove ha corso il passaggio dei segnali con le modalita dettate dall’attuale stato dei collegamenti.E una divisione con forte impronta computeristica, dove esistono tipicamente i processori e i processi, il si-stema sinaptico e profondamente diverso, con una dinamica ben piu flessibile. L’arrivo ad una terminazionepresinaptica dell’AP e la plasticita sono entrambe due complesse catene di processi fisico-chimici che con-corrono all’eccitazione o meno del neurone postsinaptico. Sono semplicemente caratterizzati da due scaletemporali diverse, ma esistono diversi altri processi che riempiono le scale intermedie, ancora non moltoconosciuti, su cui qui non ci si puo soffermare [Churchland and Sejnowski, 1994, pp. 174–178]. Un’ideadella complessita del primo era stata fornita in §5.1.3, e il momento di passare al secondo processo.

5.2.2 Ricordi avvelenati

Naturalmente al di la delle intuizioni, per quanto plausibili, di natura psicologica, molto e stato fatto percercare un fondamento piu oggettivo e una forma matematica della plasticita neuronale, perlomeno di alcunedelle sue molteplici manifestazioni. Uno dei meccanismi piu importanti che modella il funzionamento dellarete e sicuramente il rafforzamento o l’atrofizzazione delle connessioni sinaptiche, indipendentemente secon modalita hebbiane o non, seguito dai fenomeni di arborizzazione, cioe una vera e propria crescita eramificazione dei dendriti e degli assoni.

Di questa matematica praticamente non esiste ancora nulla. Vi sono delle difficolta oggettive: effettuareesperimenti sul funzionamento istantaneo di neuroni e relativamente semplice, con le disponibilita strumen-tali attuali, la plasticita comporta cambiamenti biologici microscopici ed estremamente localizzati, su unascala di tempi piu lunghi, quindi molto elusivi.

Il pioniere di questo tipo di indagine e stato Eric Kandel, che dal 1970 ha studiato nel dettaglio laAplysia, un mollusco con un sistema neuronale molto semplice (“appena” 20.000 neuroni) ma purtuttaviacon un comportamento prevalentemente forgiato dall’esperienza [Kandel et al., 1991]. E stato identificatoun meccanismo, noto come LTP (Long Term Potentiation), per cui se si verifica una coincidenza temporaletra alcune AP in arrivo alle sinapsi di un neurone, e questo a sua volta diventa attivo, allora quelle sinapsi sirafforzano, in misura piu evidente per le sinapsi ancora deboli. Ci sono stati molti dubbi se l’ LTP non fosseun’apparenza dovuta alle condizioni sperimentali di Kandel, o se avvenisse soltanto per quel particolaresistema neuronale dove era stato dimostrato [Rose, 1992].

Soprattutto, mancava una spiegazione fisica di come poteva modificarsi la struttura di un neurone (raf-forzare le proprie sinapsi sull’assone), a seguito di cio che era accaduto ad un altro. Dalle conoscenze suifenomeni sinaptici non si evince nessuna possibilita di comunicazione “all’indietro”: in ogni neurone l’ APsi propaga solo in avanti lungo l’assone fino all’estremita presinaptica, qui viene propagata chimicamentenell’estremita postsinaptica sul dentrite del neurone successivo, che puo o meno a sua volta generare un’AP, ma la cosa non preoccupa piu il precedente; mancava ogni indizio sull’elusivo retrograde messenger,cosı viene denominato. Sono stati Tim Bliss e Graham Collindge ad individuare il linguaggio chimico concui un neurone puo parlare a quelli che lo precedono e si basa su una serie di processi in cui sono coinvoltidue tipi di recettori [Bliss and Collingridge, 1993]. Il primo e denominato NMDA, dalla sigla del neuro-trasmettitore sintetico a cui e sensibile (N-metile-D-aspartate), il secondo Q/K (dai due neurotrasmettitorisintetici Quisqualate e Kainate) o anche non-NMDA. Entrambi sono sensibili al glutammato, ma il primosubisce pure l’effetto inibitorio degli ioni magnesio, presenti all’interno del dendrite.

I recettori Q/K quando catturano glutammato aprono un canale ionico del sodio, che penetra all’interno,come nel normale processo sinaptico gia analizzato in §5.1.3. Se il dendrite e depolarizzato (cioe il suoneurone e eccitato), viene liberato lo ione magnesio dal recettore NMDA, che in presenza all’esterno diglutammato, apre il suo canale ionico, consentendo l’ingresso anche a Ca++, tramite cui viene sintetizzanoNO, il monossido di azoto, che normalmente e un potente veleno per l’uomo! E proprio il pericolosoNO a diffondersi all’esterno della membrana postsinaptica e raggiungere l’interno di quella presinaptica,normalmente impermeabili alle altre molecole, grazie alle sue ridottissime dimensioni. E la sua presenzanella terminazione presinaptica ad indurne la crescita. Nella Fig. 5.9 e illustrato tale processo.

138 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

Ca++

Na

MG

dendrite

+

++

recettore NMDArecettore Q/K

Ca++

Ca++ NO

dendrite

recettore NMDArecettore Q/K

Mg

Na+

++

Figura 5.9: Un fenomeno sinaptico alla base del LTP. Le terminazioni presinaptiche e postsinaptiche sono in grigiochiaro quando attive, e scure quando inattive. A sinistra un AP provoca la produzione di glutammato nella presinapsi,dal lato della postsinapsi i recettori Q/K si aprono favorendo l’ingresso di Na+, mentre i recettori NMDA sono bloccatidalla presenza interna di ioni Mg++. Se il neurone postsinaptico e attivo, a destra, allora lo ione magnesio fuoriesce,e i recettori NMDA aprono il canale ionico permettendo l’ingresso di Ca++, dal quale per sintesi viene prodotto NO,che e in grado per diffusione di raggiungere all’indietro la terminazione presinaptica.

Tutto questo e ulteriormente modellato dall’azione dei cosiddetti neuromediatori, altre sostanze chimi-che che facilitano o meno il processo centrale, attualmente ne sono stati individuati una cinquantina circa.Quest’inaspettato ruolo dell’NO nel permettere la memoria umana lo ha riabilitato dalla sua triste famadi temibile veleno, con l’ambito titolo di “Molecola dell’ Anno 1992”. C’e da aspettarsi, data la normalemolteplicita in cui tutti i fenomeni fondamentali dei neuroni si manifestano nel cervello, che questo non sial’unico meccanismo chimico a sostenere il LTP.

Dopo l’Aplysia fenomeni di LTP furono dimostrati nell’ippocampo dei mammiferi, una struttura in-terna del cervello che si sapeva essere legata alla memoria, ma recentemente anche nella neocorteccia[Bear and Kirkwood, 1993]. E stato trovato il complementare del LTP, LTD (Long Term Depression, e uncerto numero di altre modifiche dell’efficienza sinaptica su scale temporali inferiori, come il PTP (PostTetanic Potentiation) con durata dell’ordine del minuto, e anche cambiamenti temporanei della capacita dieccitazione di un neurone del tutto indipendenti dalle sinapsi, come il AHP (After HyperPolarization) ingrado di deprimere la suscettibilita anche per diversi minuti.

Molto meno si sa sulle modifiche alla connettivita tra neuroni su scale piu lunghe, tra cui primeggia l’ar-borizzazione. Probabilmente rientra in quella modalita piu generale della crescita biologica, per cui quandogli scambi all’interno dell’organismo non possono essere piu supportati dal semplice processo diffusivo,vi e la genesi di strutture filamentose che si allungano e ramificano ai fini di garantire la comunicazione.Sono in atto alcuni tentativi di costruire un modello matematico di queste crescite biologiche arborizzate[Herrero, 2001], c’e da aspettarsi che il caso delle arborizzazioni neuronali sia tra i piu ardui, data la varietadei meccanismi comunicativi nel sistema cerebrale.

5.2.3 Organizzarsi da soli

Si sono appena visti alcuni meccanismi che permettono di plasmare le funzioni neuronali sulla base dicondizioni locali, per lo piu alle sinapsi stesse soggette alla modifica nel tempo. Un gradino piu alto riguardai principi capaci di regolare l’organizzazione di aggregati piu numerosi, non piu composti solamente dalsingolo neurone o da due accoppiati attraverso una sinapsi.

Non esiste ancora molto su questo, la sola proposta teorica di un certo spessore e quella dell’auto-organizzazione, che ha il suo piu rappresentativo esponente in Christoph von der Malsburg, impegnatofin dagli anni ’70 nella sua formulazione [von der Malsburg, 1973, Willshaw and von der Malsburg, 1976],anche se quest’idea rimase a lungo poco in sordina, e conobbe una notevole diffusione solo dopo l’introdu-

Le Matematiche del Linguaggio 139

zione di un suo modello artificiale, che sara introdotto in §5.3.3. L’auto-organizzazione neuronale in effettivorrebbe essere un caso particolare di un principio ancor piu generale, comune non soltanto al mondo bio-logico, in un’ampia gamma di sue espressioni, ma riscontrabile anche nel mondo fisico, nella quasi totalitadi sistemi caratterizzati da un numero elevato di elementi base, e in cui ogni elemento interagisce con moltialtri elementi [Haken, 1978, Ball, 1999].

E quasi sempre sinonimo di qualcosa di arduo da ridurre a termini matematici, tentativo che vede duestrade principali. Uno e la meccanica statistica, dove si cerca di individuare parametri globali in grado dicaratterizzare il sistema, nella speranza che i comportamenti individuali siano riducibili in forma statistica.Tipici parametri del genere in fisica si chiamano “temperatura”, “energia libera”, etc., per analogia sono statiimpiegati anche sui sistemi neuronali, con la metafora delle macchine di Boltzmann [Aarts and Korst, 1989].

La seconda alternativa si basa invece sulle equazioni differenziali dinamiche, e sono il sistema piu rigo-roso ed esauriente di studiare l’auto-organizzazione, ma e notoriamente un capitolo sterminato e complessoall’interno della matematica, i sottocapitoli qui piu rilevanti si chiamano analisi della stabilita [Willems, 1970],caos [Holden, 1986] e biforcazioni [Marsden and McCracken, 1976]. Si tratta di un indirizzo matematicoa cui attualmente si sta riferendo molta ricerca neuronale , anche se per lo piu limitata a sistemi di pochineuroni, spesso soltanto due [Lee and Farhat, 2001]. L’applicazione degli approcci dinamici a livello diaggregati neuronali cui corrispondano funzioni cognitive e decisamente piu rara, eccezione e il caso un poisolato di Walter Freeman, che da piu di trent’anni perora la causa della natura dinamica delle attivita men-tali, e ha prodotto diversi modelli, l’ultimo, KIII, e un sofisticato sistema non lineare in cui interagiscono64 oscillatori [Freeman, 2000]. Occorre dire che il suo campo di interesse e stato sempre ed esclusiva-mente il sistema olfattivo, e anche se Freeman rivendica l’estendibilita del suo approccio all’intera gammadelle attivita mentali, non esistono convincenti risultati di esportazione delle sue teoria oltre la percezioneolfattiva.

Descrittivamente si puo dire che l’auto-organizzazione produce l’emergenza di strutture altamente re-golari tra gli elementi costitutivi di un sistema, e con un’elevata efficienza nei confronti di una finalita a cuitale sistema possa essere preposto, partendo da una iniziale mancanza di differenziazione significativa tragli elementi. I meccanismi astratti piu caratteristici di questi processi sono:

• L’amplificazione di fluttuazioni di piccola ampiezza. Questa auto-amplificazione e strettamentelegata al comportamento non lineare degli elementi.

• La competizione tra fluttuazioni diverse in fase di amplificazione. In presenza di diversi fenomeni dimodesta entita che tendono ad amplificarsi in parallelo, uno solo domina e provoca l’estinzione deglialtri, quello che meglio risponde alle condizioni complessive a cui deve adattarsi.

• Cooperazione tra fluttuazioni. La dominanza locale di un’amplificazione, favorisce l’emergere dialtre, il cui contributo al comportamento complessivo sia coerente.

Ritornando nello specifico degli aggregati neuronali, le fluttuazioni si riferiscono ai segnali elettrici APdei neuroni, la cui origine puo essere sia da stimoli dell’ambiente esterno, come anche da onde di emissionespontanea, quali si riscontrano normalmente nel cervello [Mastronade, 1983]. Le organizzazioni neuronaliin cui von der Malsburg ha dimostrato valere i principi di auto-organizzazione riguardano alcune compo-nenti specifiche del sistema visivo, come l’insorgenza della dominanza oculare e dei domini di orientamento[von der Malsburg, 1995b]. La Fig. 5.10 fornisce una sintesi grafica di questi due fenomeni, fondamentaliper il successo della visione.

Diverse aree di visione, ma piu marcatamente il nucleo laterale genicolato e quelle denominate V1e V2 (localizzate nel punto estremo della corteccia occipitale, la cosiddetta area 17 nella topografia ce-rebrale di Brodmann) sono strutturate in macrocolonne, gruppi di cellule piramidali densamente inter-connesse. Le macrocolonne esibiscono la loro volta una complessa organizzazione, sono ulteriormentesuddivise in reparti alternativamente riservati all’occhio destro e al sinistro e in aggregati che rispondonoselettivamente all’orientazione delle linee presenti nella porzione di scena visiva afferente all’area. Inolrei tipi di risposta nei confronti degli afferenti realizza delle funzioni peculiari, denominate campi recetti-vi, in cui la risposta varia in maniera simmetrica del centro alla periferia, e puo integrarsi con la sensi-bilita all’orientazione. La loro forma, simulata con moeddli artificiali, e mostrata in Fig. 5.21. Sonostati Hubel e Wiesel negli anni ’60, con i loro storici lavori che meritarono il premio Nobel a far luceper primi su queste strutture, che sono i primi indizi per spiegare la capacita di comprendere le immagini

140 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

Figura 5.10: Lo schema a sinistra illustra l’organizzazione dell’area V1 nella neocorteccia, con gruppi di macrocolon-ne a diversa dominanza oculare, ovvero dove prevale il contributo di uno dei due occhi: il destro nelle macrocolonnepiu chiare e il sinistro in quelle piu scure. All’interno di questi gruppi ci dono i domini di orientamento, sottogruppi incui le celle sono selettivamente sensibili a determinate orientazioni prevalenti nell’immagine (indicate sopra le macro-colonne). L’immagine a destra e l’ingrandimento di una piccola area della V1, con evidenziati i domini di dominanzaoculare, sempre in bianco l’occhio destro e in nero il sinistro.

[Hubel and Wiesel, 1962, Hubel and Wiesel, 1968]. Questa complessa organizzazione e inizialmente as-sente ed emerge gradualmente a seguito dell’esposizione ai segnali visivi, con meccanismi che sono benriprodotti dalla teoria dell’auto-organizzazione neuronale.

Senza entrare nei dettagli del sistema matematico sviluppato, si accenna solo ad alcuni suoi capisaldi.Uno dei principi implementati puo essere considerato in un certo senso un’estensione del concetto hebbiano,mediante la matrice di correlazione, che si puo definire genericamente, chiamando fi(t) l’attivazione di unacellula i nell’aggregato neuronale di n elementi al tempo t:

Γ =

f0(t) f0(t) · · · f0(t) fn−1(t)f1(t) f0(t) · · · f1(t) fn−1(t)fn−1(t) f0(t) · · · fn−1(t) fn−1(t)

(5.8)

dove 〈·〉 indica l’integrazione temporale. La (5.8) in sostanza esprime la probabilita che l’eccitazione di al-cuni neuroni avvenga regolarmente in concomitanza temporale, ed e il termine “hebbiano” di facilitazionesinaptica nell’auto-organizzazione, in aggiunta e necessario un meccanismo antagonista, di depressione si-naptica, che e realizzato in modo competitivo, ovvero tra tutti quelli che concorrono, se non beneficiano del-la potenziazione, allora subiranno una depressione, in modo che il livello medio di attivazioni nel tempo ditutto l’aggregato sia costante. Questi due termini entrano in un’equazione differenziale, che qui tralasciamo,in cui viene espressa la variazione nel tempo di efficienza sinaptica tra le diverse cellule dell’aggregato.

Per estendere l’auto-organizzazione alla formazione neurale di altre funzioni cognitive, oltre a questetre relative alla visione, sarebbe auspicabile individuare altri elementi che ne integrino il funzionamen-to. In particolare, oltre ai tre principi dell’autoamplificazione, competizione e cooperazione, per i sistemineuronali occorre ipotizzare anche un controllo globale, che rifletta il grado di rispondenza complessivaall’ambiente, del modo comportamentale che si andrebbe determinando, attuando in un determinato gruppodi neuroni una certa fase dell’auto-organizzazione. E oggi abbastanza condivisa l’idea che questo control-lo esista veramente nel cervello, e venga realizzato dai neuromodulatori, gli agenti chimici che possonofacilitare o meno tutti i comportamenti dei neuroni secondo le regole locali viste sopra, gia incontrati in§5.1.3.

Il quadro matematico in cui vengono inseriti e di solito quello del reinforcement learning, che puravendo qualche punto in comune non coincide affatto con l’ambito del “rinforzo” in psicologia, e unaclasse di problemi astratti di ricerca. Cio che occorre trovare sono comportamenti, nello spazio di quellidisponibili, in modo da incontrare il miglior riscontro dall’ambiente, che sara manifesto sotto forma di unaminore o maggiore soddisfazione (reward), occorre inoltre fare tesoro delle precedenti esperienze in mododa affinare le proprie scelte in futuro, tenendo conto che l’ambiente si modifica sia per conto proprio cheper effetto dei propri comportamenti. Quanto detto puo lasciare comprensibilmente perplessi, per l’uso ditermini ben poco matematici, ma questa metafora viene formalizzata assegnando definizioni precise a tuttequeste parole, che diventano quindi esprimibili in numeri. Tra le tante sottoclassi di problemi e di relativesoluzioni all’interno del reinforcement learning, ha riscontrato interesse in neuroscienza l’approccio detto

Le Matematiche del Linguaggio 141

AdaptiveHeuristic

CriticEnvironment

LearningReinforcement

s

r

v

a

Agent

Figura 5.11: L’architettura AHC per il reinforcement learning.

AHC (Adaptive Heuristic Critic) [Barto et al., 1983], che si e sintetizzato in Fig. 5.11. Vi sono quattrovariabili principali, tutte funzioni del tempo:

r reward il grado di soddisfazione dall’ambientes state lo stato dell’ambientea action il comportamento sceltov value il valore stimato dell’azione

La v e una stima effettuata del modulo AHC, sul valore dell’azione in un certo tempo, in tutte le sue ripercus-sioni future sull’ambiente, in altre parole l’accumulo indefinito di reward che ne conseguerebbe. Qui entrain gioco un’altra variabile, γ, chiamata abitualmente discount, che esprime il graduale affievolirsi di impor-tanza della soddisfazione relativa ad un’azione nel tempo. Il critico AHC, per quanto adattativo ed euristico,non sara infallibile, ma potra migliorarsi confrontando il responso reale dell’ambiente r con quello che ave-va stimato v, questo errore δ e chiamato TD-error (Temporal-Difference-error). Questa breve disgressioneconsente ora di entrare nel merito di una teoria interpretativa dei neuromodulatori nell’informare global-mente sull’adattamento o meno dei comportamenti all’ambiente. Secondo Kenji Doya la dopamina e unsegnalatore di δ, ovvero dell’errore commesso nel prevedere la soddisfazione da un certo comportamento,mentre la serotonina condurrebbe γ, il fattore di decadimento della soddisfazione nel tempo [Doya, 2000].Un aumento del livello di dopamina sarebbe quindi un errore positivo, cioe una soddisfazione inattesa ocomunque superiore alle aspettative, comportamenti pur soddisfacenti ma del tutto abituali col tempo noninnescano piu aumenti del suo livello.

Probabilmente questi ultimi approcci teorici non hanno sollecitato produzioni significative di dopamina,non che le aspettative fossero elevate, data la complessita e la novita della materia, ma il suo grado disoddisfazione lascia ancora a desiderare, appare eccessivamente schematica l’inserzione nel quadro teoricodel reinforcement learning se confrontata con la molteplicita di effetti evidenziati empiricamente da questineuromodulatori, soprattutto la serotonina. Purtuttavia e una direzione di ricerca fondamentale, percheindirizzata verso il tassello mancante nel quadro dell’auto-organizzazione, teoria dalle basi piu solide connotevoli riscontri empirici.

142 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

5.3 Le aritmetiche neuronali

Le due sezioni precedenti di questo capitolo non si puo dire abbiano posto le premesse migliori per unamatematica neuronale. L’illusione positivista dell’animale meccanico-logico di McCulloch e Pitts che ri-conduceva il cervello all’interno di sistemi di calcolo familiari e consolidati e tramontata molto in fretta. Larealta biologica che si sta rivelando sembra opporre complessita insormontabili. A fatica sono stati piegatialla matematica pochi dettagli, negli astrusi formati dei modelli alla Hodgkin e Huxley, ancor piu grave el’assenza di ogni accenno di modellazione sui fenomeni che contano di piu, come le interazioni molecolarisinaptiche. Pare che le conseguenze piu ragionevoli di tutto questo siano di procrastinare l’impresa di unamatematica in grado di fondare il calcolo neuronale, se non di abbandonarla definitivamente. Non bisognapero sottovalutare la fruttuosa ingenuita degli informatici.

Come era successo per gli effervescenti progetti del computer-mente che procedevano incuranti di sot-tigliezze filosofiche, cosı fece presa l’idea di un cervello umano realizzato nel silicio, con circuiti non tantodiversi da quelli di McCulloch e Pitts, trascurando il particolare che tale modello era oramai dimostratonon avesse molto a che fare con la realta biologica. Questa disinvoltura, che consentiva anche una comodaignoranza della biologia, e stata produttiva, un insieme di tentativi modellistici discontinui e sporadici hacondotto gradualmente ad un settore di ricerca vero e proprio, alla fine degli anni ’70.

Progressivamente questo mondo di neuroni piu legati al software che alle provette si e evoluto fino adiventare oggi l’anima matematica delle neuroscienze. Ecco spiegata la prima parola nella definizione cor-rente di tale disciplina, citata nell’introduzione di questo capitolo, computational neuroscience, e anzituttoun retaggio storico, questo campo e stato fondato dagli informatici e la loro impronta e ancora marcata. Epero anche fonte di confusione, per le varie implicazioni di questo termine, che e opportuno chiarire. Esicuramente condivisa l’accezione matematica di computational, vi e la chiara convinzione che il cervello“calcola”, ed e proprio quel calcolo che si ambisce spiegare matematicamente. L’ambiguita nasce invecedai rapporti con il computer, con le teorie computazionali ad esso relative (vedi §3.2.1), e con la cosiddettateoria computazionale della mente (vedi §3.2.4). Sono argomenti del tutto irrilevanti per la maggior partedella computational neuroscience, esistono in effetti dei settori prettamente informatici dove trovano spazio,ma esulano comunque dall’accezione di matematica neuronale qui di interesse. Qualcuno potrebbe notareche se il cervello non fa altro che svolgere continuamente calcoli, allora e un calcolatore. Non c’e nulla daeccepire, a patto di mantenere questa parola vaga e non caratterizzata da quel suo elemento prototipale notoa tutti, fornito di tastiera, microprocessore e monitor. Si puo, volendo, chiamare computer il cervello, maquesto non e di nessun aiuto per scriverne la matematica, perche ne il modello TM, ne la teoria matematicadegli algoritmi, ne tutto quello che si sa riguardo risolvibilita, complessita computazionale o teoria deglialgoritmi hanno niente a che vedere con la natura del calcolo neuronale.

La matematica del cervello e quindi del linguaggio non e una realta, non esiste ancora una teorizzazionecapace di mostrare in un formalismo come strutture di calcolo neuronali esplichino le funzioni cognitivead alto livello dell’uomo e primariamente il linguaggio, ma si e gia entrati in una nuova fase dove la primaindispensabile ingenuita degli informatici ha ceduto il passo ad una creativita consapevole, dove quei pochistrumenti modellistici disponibili vengono via via affinati e superati da altri, in stretta simbiosi con la realtabiologica. Questo si e verificato anche grazie all’apertura dall’altro lato, dei neuroscienziati, che dimostranosempre maggior interesse verso una matematica della scala celebrale intermedia, dove i fenomeni cogni-tivi acquistano un senso, pur rimanendo compatibili con la realta biologica, quantomeno nei suoi aspettiessenziali.

Questa fase di relativa maturita e anche il frutto dell’imponente concentrazione di ricerche sulle retineuronali artificiali che da decenni caratterizza il mondo scientifico informatico per scopi ben diversi dacapire come funziona il linguaggio umano e il cervello.

E successo un fatto veramente singolare: fin dagli anni ’80 ci si e resi conto che questi strani ibridibioinformatici erano la piu formidabile strumentazione matematica disponibile per la soluzione di tantiproblemi pratici, di utilita economica. Pressoche in tutti i campi in cui viene richiesta una matematicanon banale, le reti neuronali artificiali si sono dimostrate un’alternativa vantaggiosa: previsioni finanziarie,pianificazione dei voli aerei, elaborazioni di immagine, controllo di impianti chimici, e la lista sarebbeveramente lunga. Quindi e stata soprattutto la richiesta di mercato a stimolare e supportare questo embrionedi matematica.

In linea di principio quello che e avvenuto non e poi cosı sorprendente: nell’usare le reti neuronali si

Le Matematiche del Linguaggio 143

e in fin dei conti attinto ad uno sviluppo, quello dell’evoluzione naturale, che ha affinato gli strumenti delragionamento in un tempo ben piu lungo dell’evoluzione delle altre tecniche matematiche. Ovviamentele finalita utilitaristiche e la necessita di adattare le reti ai computer al silicio, un supporto ben diverso diquello per cui sono state naturalmente ottimizzate, comportano tecniche e accorgimenti che allontananoradicalmente le reti artificiali dall’equivalente biologico.

Comunque il substrato di ricerche disponibili ha gia consentito un approfondimento teorico dei principidi calcolo, da cui sono emerse le prime basi della computational neuroscience, che verranno illustrate inquesta sezione, intitolata delle aritmetiche, proprio per sottolinearne lo stato primordiale ma potenzialmentefondativo.

5.3.1 Ancora lui: Alan Turing

Non e noto a tutti che il primo a sviluppare una rete neuronale artificiale e stato proprio colui che ha fondatola scienza del computer: Alan Turing. Uno degli aspetti che piu lo attiravano nell’abbinare computere cervello era quello dell’apprendimento, anche nel famoso Computing Machinery and Intelligence la suaprescrizione per un programma in grado di superare il suo test di intelligenza era di replicare il modo con cuisi forma la mente di un bambino (vedi p. 112). Questo spunto aveva gia assunto una forma compiuta in unlavoro pressoche sconosciuto, intitolato Intelligent Machinery [Turing, 1948], dove prese in considerazionela possibilita di costruire calcolatori digitali composti da elementi semplici connessi tra loro, alla stregua deineuroni nel cervello. Turing chiamo questa rete artificiale ante-litteram unorganized machines (macchinesenza organizzazione), nel senso che inizialmente la topologia di connessione e i valori delle intensita diconnessione sono casuali. Qualunque compito potra essere svolto dalla macchina dopo un adeguato periododi addestramento, che Turing ipotizzo basato su due ingressi separati: uno che corrisponde al piacere, o allagratificazione, e un secondo corrispondente al dolore, alla punizione. Il procedimento percio sara

analogous to the kind of process by which a child would really be taught ... If also one decided on quitedefinite teaching policies there could also be programmed into the machine. One would then allow thewhole system to run for an appreciable period, and then break in as a kind of inspector of schools and seewhat progress has been made2. [Turing, 1948, pag. 20–21]

Vi sono tanti punti straordinariamente precursori: non solo e sottolineata la piu completa generalitadel computer–rete-neuronale, ma e stata subito colta l’importanza del procedimento con cui la rete vieneaddestrata, e qui traspare chiaramente l’anticipazione di illustri teorie a venire sull’apprendimento neuronale(vedi §5.2.1). Cosı come era successo per la Turing Machine, anche questi lavori in tema neuronale sonodel tutto speculativi, non esistendo ancora alcun computer, e anche negli anni successivi Turing non ebbe adisposizione risorse per poter dar vita la sua idea, che pur aveva sviluppato in dettagli quasi realizzativi.

Purtroppo questi lavori sembrano siano passati inosservati da coloro che negli anni immediatamentesuccessivi si sarebbero incamminati in questa direzione, o per lo meno non sono mai citati. Ci si sarebbeaspettati una certa convergenza con le idee di McCulloch e Pitts, che riconoscono un importante tributo aTuring, ma al Turing del On Computable Numbers [Turing, 1936], e infatti nel loro lavoro molta attenzionee dedicata alle dimostrazioni formali su quali numeri possono calcolare le loro reti di neuroni logici, esull’equivalenza rispetto alla TM. Viceversa Turing non aveva messo in relazione il suo famoso modelloprecedente con la nuova idea di computer neuronale e pare non fosse per niente colpito dalla loro tesi, anziconsiderava apertamente McCulloch un ciarlatano.

Quindi non ci fu eco per le unorganized machines, dopo la scomparsa di Turing questo capitolo sichiuse definitivamente, e venuto alla luce recentemente solo per l’attenzione degli storici [Leibner, 1991],al contrario McCulloch e Pitts in America fecero scalpore tra i neo adepti del computer.

Un avvio difficile

Marvin Minsky intraprese proprio la sua carriera in intelligenza artificiale adottando il modello di McCul-loch e Pitts, con una tesi di dottorato sul modello del cervello e le reti neuronali [Minsky, 1954]. Nello

2analogo al processo tramite cui un bambino impara nella realta ... Se poi si e scelta una determinata politica di insegnamento, lasi puo programmare nella macchina. Il sistema dovra quindi girare per un tempo sufficiente, periodicamente si puo interrompere edagire come da ispettori di scuola vedendo quali sono i progressi fino a quel momento.

144 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

strato diingresso

strato di

stratonascosto

uscita

Figura 5.12: Schema di una rete a tre strati.

stesso anno sempre al MIT nacque la prima rete neuronale artificiale funzionante in un computer, quella diFarley e Clark [Farley and Clark, 1954], composta da quattro gruppi di otto celle binarie, due di input e duedi output, che funzionava da discriminatore in due classi. Inizialmente i pattern delle due classi venivanopresentati soltanto ad uno dei due ingressi, rafforzando le connessioni che producevano output maggioreall’uscita corrispondente. Dopo l’addestramento un generico pattern era presentato in parallelo ai due in-gressi, e classificato in base a quale dei due output aveva attivazione maggiore. Dopo pochi anni Rosenblattintrodusse il percettrone [Rosenblatt, 1958], una struttura lineare di celle, composte ciascuna da un som-matore seguito da una soglia e da un fattore moltiplicativo. Queste uscite entravano in un comparatore, cherilevava l’uscita massima e modificava il fattore moltiplicativo della cella corrispondente.

Tralasciando ulteriori dettagli storici, citiamo il fatto culturalmente importante per il futuro sviluppodelle reti artificiali: all’interno dell’intelligenza artificiale si verifica una conflittualita tra gli orientamentidiventati dominante dagli anni ’50 in poi (caratterizzati dall’adozione di logica e teorie dei linguaggi for-mali, come raccontato in §3.2) e quello neuronale, chiamato anche connessionistico, di cui era diventataevidente la scarsa compatibilita. Questa controversia successivamente si intreccera anche con quella filoso-fica, intorno alle teorie computazionali della mente; ma inizialmente la discussione e ad un livello diverso,riguarda direttamente l’efficacia delle reti artificiali rispetto ai metodi classici simbolici, come genericistrumenti di intelligenza artificiale.

L’atteggiamento non e certo benevolo nei confronti delle reti artificiali. Il momento culminante e sta-to il famoso libro Perceptron [Minsky and Papert, 1969], che sulla base di un’attenta analisi delle limita-zioni inerenti ai primi procedimenti di addestramento, in sostanza decretava la sterilita dell’intero filonedi ricerca neuronale. Questo diffuso scetticismo tra gli ambienti dell’intelligenza artificiale piu influen-ti, porto ad un rallentamento nello sviluppo delle reti artificiali per quasi un ventennio, ancora nel 1986Simon intitola la sezione sul percettrone di un suo lavoro Birth and Death of a Myth [Simon, 1986]. Einvece proprio quello l’anno della resurrezione del mito, con la pubblicazione dell’opera miliare di Ru-melhart e McClelland Parallel Distributed Processing: Explorations in the Microstructure of Cognition[Rumelhart and McClelland, 1986]. PDP, oltre all’acronimo preso dal titolo del libro, e anche un proget-to ad ampio respiro condotto alla Carnegie Mellon University, che comprende implementazioni di diver-si modelli neuronali, ma soprattutto di quello che decretera il successo delle reti neuronali artificiali: laback-propagation.

5.3.2 Reti a strati

La grande ripresa delle reti neuronali artificiali alla fine degli anni ’80 e dovuta non poco alla monumentaleopera del gruppo di Rumelhart, e soprattutto alla popolarita della formula di back-propagation, destinata adun’enorme fortuna in campo applicativo. Questo termine in realta non si riferisce al modello di rete stesso,ma ad un metodo messo a punto per l’addestramento, ovvero la determinazione dei parametri variabilidel modello, che costituisce in effetti l’elemento cruciale e ancora oggi matematicamente piu elusivo sia

Le Matematiche del Linguaggio 145

~x1 = A(I)~x+~b(I) (5.9)

f (~x) = A(O)~xK +~b(O) (5.10)

xi,k = F (wk,i ~xk−1 − θi,k) 1 < k < K (5.11)

F ∈

{

g ∈ C1 : R1 3 lim

x→−∞g (x) 6= lim

x→+∞g (x) ∈ R

1

}

(5.12)

Tabella 5.3: Le equazioni che governano il comportamento di una rete a strati, il cui scopo sia di approssimare lafunzione f (~x) : R

N → RM tramite una f (~x) : R

N → RM , con K strati, e con N1 = N , NK = M . Le equazioni

(5.9) e (5.10) descrivono rispettivamente gli strati di ingresso e di uscita, la (5.11) il generico strato k; A({I,O}),~b({I,O})

sono matrici diagonali e vettori di scalature di input e output, wk,i e la riga i della matrice Nk × Nk−1 Wk dei pesitra lo strato k e quello k − 1, θ e un offset scalare; la funzione non lineare F e una sigmoide generalizzata descritta in(5.12), con g la classe delle funzioni misurabili e C1 il set delle funzioni continue su R

1.

del funzionamento biologico che di quello artificiale. La (relativa) efficacia della back-propagation e stataproprio la motivazione principale della svolta neuronale negli anni ’80.

Queste reti sono organizzate con neuroni disposti su piu strati, in cui il segnale si propaga dal primostrato, di input, all’ultimo, di output. La Fig. 5.12 esemplifica questo modello di rete in un caso con 3ingressi, 2 uscite, e uno strato interno di 5 neuroni. Per una miglior leggibilita la descrizione rigorosa delfunzionamento di questa rete e stata condensata nella Tab. 5.3, qui di seguito si illustrera discorsivamentela sua matematica sottolineando alcune posizioni concettuali.

Le reti a strato sono un’astrazione di due principi molto generali che si possono riscontrare nel calcoloneuronale biologico: uno riguarda l’operazione di accumulo che ogni neurone compie nei confronti di uncerto numero di contributi, che afferiscono da altri neuroni ai suoi dendriti, l’altro riguarda la presenza dielementi non lineari nel calcolo complessivo. Entrambi sono dei punti indiscutibili, l’evidenza del primoe proprio nell’architettura di qualunque agglomerato neuronale, e nelle modalita di funzionamento dellesinapsi ampiamente trattate in §5.1.3. La non linearita e un elemento matematicamente indispensabile:se i neuroni operassero solamente in modo lineare (cioe in modo proporzionale all’accumulo di segnaliin ingresso), sarebbero pesantemente limitati nelle funzioni che potrebbero esplicare: qualunque sistemadistribuito, per quanto grande, di elementi di calcolo lineare, non puo che produrre funzioni di trasferimentolineari. Il dubbio non si pone nemmeno nel cervello, non esiste fenomeno biologico che sia effettivamentelineare, e in particolare non lo sono tutti i meccanismi che concorrono al AP di un neurone. L’esigenzac’e nei modelli matematici, dove le non linearita sono sempre sgradevoli, per renderle piu trattabili si cercaalmeno di isolarle, mantenendo il piu possibile il resto del sistema lineare. E quello che viene fatto nellereti a strati, dove la non-linearita e una funzione di corredo a ciascun neurone, la F della (5.12) solitamentecaratterizzata da una parte centrale lineare e una saturazione ai suoi estremi, come nell’esempio di Fig.5.13.

Figura 5.13: La tipica funzione non lineare di un neurone nelle reti a strati.

La saturazione e la piu naturale forma di non linearita: esprime il semplice fatto che nella realta l’e-nergia a disposizione e finita. Per rendere l’idea dell’abbinamento tra il meccanismo di accumulo e quellodella non linearita si e fatto ricorso ad un piccolo esempio numerico, nella Fig. 5.14. I primi due neuro-ni sono semplicemente collegati agli ingressi, le loro uscite si connettono tramite sinapsi al neurone N3

che produce l’uscita finale. I tre grafici della figura sono altrettanti passi del calcolo. All’inizio vengonosemplicemente applicate le non linearita nei neuroni N1 e N2. Nell’ultimo passo, a destra, il neurone N3

si comporta da accumulatore dei contributi afferenti, che vengono pero pesati attraverso i cosiddetti “pesisinaptici” (weights), il modo piu semplice possibile di interpretare l’efficienza della sinapsi: con un numero

146 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

−0.1

−0.2 0.9

0.4

N1 N2

N3

−0.1

0.9

0.8−0.18

0.4

N3

−0.2

−0.1

−0.2 0.9

0.8

−0.15

−0.14

0.4

−0.18

Figura 5.14: Esempio di funzionamento di una porzione di rete neuronale artificiale a strati. A sinistra sono indicatidue valori numerici di ingresso della rete (-0.2 e 0.9) e i due valori dei legami sinaptici tra i neuroni (0.4 e -0.1), cherimangono invariati e indipendenti da ingressi e uscite. Nel disegno al centro sono mostrate le due non-linearita internedei neuroni N1 e N2, che trasformano i segnali di ingresso, quello di valore inferiore, -0.2, si modifica poco, mentrequello piu alto, 0.9, viene ridotto a 0.8. Infine a destra, quei due valori vengono moltiplicati per i legami sinaptici esommati tra loro dando -.15, viene nuovamente applicata la funzione non lineare con risultato -.14.

da moltiplicare. Nella fattispecie il calcolo da effettuare per il neurone N3 e:

−018 × 0.4 + −0.1 × 0.8

con risultato -.15 che rappresenta l’accumulo pesato di segnali di N3, a cui va applicata la funzione nonlineare. E il calcolo espresso dalla (5.11) in forma matriciale per generalita rispetto alle dimensioni dellarete.

Non e facile pronunciarsi su quanto il modello a strati possa essere una matematica fedele delle retineuronali, naturalmente c’e una semplificazione drastica di quella complessa molteplicita di meccanismicon cui i segnali si propagano da un neurone all’altro, indubbiamente i due principi conservati sono basilarie la separazione tra accumulo pesato e non linearita non e matematicamente compromettente. Assumere inmodo additivo i contributi in ingresso corrisponde in buona sostanza all’approssimazione integrate-and-firevista in 5.1.3, le cose sono molto piu compromettenti in uscita, piu genericamente sulla tipologia dei segnaliin gioco. Nelle reti a strati sono numeri statici, non c’e dipendenza dal tempo. Nel cervello invece sono AP,forme d’onda che viaggiano nel tempo. La differenza non e da poco e non e detto che con questo passaggionon si sia tagliata fuori una parte importante del calcolo nel cervello, l’argomento verra ripreso varie volte,fino a mostrare alcune matematiche in cui gli impulsi sono mantenuti tali. La relazione che viene assunta

t t

Figura 5.15: L’interpretazione statica dell’ AP di un neurone: il neurone a sinistra ha una frequenza bassa e quindi einattivo, quello a destra invece e attivo.

nelle reti a strati tra AP e valori dei neuroni e esemplificata in Fig. 5.15: dagli impulsi si passa ad un livellodi attivazione fisso proporzionale alla loro frequenza. Le differenza con le reti biologiche non sono finitequi, ma prima c’e da sottolineare una proprieta davvero notevole di queste architetture.

Un aspetto del tutto inatteso di questi oggetti matematici, che venne scoperto a seguitodi diversi lavori, dovuti soprattutto a Maxwell Stinchcombe [Cybenko, 1989, Hornik et al., 1989,Stinchcombe and White, 1989, Stinchcombe, 1999], e la loro capacita di approssimare qualsiasi funzione

Le Matematiche del Linguaggio 147

∆p = −η∂E (Tt)

∂p(5.13)

E (Tt) =(

f(

~x(t))

− f(

~x(t)))T (

f(

~x(t))

− f(

~x(t)))

(5.14)

Tabella 5.4: Le equazioni che descrivono il procedimento di back-propagation, dove η nella (5.13) e il cosiddettolearning rate, e E e una metrica dell’errore, comunemente e usata l’espressione quadratica, che conduce alla formadifferenziata della (5.14). Con questa misura di errore, se la funzione F ha derivata analitica, anche la (5.13) puo essereespressa analiticamente per tutti i parametri p.

continua con qualsivoglia precisione. La risposta piu forte possibile al libro di Minsky e Papert. Queste retiartificiali di elementi talmente semplici posseggono l’impressionante potenza e generalita di poter esplicarequalunque funzione, per quanto complessa.

Va subito precisato che la proprieta dimostrata e quella teorica, le modalita per condurre una specificarete a comportarsi secondo la funzione desiderata sono ben altro discorso, non certo da poco come gia piuvolte accennato. Qui entra in gioco il principio della back-propagation: fissare i parametri caratteristici dellarete con un processo di addestramento in cui tutta una casistica di soluzioni note della funzione desideratae presentata progressivamente alla rete. Naturalmente all’inizio la rete, dato un certo ingresso, fornirain uscita un risultato ben diverso da quello atteso, i suoi parametri sono modificati proprio secondo lapropagazione all’indietro dell’errore, da qui il nome back-propagation. I dettagli tecnici sono riportatinella Tab. 5.4.

Il modello matematico nelle sue applicazioni richiede naturalmente un’interpretazione dei numeri, ov-vero l’assegnazione di un significato agli ingressi e alle uscite dei neuroni. I due esempi della Fig. 5.16sono tipici modi di adoperare le reti a strati. Il primo, quello a sinistra, e un caso di controllo sensomotorio,in cui si utilizzano informazioni visive per controllare comandi alla muscolatura di un braccio. Sia perl’ingresso che per l’uscita sono importanti i valori numerici in tutta la loro gradazione. Il secondo caso einvece il tipico uso delle reti artificiali come classificatori, per verificare l’appartenenza di una certa entitaad alcune classi note, sulla base di caratteristiche misurabili. Nella classificazione risulta meno rilevante ilvalore numerico dei neuroni di uscita, il risultato della classificazione e stabilito dal neurone piu attivo. Esempre possibile pero attribuire al valore numerico dei neuroni in uscita un significato, come stima dellaprobabilita di appartenenza alle diverse classi.

r r

F1 F F2 3

HllV A V H

blu rosa peso

Figura 5.16: Due esempi di applicazioni del modello di reti a strati. Quello a sinistra calcola le forze da applicareai muscoli del braccio in modo da raggiungere un oggetto, presente nel campo visivo. Gli input saranno le posizioniverticali ed orizzontali dell’oggetto nell’occhio sinistro e destro e l’angolo di vergenza. L’esempio a destra deve discri-minare due possibili oggetti, un Puffo o un maialino, sulla base di certe caratteristiche: quantita di colore blu, di colorerosa e peso.

Questa breve introduzione alle reti a strati termina con qualche ulteriore considerazioni riguardo ai loro

148 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

Figura 5.17: Tipica organizzazione bidimensionale della corteccia cerebrale.

rapporti con i neuroni veri, si e gia discusso del problema staticita e AP, ora e imputata la loro modalita di ap-prendimento, la back-propagation. Questo procedimento, se da un lato ha reso le reti a strati tanto apprezzatein campi applicativi, e proprio quello che ha suscitato piu perplessita prima ancora del discorso sulla naturaad impulsi dei segnali neuronali, soprattutto da parte di psicologi per l’incompatibilita con i principi cogniti-vi dell’apprendimento [Massaro, 1988, Quinlan, 1991]. Secondo Patricia Churchland e Terrence Sejnowskie una critica malposta, perche plasticita neuronale e back-propagation condividono la stessa finalita, defini-bile matematicamente come ottimizzazione, non e essenziale la procedura con cui venga messa in atto, e iltipo di funzione realizzabile dalle reti l’oggetto di interesse conoscitivo [Churchland and Sejnowski, 1994,pp. 130–135].

Si condivide pienamente la futilita della questione specifica sulla formulazione algoritmica della back-propagation o di qualunque suo equivalente piu moderno rispetto ad un metodo di ottimizzazione imple-mentato nel cervello, qualunque esso sia. Non si ritiene pero che ci sia solo questo nell’addestramento, maanche altri presupposti su cui si mantengono riserve.

E discutibile in generale la pratica di usare coppie ingressi-uscite “esatte” note a priori, per portare larete a comportarsi in modo analogo, quello che va sotto il nome di addestramento supervisionato. None facile disquisire su una sua possibile corrispondenza naturale, visto che, come detto precedentemente, imeccanismi di apprendimento neuronali biologici sono ancora molto oscuri; certamente sussistono proble-mi di diverso tipo, anzitutto ontologici, non esiste un analogo dell’output nei sistemi biologici, nel senso diprocessamento di informazione (l’unica forma di output sono i segnali ai muscoli), ma ancor piu difficile eindividuare un correlato dell’azione di confronto tra questo output con quello desiderato, anzitutto proprioperche e arduo concretizzare il “desiderato” tra i segnali neuronali, una volta messi da parte i desideri dicoloro che stanno conducendo gli esperimenti.

Prescindendo da questi dubbi, la semplicita di questa prima matematica, e la facilita con cui possonoessere condotti esperimenti su funzioni neuronali di scala intermedia, ne hanno fatto uno degli strumentispeculativi principali degli anni ’80 e ’90, come si avra modo di vedere in §6.1.

5.3.3 Strutture nello spazio

La seconda forma aritmetica di base per le reti neuronali in questa breve rassegna risponde proprio a queidubbi appena esposti riguardo alle reti con addestramento supervisionato. Non richiedendo nessuna in-formazione a priori sulla risposta desiderata dalla rete, la sua modalita di costruire una funzione ad altolivello e chiamata addestramento non-supervisionato, questo modello e noto con l’acronimo di SOM (Self-Organizing features Map), chiamato anche mappe di Kohonen, dal nome di Teuvo Kohonen, chi le hasviluppate nell’arco degli ultimi venti anni [Kohonen, 1982, Kohonen, 1984, Kohonen, 1995].

Il primo termine nell’acronimo svela le ambizioni di questo algoritmo: realizzare l’aritmetica del pro-cesso di auto-organizzazione neuronale, uno dei principi chiave, come visto in §5.2.3, di come aggregatineuronali acquisiscano le proprie regole di funzionamento. L’ultimo termine della sua sigla denota un’altracaratteristica fondamentale di questo modello: la sua architettura a mappe di neuroni, in cui la strutturaorganizzativa emerge spontaneamente sotto forma di ordinamento topologico. In altre parole, il significa-to della funzione espletata dalla rete non sara semplicemente racchiuso nelle efficienze delle sinapsi, masoprattutto dalle posizioni spaziali dei neuroni e dalle loro reciproche relazioni.

E davvero una modalita caratteristica delle reti nel cervello? Difficile dirlo, e soprattutto discutibile chesi tratti di un principio generalizzato. Von der Malsburg per esempio, il teorico dell’auto-organizzazioneneuronale, ritiene che l’organizzarsi funzionale delle connessioni sinaptiche, abbia poco o niente a che fare

Le Matematiche del Linguaggio 149

Figura 5.18: Schema di una mappa di Kohonen nello spazio 2-D.

anche con una regolarita fisica, spaziale, e considera le reti di Kohonen, non molto generosamente, analgorithmic caricature of the [self-organization] mechanism [von der Malsburg, 1995b].

Esiste una forte evidenza dell’organizzazione topologica nella corteccia in quelle che sono le piu co-nosciute strutture auto-organizzati a due dimensioni: quelle del sistema visivo primario, dove gruppi dineuroni sono strutturati in mappe retinotopiche [Hubel and Wiesel, 1962], la loro disposizione topologicarispecchia cioe il piano visivo a due dimensioni in cui si formano le immagini. Si potrebbe supporre chequesto caso non sia generalizzabile, in quanto solamente per la visione la spazialita e una proprieta gia in-trinseca nei segnali da elaborare, ma l’argomentazione potrebbe essere ribaltata notando che proprio percheesiste una connotazione spaziale a priori si e stati in grado di riconoscere le mappe neuronali visive cometali, mentre e molto piu difficile farlo per altri tipi di aggregazioni.

Non e da escludere infatti che la natura spaziale bidimensionale abbia una valenza oltre quei casi speci-fici in cui vi e un preciso corrispettivo fisico. Esistono diversi studi sulla spazialita come principio cognitivodiffuso in vari aspetti linguistici [Anderson, 1971, Gruber, 1976], per Lakoff e Johnson rappresenta unadelle metafore primarie su cui si struttura l’intero impianto concettuale umano [Lakoff and Johnson, 1980].Pertanto non e fuori luogo che le mappe topologiche rappresentino una modalita di strutturarsi delle regoledei neuroni non solo nelle aree visive.

Il modello SOM non implica nessuna specifica dimensionalita alla topologia, ma il suo impiego prin-cipale e soprattutto in due dimensioni, ci sono buone ragioni sia di ordine applicativo che concettuale. Ladisposizione spaziale in due dimensioni ha il non piccolo vantaggio di essere facilmente interpretabile, perla nostra mente non c’e spazio piu consono a rappresentare in modo comprensibile interazioni semantiche,non a caso e il metodo di visualizzazione piu largamente impiegato in ogni campo. Uno degli utilizzi dimaggior successo delle reti di Kohonen e stato proprio nella resa visiva di dati originariamente con altonumero di dimensioni. L’altra ragione che suggerisce le due dimensioni e legata invece alla fisiologia cere-brale. E incontestabile che la corteccia, soprattutto quella adibita alle funzioni cognitive piu ad alto livello(la neocorteccia), sia nettamente strutturata a due dimensioni. Nella scala intermedia delle aggregazionineuronali (che fisicamente corrisponde a qualche millimetro quadrato) la corteccia si presenta come in Fig.5.17, con diversi strati laminari che approssimano piani paralleli, attraversati da neuroni piramidali con uninterconnessione particolarmente densa, ed una sorprendente regolarita strutturale.

Le radici matematiche della SOM sono nella Vector Quantization, tecnica usata nell’elaborazione deisegnali per approssimare con un set limitato di vettori, chiamato codebook, la densita di probabilita diun vettore stocastico [Linde et al., 1980]. Traducendo in termini di reti artificiali, c’‘ un gruppo di pochineuroni, in uno spazio a bassa dimensionalita, che vi vuole rappresentino le relazioni tra dati, caratterizzatida un elevato numero di caratteristiche. Il caso come detto piu comune e di disporre tali neuroni su duedimensioni, a questa tipologia si riferira la spegazione che segue.

Supponendo che i dati da esaminare siano vettori ~t ∈ RN , la mappa di Kohonen sara costituita da un

numeroM di neuroni ~x ∈ RN , a cui e associata una coordinata in due dimensioni ~r ∈ {< [0, 1], [0, 1] >} ⊂

R2. Uno stesso vettore di ingresso e reso contemporaneamente disponibile a tutti i neuroni.

La rete funziona secondo un principio inedito nelle reti a strati: quello della competizione, ovvero leprobabilita di eccitazione di un neurone vanno a discapito di quella dell’attivazione di tutti gli altri compo-

150 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

Figura 5.19: Simulazione mediante LISSOM delle mappe di orientazione nella V1. A sinistra la mappa di 100 ×100 neuroni prima dell’addestramento, a destra dopo l’addestramento, le orientazioni sono rappresentate in scala digrigi, in aggiunta a destra sono sovrapposte piccole linee corrispondenti alle orientazioni dei neuroni sottostanti (da[Miikkulainen et al., 1997]).

nenti la stessa aggregazione, in gergo tecnico winner-take-all. La conseguenza e che un segnale in ingressoattivera tipicamente solamente un neurone, quello a cui sono piu confacenti le caratteristiche di quel par-ticolare ingresso, date dalle sue componenti vettoriali, secondo un criterio di conformita (match). E unfenomeno che ha riscontro nel cervello, ne sono responsabili i neuroni tipo GABA (vedi §5.1.3) e i lorocollegamenti laterali nella corteccia.

Matematicamente, per un certo ingresso ~t viene valutato il neurone con match migliore ~xc secondo la:

c = arg mini∈{1,...,M}

{∥∥~t− ~xi

∥∥}

(5.15)

dove nella norma possono essere usate varie metriche. Questo procedimento e lo stesso anche nella fasedi addestramento della rete. Inizialmente i neuroni avranno valori vettoriali random indipendenti dalle lorocoordinate, e il processo di auto-organizzazione avviene tramite presentazione dei campioni disponibili~t ∈ T . Dopo la presentazione di un campione ~t e la determinazione dell’indice c tramite la (5.15), i valoridei neuroni sono modificati secondo la:

∆~xi = ηe−‖~rc−~ri‖

2

2σ2(~t− ~xi

)(5.16)

dove η e il learning rate, e σ e l’ampiezza della diffusione del processo di adattamento ai vicini del vincitorec.

Quello che si verifica dopo l’adattamento, e che lo spazio a due dimensioni puo assumere un significatodi ordinamento relazionale rispetto ai dati, e che la presentazione di un nuovo generico input ~t produrra unsegnale nella zona spaziale in cui e caratteristicamente classificato.

Per molti anni dalla sua scoperta questo fenomeno fu solamente verificato, sulla base di tanti casi di-versi, ma senza riuscire a dare una spiegazione matematica delle (5.18) e (5.16), soltanto nel 1988 si riu-scı a fornire una dimostrazione matematica completa dell’ auto-organizzazione, anche se limitatamenteal caso unidimensionale [Cottrell and Fort, 1988], e successivamente a provare condizioni di convergenza[Erwin et al., 1992b, Erwin et al., 1992a]. Anche grazie a questa migliore trattabilita matematica del casounidimensionale la SOM puo venire usata come sistema di ottimizzazione astratto [Plebe and Anile, 2002,Plebe, 2001].

Come gia accennato, la sua migliore evidenza biologica riguarda la corteccia visiva, dove anche lafondazione teorica dell’auto-organizzazione aveva trovato i suoi primi riscontri (vedi §5.2.3). Una dellesimulazioni che replica con maggior fedelta le caratteristiche dell’area neocorticale V1 e stata ottenutada Risto Miikkulainen e Joseph Sirosh con una estensione della SOM denominata LISSOM (LaterallyInterconnected Synergetically Self-Organizing Map), in grado di riprodurre non solo dettagli anatomici maanche alcune illusioni ottiche ed effetti di lesioni [Miikkulainen et al., 1997]. Nella Fig. 5.19 e mostrato ilrisultato della simulazione dei domini di orientazione.

Ci sono altre caratteristiche della corteccia visiva che trovano spiegazione matematica in un’estensionedella SOM recentemente proposta dallo stesso autore [Kohonen et al., 1997], battezzata ASSOM (Adaptive-Subspace Self-Organizing features Map). Senza entrare in dettagli tecnici si puo dire che in questo modello

Le Matematiche del Linguaggio 151

Figura 5.20: Un’idea pittorica della rete ASSOM

anziche funzioni vengono ottimizzati funzionali, che matematicamente sono punti in spazi infiniti. Piu con-cretamente la ASSOM, come dice il suo acronimo, puo trovare la forma ottimale di funzioni come sottospazilineari, che sarebbero un certo numero (stavolta finito...) di vettori tra loro perpendicolari. L’ortogonalitapuo essere ottenuta semplicemente tramite combinazioni di funzioni trigonometriche, che costituiscono glielementi della mappa neuronale. Partendo da vettori distribuiti casualmente, la base del sottospazio puoessere adattata gradualmente, in base alle presentazioni di vari input, in modo tale da avvicinare sempre piule risposta agli ingressi della stessa classe, e diversificare quelli di classi diverse.

Nella Fig. 5.20 si e cercato di dare un’idea della differenza rispetto ad una SOM convenzionale cheesplica il ruolo di funzione ed e una struttura bidimensionale di neuroni. In questa rete che agisce dafunzionale ci sono invece tante celle, sempre in una superficie a due dimensioni, costituite ciascuna da uncerto numero di neuroni, che rappresentano tanti sottospazi adattativi, ovvero proprio funzioni, che di nuovocompetono e solo una verra attivata prevalentemente. In entrambe il funzionamento emerge spontaneamentein un processo di auto-organizzazione, ma nel primo caso progredendo ad ogni nuovo pattern, nel caso delfunzionale invece per epoche, cioe serie di diversi pattern. L’effetto complessivo di questi gruppi di neuronicorticali, e di “filtrare” la porzione di mappa afferente, con una maschera, la cui forma tipica e raffiguratanella Fig. Fig. 5.21. Si tratta di una forma matematica nota come funzione di Gabor, approssimabile comeprodotto di una funzione gaussiana con una sinusoidale:

f(x, y) = e−(ω2

x+ω2y)(x2+y2)2σ2 −ı(x+y) (5.17)

dove σ e l’ampiezza della maschera, e ωx, ωy rappresenta le frequenza spaziale, praticamente la distanza trastrisce di luminosita simile nell’immagine, nelle direzioni orizzontali e verticali. Sono la base migliore prerappresentare i campi recettivi nella corteccia visiva. Per inciso Gabor non era affatto un neuroscienziato,anzi non aveva proprio nessun interesse per i neuroni, era un ingegnere che sviluppo quelle funzioni perl’analisi di segnali in telecomunicazioni [Gabor, 1946]. Bizzarra coincidenza? Forse no. Il motivo per cuitali funzioni servivano a Gabor e perche rappresentano la classe di funzioni con la proprieta di massimizzarecontemporaneamente l’invarianza rispetto alla localizzazione temporale e di frequenza dei segnali, allostesso modo i neuroni riescono nel discriminare in modo relativamente insensibili alla posizione e alla scalaspaziale. In sostanza Gabor, con una buona dose di fantasia ed intuito matematico, aveva trovato lo stessooggetto matematico che nel cervello emerge spontaneamente, come scelta ottima per il compito a cui e

Figura 5.21: Esempi di funzioni di Gabor

152 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

x x x xt t−1 t−2 t−3

x zzz −1 −1−1

yt

Figura 5.22: Esempio di rete artificiale dinamica mediante tapped-delay.

destinato. Recentemente e stato confermato che anche il potere discriminante di tali funzioni e proprioquella massima rispetto ad un’ampia classe di immagini naturali [Hancock et al., 1992].

La visione non e comunque l’unica funzione su cui e stata verificata l’esistenza di mappe topologiche dineuroni, simulabili con la SOM, risultati analoghi sono stati ottenuti per il sistema auditivo dei pippistrellie la mappa somatotopica dei recettori tattili della mano [Ritter et al., 1992]. Entrambi i casi comunquecondividono con la visione la natura bidimensionale dei dati di partenza.

Per concludere la presentazione critica di questo modello, uno dei punti favorevoli e certamente la ri-nuncia ad un processo di addestramento della rete di tipo supervisionato, che potrebbe prestarsi alle critichegia viste. Non vengono invece evitate quelle relativamente agli aspetti dinamici delle reti biologiche, chequi scompaiono a favore della semplicita di un modello perfettamente statico, proprio come nelle reti astrati viste precedentemente.

Entrando piu in merito di questo problema, si possono distinguere due carenze diverse nelle matemati-che neuronali statiche. La prima e l’incapacita di queste reti di modellare funzioni dinamiche: ogni voltache viene presentato un input si produce un output indipendente da quelli precedenti: non c’e nessuna me-moria del passato (se non quella fissata una volta per tutte dall’addestramento). Ogni fenomeno reale hainvece un suo svolgimento nel tempo, ed e sempre con questo tipo di eventi che ha a che fare il sistema ce-rebrale umano. La seconda discrepanza e nei confronti del funzionamento dei neuroni reali, che anche nellaloro modalita di calcolo sono dei sistemi dinamici, provvisti pertanto di una ricchezza di comportamenti,impoverita dalle astrazioni statiche di questi due primi modelli della matematica neuronale.

5.3.4 Strutture nel tempo

Finding Structure in Time e proprio il titolo di un famoso lavoro di Jeffrey Elman, che ha rappresentatola risposta piu completa al primo problema delle reti statiche, sollevato alla fine della precedente sezione:rappresentare in reti neuronali fatti che si evolvono nel tempo [Elman, 1990].

E stata preceduta da altri tentativi piu semplici, come quello visibile in Fig. 5.22. Supponendo chel’input di questo esempio fosse costituito da uno scalare (un numero solo, non un vettore a piu compo-nenti), lo strato di input della rete e composto in effetti da tante unita, dove verranno letti valori via viaprecedenti nel tempo dello stesso input. Questa strategia va sotto il nome di tapped-delay, ed e caratte-ristica nei sistemi dinamici discreti. Il tempo che e trattato qui non e quello cronologico continuo, ma eidealmente suddiviso in istanti indivisibili, posti in relazione con i numeri naturali. Pertanto t0, t1, t2 sonomomenti temporali successivi, intervallati da un valore, sempre costante, che deve essere fissato conven-zionalmente3. La soluzione della rete tapped-delay ha avuto fortuna nel settore dei controlli automatici[Narendra and Parthasarathy, 1990], ma non e una risposta soddisfacente dal punto di vista delle matemati-che neuronali, per due ragioni. Come si puo vedere dalla figura, dal punto di vista della rete e totalmenteindifferente che i diversi input siano in realta campioni nel tempo della stessa variabile, sono input separati

3La teoria dei sistemi discreti fa uso della trasformata z, che e analoga alla trasformata s dei sistemi continui. Nel dominio diquesta trasformata dividere per z equivale a riportarsi all’istante di tempo precedente, ecco perche nella Fig. 5.22 i vari input sono

collegati tra di loro mediante il blocchetto z−1

Le Matematiche del Linguaggio 153

self−recurrent units

Figura 5.23: Schema di rete di Elman

collegati ai neuroni dello strato di ingresso, che la rete tratta in modo statico. Inoltre l’estensione di memo-ria della rete deve venir fissata in modo rigido, dato che il numero di neuroni in ingresso deve coinciderecol numero di intervalli di tempo precedenti, presi in considerazione nel calcolo.

Il sistema ideato da Elman e sempre basato sulle reti a strati, ma con un’innovazione notevole, in gradodi dar conto del tempo in modo molto meno artificioso. Non e una novita per gli informatici, e nientemenoche la ricorsione, oggetto della sezione §3.2.3, che in queste reti gioca il ruolo di memoria temporale, inmodo simile ai filtri ricorsivi nella trattazione dei segnali. Nella rete esemplificata in Fig. 5.23 la ricorsionee applicata a due neuroni dello strato nascosto, con dei legami sinaptici su se stessi. Il calcolo dell’accumuloper quei due neuroni terra conto anche del valore che possiedono i neuroni stessi in quel momento, mante-nendo cosı traccia del processo avvenuto precedentemente. Non c’e piu nessun bisogno di moltiplicare ilnumero di input per simulare il tempo tramite una serie di ritardi.

Ecco la descrizione matematica di questo funzionamento. L’equazione generica di un neurone i nellostrato intermedio k, si modifica rispetto alla (5.11) di una rete a strati non dinamica, nella seguente:

xi,k,t = F(wk,i ~xk−1,t + w

′k,i ~xk,t−1 − θi,k

)(5.18)

dove t − 1 e l’indice associato all’evento discreto precedente l’evento t. Si sono considerate due diversematrici dei pesi sinaptici, la Wk di dimensioni Nk × Nk−1 che comprende i collegamenti tra i neuroniallo strato k con quello dello strato precedente e la W

′k di dimensioni Nk × Nk che esprime le efficienze

ricorsive. Naturalmente per tutte le unita che non sono ricorsive i corrispondenti valori nella W′ saranno

nulli. Al tempo t = 0 i valori dei neuroni ricorsivi sono convenzionalmente nulli. La (5.18) in sostanzariutilizza i segnali di strati interni al momento precedente, nel calcolo dell’attivazione attuale dei neuroni, ein questo modo propaga nel tempo l’influenza dei termini.

Come si sara notato, anche qui il tempo e necessariamente considerato nella sua idealizzazione discreta,sono ben pochi i modelli neuronali in grado di trattare il tempo continuo [Plebe et al., 2001], ma questo negliintenti di Elman non e uno svantaggio. In questo modo il tempo non e necessariamente quello cronologico,ma una generica dimensione in cui si sviluppa un processo serializzato. Quello in particolare a cui erainteressato Elman e proprio il linguaggio. Sia che ascoltiamo o che leggiamo, la comprensione linguisticae un fatto dinamico, in cui ogni parola appena percepita acquista un significato in funzione di tutto cio chesi e ascoltato o letto fino a quel momento, e piu sono vicine le parole precedenti, in genere maggiore sara laloro salienza.

L’elettiva finalita di questa rete la rendera centrale nella discussione del capitolo successivo, Per orasi conclude con il consueto bilancio del valore matematico di questo modello. Il modo di addestrare larete di Elman non differisce da quelle a strati, puo essere applicata quindi una tecnica di back-propagationo varianti, occorre naturalmente disporre di campioni in serie temporali, che vanno presentati alla retenell’ordine cronologico corretto. Non dovrebbe pertanto sfuggire ai dubbi gia sollevati rispetto ai metodi diaddestramento supervisionato, tipici delle reti a strati. Le cose invece sono messe meglio, perche spesso iconcetti di input e output sono del tutto anomali rispetto a quelli abituali delle reti a strati, e meno criticabili,in particolare nell’uso per il linguaggio.

Da un punto di vista biologico l’idea di Elman della ricorsivita in un modello artificiale combacia benecon l’abbondante presenza nel cervello di proiezioni a ciclo chiuso, sia tra aree diverse, sia all’interno dellestesse aree, soprattutto nella corteccia.

154 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

tondeggiante

+ 4 appendici

forma

cilindrica

colore

rosa

colore

bluE

SA

� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �

missile puffo rossetto maialino

Figura 5.24: Esempio di rete come estrattore di quattro semplici caratteristiche visive (in alto), e il “mondo ristretto”di oggetti riconoscibili in base alle combinazioni di caratteristiche (in basso).

5.3.5 Il tempo nelle strutture

Quest’ultima sezione sulle basi della matematica neurocomputazionale riguarda modelli molto recenti,quelli che rispondono alla seconda obiezione, sollevata alla fine di §5.3.3, contro i modelli statici qualireti a strati e SOM: la differenza rispetto al modo dinamico di elaborare i segnali dei neuroni veri. In parti-colare la preoccupazione non e tanto per la mancanza di specularita tra i dettagli numerici della matematicae dei segnali nel cervello, il sospetto e che la semplificazione da qualche parte si paghi, che un giornoemergano limitazioni serie sulle funzionalita ad alto livello delle reti artificiali.

Secondo alcuni e proprio cio che e accaduto, quello che non si riesce a collocare nei modelli staticisono le rappresentazioni di relazioni, che sicuramente nel cervello invece si realizzano. In termini tecnici,si tratta di quello noto come il binding problem della neurocomputazione.

Sara piu facile delineare questo problema dopo aver visto le interpretazioni teoriche di cosa invece sonoin grado di rappresentare i modelli statici, per intanto si cerca di mostrare in cosa consista con un sempliceesempio, relativo ai processi di visione, l’ambito in cui questo problema e stato piu chiaramente evidenziato[von der Malsburg, 1995a]. Si supponga una semplice rete di quattro neuroni che, come in Fig. 5.24,realizzano l’estrazione di caratteristiche visive, alla stregua delle uscite di macrocolonne corticali delle areevisive. Si puo ipotizzare che il riconoscimento riguardi gli oggetti oggetti noti nel mondo, limitato ad unrazzo spaziale, un rossetto, un maialino e un Puffo, e si basi sulle loro caratteristiche, riconosciute da quellarete di quattro neuroni.

“c’ e un missile e un maialino”

Figura 5.25: Il risultato della rete di Fig. 5.24, applicata alla scena nella figura in alto. La configurazione dei neuronie perfettamente coerente con il riconoscimento prodotto.

Ed ecco cosa potrebbe succedere a questo semplice sistema di visione neuronale, in presenza della

Le Matematiche del Linguaggio 155

A

C

B

D

Figura 5.26: Il meccanismo della sincronia temporale: i neuroni A e B hanno stessa frequenza di AP, e quindi stessaattivazione, ma siccome c’e una sincronia temporale fra A e C, questi sono messi in relazione. Il neurone D esibiscequel tipo particolare di attivazione, il burst mode, in cui c’e un ampio intervallo temporale entro cui il suo stato attivopuo essere riconosciuto da altri neuroni.

scena in Fig. 5.25. Nel sistema non esiste un indicizzazione dei neuroni, in grado di tener traccia di unacatena causale delle loro attivazioni, non e pertanto possibile unificare diverse risposte di riconoscitori dicaratteristiche ad entita unitarie, ad oggetti. E interessante che un simile fenomeno e stato ricreato anchenella visione umana mettendo strategicamente in difficolta i neuroni [Wolfe and Cave, 1999], e denominatoillusory conjunctions, ma certamente in condizioni normali non facciamo di questi sbagli, e quindi qualchemeccanismo che risolve il binding ci deve essere.

Cosa c’entra il tempo in tutto questo? E ampiamente condiviso che questa incongruenza (come al-tre), sia una diretta conseguenza della semplicistica assunzione statica del modello neuronale classico (ve-di §5.3.2), e della sua drastica limitazione rispetto alla molteplicita di operazioni matematiche delle retineuronali biologiche. E sempre maggiore il sospetto che nel neurone l’informazione non sia semplice-mente codificata dalla frequenza degli impulsi, come nell’interpretazione classica, ma anche le correla-zioni tra i momenti in cui vengono emessi gli AP, in termini matematici le fasi, ed infatti e la nuovateoria del phase coding [Maass and Bishop, 1999]. Pare oramai accertato che la sola frequenza e trop-po poco, il neurone ha a disposizione sicuramente altri meccanismi, piu complessi, ma e tutt’altro chesemplice attribuire un significato (che non puo piu essere il semplice concetto di “attivazione”) alle dif-ferenze di fase. Un’idea che e stata approfondita negli ultimi dieci anni e quella della sincronia tem-porale [von der Malsburg and Schneider, 1986, Shastri and Ajjanagadde, 1993, von der Malsburg, 1995a,von der Malsburg, 1999, Stevens, 2000], ovvero che quando gli AP di alcuni neuroni sono perfettamentein fase, cio significhi l’instaurarsi di una relazione tra loro, come esemplificato nella Fig. 5.26. C’e inoltreun modo particolare di attivarsi dei neuroni, denominato burst mode, in cui vengono emessi treni di APmolto ravvicinati, in gruppi distanziati regolarmente, come nel caso del neurone D nella figura. Nell’ipotesidella sincronia temporale, questa potrebbe essere la maniera di attivarsi indifferenziata rispetto a relazionilocali, per neuroni che non richiedono nessuno specifico binding e che sono recepibili da qualunque altroneurone a loro connesso, nella finestra temporale dei treni di burst. Queste finestre e ipotizzato che corri-spondano ad altrettante finestre attenzionali, momenti in cui e richiesta una maggior facilita di attivazionesu determinate aree. E stata notata la presenza nel cervello di due distinte frequenze tipiche nei ritmi di AP:una a bassa frequenza, compresa tra 5 e 8 Hz, nota come theta-rhythm e una a freqeunza piu alta, gamma-rhythm, tra 30 e 70 Hz, la prima sarebbe caratteristica delle sincronie temporali, la seconda dei fenomeni diburst.

Si mostreranno ora alcune formulazioni matematiche che consentono di introdurre il funzionamento adimpulsi dei neuroni in modelli analoghi a quelli delle reti a strati, quindi pienamente utilizzabili su scalaintermedia per analisi di funzioni cognitive di livello significativo. Per ogni neurone i della rete, viene

156 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

V

tt (f)

θ

V

tt (f)

Figura 5.27: La forma tipica dei kernel temporali utilizzati nell’equazione (5.20) delle reti ad impulsi. A sinistrala funzione η(t), che mostra l’inibizione provocata dall’AP del neurone stesso, a destra la funzione ε(t) che invececaratterizza la facilitazione prodotta da un AP presinaptico.

definito l’insieme dei tempi in cui parte un suo AP:

Aidef=

{

t(f)i ; f = 1 . . . n

}

= {t : xi(t) = θ} (5.19)

dove f e il contatore del numero di AP, dall’inizio della simulazione sino a quello corrente n, θ e il valoredi soglia dell’attivazione x del neurone oltre cui avviene l’AP. Per l’attivazione di un neurone i dello stratok ora, al posto della (5.11), viene utilizzata l’equazione seguente:

xi,k(t) =∑

t(f)i ∈Ai,k

ηi,k

(

t− t(f)i

)

+ wk,i

t(f)i ∈Ai,k

~εk−1

(

t− t(f)i

)

(5.20)

dove η e ε sono delle funzioni nel tempo standard, i cosiddetti kernel, la prima esprime l’effetto degliAP precedenti del neurone stesso, mentre la ε e il contributo degli altri AP ai dendriti del neurone xi. Inparticolare nella (5.20) compare il vettore ~εk−1, dove ogni elemento e il kernel η relativo agli AP prodottidai neuroni dello strato precedente k − 1. La Fig. 5.27 mostra la forma d’onda tipica dei due kernel, chepossono essere implementati con svariate funzioni analitiche. Mediante l’equazione (5.20) e determinabilelo stato di ciascun neurone nel tempo, che naturalmente e trattato come variabile continua. Fra i vari modidi mettere in conto la sincronia temporale uno particolarmente semplice prevede una variabile aggiuntivac, compresa tra 0 e 1, che misura la quantita di correlazione tra i neuroni desiderati, come proporzione diquelli il cui impulso e iniziato entro una frazione di tempo prefissata, tipicamente 5 millisecondi. Questitipi di modelli sono relativamente recenti, vanno genericamente sotto il nome di reti ad impulsi (pulsedneural networks o spesso anche spiking neural networks), si parla piu specificatamente di synfire chains peri modelli in cui la sincronia temporale gioca il ruolo principale [Abeles, 1991]. Esistono ulteriori variantied evoluzioni, una rassegna e in [Maass and Bishop, 1999].

Si e conclusa la rassegna dei capisaldi su cui puo contare la nuova matematica neuronale con la puntapiu avanzata, che incorpora diverse risposte alle critiche di implausibilita biologica sollevabili nei confrontidei modelli visti precedentemente. In realta anche qui ci sarebbero diversi commenti. Potrebbero in effettiripetersi perplessita analoghe a quelle inizialmente rivolte verso i modelli statici: quella della sincronia esicuramente l’interpretazione piu semplice delle relazioni temporali, non e che limitando ad essa si perdaqualcosa di importante? Alcune evidenze per esempio sono emerse riguardo l’uso da parte del cervello didifferenze di fase nella codifica di mappe spaziali nell’ippocampo [O’Keefe and Recce, 1993]. L’ipotesipiu estrema e che ogni intervallo temporale tra un AP e l’altro contribuisca a trasportare significato, conla conseguenza che i modelli neuronali statici siano veramente una pallida parvenza di quello che succe-de nel cervello. Ci sarebbero a sostegno argomenti di economia cognitiva. Supponendo che un neuronepossa emettere AP con frequenze da 0 a 200 al secondo, e che gli intervalli possano avere imprecisioniintorno ai 5 ms, nel caso della codifica in frequenza (modellabile staticamente), integrando in un intervallodi 100 ms, tipico di un processo cognitivo semplice, si possono codificare 20 stati diversi. Se invece iltempo si insinuasse nella codifica, con il contributo di ogni intervallo, le condizioni sarebbero 220, pocopiu di un milione. Quel poco che si sa riguardo questa posizione estrema e stato recentemente raccolto in[Rieke et al., 1997].

Tornando alla sincronia temporale, come si diceva e un argomento su cui e in atto un notevole approfon-dimento, e c’e ampio consenso perlomeno sul suo impiego diffuso da parte del cervello, semmai sul come e

Le Matematiche del Linguaggio 157

perche viene utilizzata, le posizioni non sono unanimi. Piu specificatamente, elenchiamo qui alcuni aspettiesplorati finora.

1. Esistono meccanismi per utilizzare la sincronia temporale: la capacita dei neuroni di attivarsi proprioin funzione di coincidenze temporali [Marsalek et al., 1997].

2. La sincronia temporale puo essere indotta in neuroni dotati di recettori NMDA mediante il controllodel blocco prodotto dagli ioni di magnesio (vedi §5.2.2) [Singer, 2000].

3. Strutture di sincronia temporale possono essere memorizzate, per lo meno e stato dimostrato a livellomodellistico [Shastri and Ajjanagadde, 1993].

Una conseguenza filosofica notevole e che un meccanismo come la sincronia temporale pone una di-scontinuita al tempo fenomenico. Intervalli temporali inferiori a decine di millisecondi, infatti, non possonopiu comportare il senso del susseguirsi di eventi, come e nostra normale percezione su scale maggiori, masignificano ben altro, come rapporti di relazione tra proprieta di enti concettuali. Qualcosa del genere e sem-pre stato ben conosciuto, per esempio che differenze temporali dell’ordine appunto di decine di milliseconditra i due centri sensoriali uditivi, non portano all’esperienza fenomenica di una successione temporale, bensıdi una struttura spaziale (fenomeno sfruttato nei sistemi di riproduzione stereofonici).

158 CAPITOLO 5. LA MATEMATICA DEL CERVELLO

Capitolo 6

Le funzioni linguistiche dei neuroni

Nel capitolo precedente si e cercato di fornire un quadro essenziale di quei risultati della computationalneuroscience in cui sono rintracciabili momenti fondativi di una matematica neuronale. Del linguaggio,tema di questa ricerca, si e parlato poco. La ragione e semplice, anche se puo disturbare: non c’e nessunadifferenza tra i meccanismi basilari di calcolo dei neuroni che processano il linguaggio e tutti gli altri. Sie sottolineata varie vole, soprattutto nel capitolo 5, la molteplicita e la complessita dei processi anche piuelementari che danno vita al calcolo in un neurone, non e quindi da escludere che un giorno possa esserescoperta qualche peculiarita biologica davvero unica delle reti che elaborano il linguaggio, appare comun-que veramente difficile l’ipotesi di una differenza radicale rispetto ai capisaldi dell’attivita neuronale cosıcom’e nota adesso e comune a tutte le cellule cerebrali, quali l’AP, la facilitazione e l’inibizione sinaptica,e cosı via.

Il modo come questi meccanismi di base possano combinarsi dando forma a calcoli a piu alto livelloe del tutto nuovo in matematica, esula dai suoi piu consolidati sviluppi quali teoria dei numeri, algebra,topologia, analisi, teoria della calcolabilita e complessita e altro. Ecco quindi l’esigenza di una matematicaspecifica, che non puo che essere indifferenziata per le diverse reti del cervello (a dire la verita qualchedistinzione e gia stata fatta, per esempio riguardo le particolarita strutturali della neocorteccia, vedi 5.2.3,ma sempre di ordine molto generale).

E una motivazione, come si diceva, ragionevole ma che puo non piacere, un punto che probabilmentemolti desidererebbero veder confermato e l’unicita del linguaggio, la sua specialita, la sua esclusivita, chequindi vorrebbe anche una matematica tutta particolare. Disturba l’idea di una matematica condivisa siadalle reti che calcolano strutture sintattiche di clausole complicate o inferenze in ragionamenti astratti, cheda altre che producono sensazioni di prurito e controllano i movimenti della mano per andare a grattarsi.La promisquita di questa matematica ha i suoi vantaggi, non si rischia di rendere il linguaggio un oggettoastratto, chiuso in una rete di regole formali dove non trova spazio tutto il resto, che e proprio cio che nellinguaggio trova rappresentazione. Con il calcolo neuronale invece la continuita risulta diretta e immediatatra cio che e linguistico e cio che non lo e, non solo, non esiste piu nemmeno una linea di demarcazione trai due ambiti.

Naturalmente le specificita del linguaggio ci sono, probabilmente risulteranno le piu ardue da ricondurreal calcolo elementare dei neuroni, sicuramente richiedono profondi sviluppi matematici, che pero potrannoessere costruiti solamente sul substrato dei concetti gia introdotti, le modalita di passare dal singolo neuronead un concetto astratto di rete che mediante un’aggregazione significativa di dispositivi elementari realizzauna funzione complessiva. La matematica del linguaggio si organizzera tramite questi strumenti, dandoopportune interpretazioni agli oggetti matematici che li costituiscono, componendo tramite essi sistemi alivello superiore. Di tutto cio si occupera il presente capitolo.

Se gia parlando in generale delle matematiche dei neuroni si e piu volte segnalata la provvisorieta e laparzialita dello stato dell’arte, qui l’avvertenza diventa ancor piu categorica: non esiste attualmente una ma-tematica neuronale del linguaggio. Ci sono diversi frammenti in svariati formati: modelli, interpretazioni,simulazioni, ipotesi teoriche; qui si e cercato di raccogliere quelli soggettivamente ritenuti piu importanti.Con questo non si vuol certo sminuire l’importanza dei risultati che verranno passati in rassegna, al contra-rio alcuni di essi hanno avuto ripercussioni formidabili, cambiando radicalmente l’idea dominante delle reti

160 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

neuronali di poco piu di dieci anni fa, mostrando fatti matematici sorprendenti e inattesi.Si e ritenuto utile raggruppare questi frammenti di matematiche in tre sezioni per farli corrispondere, pur

con una certa arbitrarieta, ad altrettanti grandi momenti di discussione sul linguaggio presentati in questaricerca: la logica, la sintassi e il significato lessicale. Sono tutti sviluppi che rientrano in un periodo divent’anni, ma cadenzati proprio al contrario rispetto all’ordine cronologico di quei tre domini, seguito neiprimi capitoli di questa ricerca. D’altronde pare tipico delle neuroscienze ribaltare tante cose, ci si adeguae le sezioni che seguono riguarderanno per primo il significato lessicale e per ultima la logica.

6.1 Le parole nei vettori

Le neuroscienze mostrano che dentro il cervello ci sono impulsi elettrici e dispositivi che li elaborano, conla matematica i segnali possono diventare numeri e le elaborazioni calcoli, non ci sono invece parole. Non equindi immediato conciliare questo scenario con gli insegnamenti di una buona parte della recente filosofiadel linguaggio, che ha evidenziato come questo per l’uomo non sia solo il mezzo per comunicare, ma forseancor prima la modalita con cui organizzare la conoscenza del mondo esterno. Non e neppure un puntodi vista necessariamente alternativo, che il formato proposizionale non sia compatibile con gli elementi dicalcolo biologici in grado di creare rappresentazioni non esclude affatto quel ruolo per il linguaggio, richiedepero una adeguata teoria di come dalle forme di rappresentazione neuronale il linguaggio dia struttura almodo umano di intendere il mondo.

Per questo e anzitutto necessaria un’adeguata comprensione della modalita di rappresentazione e dicodifica da parte dei neuroni, per poi vedere che ruolo giocano gli elementi piu atomici del linguaggio, leparole.

6.1.1 Prototipi e attrazioni

Quando una rete a strati viene addestrata i sui pesi sinaptici si modificano in modo che l’uscita della re-te, da valori inizialmente casuali e incorrelati con l’ingresso, gradualmente produca risultati significativi,coerenti con la funzione attesa da quella rete. A tale processo corrispondono dei fatti matematici, indivi-duabili negli spazi vettoriali che caratterizzano la rete, che costituiscono l’elemento piu importante delleinterpretazioni teoriche sulla modalita di rappresentazione dei neuroni. I principali fautori di questa teoriasono stati Patricia e Paul Churchland, con quella che inizialmente e stata chiamata state space neuronalrepresentation [Churchland, 1986a] o anche tensor network theory [Churchland, 1986b, §10.3] e in seguitoprototype activation model [Churchland, 1989]. Il punto iniziale consiste nel vedere uno strato di neuroniin forma vettoriale, come un’unita informazionale composta da varie componenti, che sono proprio i valoridi attivazione dei neuroni in quello strato. La singola cellula in generale non si considera dotata di un potererappresentativo autonomo, ma e solamente una certa collezione di elementi interconnessi che puo acquisiresignificato. Questa posizione a sua volta ha preso alcune denominazioni convenzionali, come sparse codingo population coding, contrapponendosi a quella diffusa fino agli anni ’80, scherzosamente divulgata comela grandmother cell. Prima si riteneva al contrario che l’organizzazione delle reti nel cervello fosse gerar-chica, con i neuroni adibiti ai processi piu a basso livello portatori di informazioni su caratteristiche moltospecifiche (quali orientazione o componenti di colore in una determinata zona dell’immagine retinale), pro-cessate in modo da condurre a rappresentazioni sempre piu composite, ciascuna affidata ad un neurone chesi comporterebbe da simbolo, per cui esisterebbe pure una singola cellula che diventa attiva quando davantiagli occhi c’e il viso della nonna [Barlow, 1972].

Anche se sono state le matematiche neuronali, in particolare le reti a strati, a suggerire una drasticarevisione di questo, paradossalmente queste reti richiedono spesso un’interpretazione di ingresso e uscitaproprio a livello di singoli neuroni. E una forzatura fuorviante, ma necessaria per ritagliare porzioni di retedi interesse, si e gia avuto modo di sottolineare (vedi p. 148) come la stonatura piu marcata rispetto alle retivere, secondo chi scrive, sia proprio la definizione di input e output. Negli organismi le uniche accettabiliaccezioni di input sono i segnali ai neuroni sensoriali, mentre quelle di output sono i comandi verso imuscoli. Comunque questa pecca non impedisce alle reti a strati, grazie alla formalizzazione matematica,di esibire il fenomeno di cui si vuole parlare, purche si trascurino quegli strati anomali che sono ingressi euscita, e quindi si rivolga l’attenzione agli strati intermedi, immuni da forzature semantiche.

Le Matematiche del Linguaggio 161

1 2 3

commestibile non−commestibile

x x x

compattezzadurezzabluverderosso simmetria

dolcezzaacidita‘

Figura 6.1: Esempio di rete che classifica oggetti possibilmente commestibili, provvista di tre neuroni nello stratonascosto.

Per rendere il discorso piu concreto, ci si riferisce ad un esempio, in Fig. 6.1, un’ipotetica rete astrati la cui funzione e di calcolare, in base a diverse caratteristiche, la commestibilita o meno di oggetti.Non a caso si e ipotizzato uno strato intermedio composto da tre neuroni, x1, x2 e x3, dati i nostri limiticognitivi nel ragionare con piu dimensioni. Gli otto neuroni dello strato d’ingresso come detto devonoessere caricati di significato, lo si e fatto sulla falsariga di segnali sensoriali, anche se non certo elementari,cosı abbiamo tre componenti di colore (rosso, verde e blu) prevalenti nell’oggetto, alcune caratteristiche diforma, altre da sensazioni tattili ed infine da sensori di gusto. Tutti questi componenti sono naturalmentesegnali, numeri nel modello a strati. Ogni volta che viene presentato un input, gli otto valori vengonotrasformati in altri tre, le attivazioni dei neuroni intermedi. E possibile rappresentare questi ultimi valori inuno spazio tridimensionale, come viene fatto nella Fig. 6.2, in cui vengono raccolti contemporaneamente leposizioni risultanti dalla presentazione di tanti input diversi. Come in tutti i procedimenti di addestramentoi valori iniziali dei pesi sinaptici sono casuali e di valore basso. In queste condizioni la rete non esplicanessuna funzione specifica, la distribuzione delle attivazioni sara tipicamente indifferenziata in tutto lospazio, come nel caso del grafico piu a sinistra.

x 2

1x

3

x 2

1x

x 2

1x

3 3x x x

Figura 6.2: Evoluzione dello spazio di attivazione dei neuroni nello stato intermedio di una rete a strati. Nel graficoa sinistra la posizione delle risposte corrispondenti agli input del set all’inizio dell’addestramento. Al centro una faseintermedia dell’addestramento con la formazione iniziale di cluster. A destra la situazione finale, con l’aggregazionedelle attivazioni intorno ad alcuni cluster, i cui centri sono gli attrattori dello spazio.

Cluster e categorie

Man mano che le connessioni sinaptiche vengono modificate a seguito della presentazione di un input(qualunque sia il procedimento specifico adottato), la disposizione delle attivazioni nello spazio diventameno uniforme. Si formano, come visibile nel grafico di centro della Fig. 6.2, delle aree in cui tendonopreferenzialmente a raggrupparsi certi input, tecnicamente cluster. Alla fine dell’addestramento l’effettoe vistoso: lo spazio vettoriale e prevalentemente vuoto, tranne pochi punti di accumulo, attorno a cui siraggruppano le attivazioni risultanti dai diversi input, come nel grafico piu a destra. Si e prodotta una

162 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

iterazioni

Err

ore

Figura 6.3: Il grafico a sinistra mostra l’andamento dell’errore medio in uscita della rete, ai diversi passi dell’addestra-mento. Le linee verticali tratteggiate indicano i momenti dell’addestramento a cui si riferiscono i tre grafici di Fig. 6.2.A destra e mostrata indicativamente la funzione di errore rispetto a due dei parametri sinaptici prevalenti della rete.

categorizzazione degli oggetti cui si riferivano le caratteristiche di input: tali oggetti sono rappresentatinella rete come appartenenti a distinte categorie. Anche se tutto cio e avvenuto unicamente sulla basedelle otto proprieta utilizzate come input, nessuna di queste risulta determinante per l’appartenenza o menoad una categoria, e nemmeno una determinata loro combinazione. Il clustering avviene in uno spazioastratto, quello tridimensionale delle attivazioni di x1, x2 e x3, dove le caratteristiche originarie sono statemanipolate in modo non lineare, dando luogo ad un vettore le cui componenti sono semplicemente le piuidonee a separare le categorie degli oggetti dati.

Gli attrattori

Ci sono subito alcune osservazioni importanti su questo fenomeno. Non bisogna dimenticare che in questomodello la determinazione dei pesi sinaptici e il risultato di un addestramento supervisionato, in funzionequindi della comparazione tra output corretti ed effettivi, che riguardano la classificazione commestibile/non-commestibile. I tre neuroni intermedi hanno prodotto quindi una categorizzazione che e non e solamentefunzione delle caratteristiche degli oggetti in input, ma anche di questa particolare funzione da svolgere.Il principio e coerente con i sistemi biologici, la categorizzazione non e intrinseca negli oggetti, ma e ilrisultato combinato delle capacita sensoriali di cui e dotato l’essere vivente e delle finalita che possono rap-presentare per lui tali oggetti. E cio che, nei vincoli ristretti del modello matematico, si e tradotto nei dueneuroni fittizi di output, che nel caso specifico segnalerebbero la rispondenza degli oggetti a scopi alimen-tari. Non c’e nulla di magico nella formazione dei cluster, e la rilevazione statistica delle similarita salientirispetto a determinanti fini, faccenda per cui le reti neuronali sono veramente ben predisposte, ma che cer-tamente ha le sue limitazioni. Le caratteristiche di ingresso possono essere carenti o poco discriminanti,oppure lo spazio delle attivazioni puo avere dimensioni insufficienti; infatti negli esperimenti con le reti astrati spesso puo non instaurarsi nessuna categorizzazione.

La misura che fornisce il polso dell’adeguatezza di una rete e l’errore medio sul campione di input.Quando le attivazioni tendono a ripartirsi in maniera da individuare categorie nello spazio, e come se icentri dei cluster agissero da attrattori, punti privilegiati in cui tendono a posizionarsi i vettori, in corri-spondenza la funzione che esprime l’errore nello spazio dei pesi sinaptici presenta tipicamente un bacinodi attrazione. Nella Fig. 6.3 e mostrato l’andamento dell’errore medio durante l’addestramento, che di-minuisce progressivamente, e la forma della funzione di errore. Questa va presa del tutto indicativamente,perche a rigore richiederebbe uno spazio a dimensioni elevate (31 nel caso specifico), difficile da renderegraficamente, qui si sono utilizzate solo due componenti dei pesi sinaptici, in modo da far apprezzare laconcavita dove sono attratti i pesi neuronali in modo da produrre la categorizzazione ottimale. Nello spaziodelle attivazioni, gli attrattori sono caratterizzati da punti centrali, che spesso coincidono con la risultan-te di determinati tipi di input, sono le posizioni prototipali. Un input prototipo e quello piu tipico di unacategoria, che genera un’attivazione centrata rispetto al bacino di attrazione di tale categoria.

Gli attrattori hanno l’ulteriore caratteristica di permettere il riconoscimento di pattern di input distorti ocarenti, che possono produrre comunque un’attivazione nel cluster piu probabile, nell’esempio fatto anchese non ci sono a disposizione i valori del gusto, o della sensazione tattile, l’oggetto puo essere comunquericonosciuto in un certo cluster, se gli altri input sono sufficienti. Questa prerogativa fornisce potere predit-tivo al sistema rappresentazionale dei neuroni, in quanto le caratteristiche non disponibili vengono supplite

Le Matematiche del Linguaggio 163

x1 x1x1

x 2 x 2x 2

Figura 6.4: Pattern di attivazione dello strato intermedio in una rete che categorizza funghi buoni (rappresentati conpunti chiari) e funghi cattivi (punti scuri). A sinistra la disposizione dei pattern in risposta a tutti gli input del set, senzaaver effettuato nessun addestramento. Al centro la disposizione degli stessi pattern al termine dell’addestramento, nelcaso della rete senza linguaggio. A destra il risultato analogo, per il caso della rete con il linguaggio (da [Parisi, 1999]).

da quelle tipiche della categoria di cui si e supposta l’appartenenza, e una capacita di vitale importanza pergli individui.

Un principio generale con cui i neuroni acquisiscono capacita di rappresentazione del mondo sarebbeproprio il clustering negli spazi di attivazione neuronale, che assumono varie denominazioni: space state,coordinate space, phase space o feature space. Quest’ultima pur essendo comune e decisamente fuorviante:le dimensioni di questi spazi in generale non sono caratteristiche, nel senso che ben difficilmente corrispon-dono a proprieta definite nel linguaggio, anche se tutte sono in qualche modo correlate a certe caratteristichedi origine sensoriale. Viceversa sono i cluster degli spazi a poter avere significato linguistico, anzi ad esserela base del significato.

Il linguaggio, il sapore dei funghi

Naturalmente non tutti i cluster sono elementi del lessico, e probabile che un gran numero di rappresentazio-ni neuronali non abbia corrispondenza diretta con parole. E ragionevole l’ipotesi che la rappresentazione dicategorie con controparte lessicale, quindi in un contesto linguistico, abbia profondi effetti sulla formazionedei cluster.

In un semplice esempio, sempre legato alla gastronomia, ma limitato ai funghi, Domenico Parisi ha in-vestigato questi effetti, sperimentando due reti a strati simili, di cui una provvista solamente di input idoneialla percezione del fungo e output motori sufficienti per raggiungerlo, e un’altra con in aggiunta percezio-ne acustica e output fonatorio, sintetizzati essenzialmente da due neuroni ciascuno [Parisi, 1999, Cap. 3].Entrambe le reti possedevano solamente due neuroni nello strato interno, cosı che e possibile raffigurarein due dimensioni lo spazio di stato, come si puo vedere nella Fig. 6.4. L’addestramento nel caso dellarete piu semplice puo essere paragonato a quello di un essere non linguistico che deve imparare a sue spesela variabilita nei pregi gastronomici dei funghi. Per la seconda rete si puo paragonare ad un banbino che,quando vede un fungo, sente anche la voce di un adulto che dice qualcosa come cattivo o finferlo. Lacategorizzazione senza linguaggio e approssimativa anche se efficace ai fini della sopravvivenza: quell’or-ganismo non mangera piu funghi cattivi, ma la micologia non e il suo forte. Con il linguaggio si verificauna forza attrattiva molto piu marcata verso cluster ben definiti, che costituiscono chiare categorie.

I modelli di categorizzazione orientati al linguaggio sono cominciati con i lavori di Yves Chauvin,Kim Plunkett e Garrison Cottrell alla fine degli anni ’80, con architetture che unificavano una compo-nente percettiva e una fonatoria in uno strato di neuroni, secondo lo schema di Fig. 6.5 [Chauvin, 1989,Cottrell et al., 1990, Plunkett and Sinha, 1992]. Ci sono due componenti distinte, una che comprende tuttele componenti sensoriali non linguistiche, e una gli aspetti fonetici delle parole, ciascuna con un proprio stra-to interno, che proietta in un ulteriore strato interno condiviso. E interessante la similarita tra il clustering inquesti sistemi e la descrizione saussuriana degli elementi della lingua come partizioni nei due spazi continuidelle idee e dell’articolazione fonatoria [Saussure, 1916, p. 136 ed. it.]. Si tratta del modo piu essenzialedi modellare il fenomeno, purtuttavia in grado di mostrare l’emergenza dei fenomeni categoriali su unalimitata porzione di oggetti e nomi. Da questi primi tentativi si e evoluta una successione di modelli, diversi

164 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

input fonetico input percettivo

strato interno strato interno

strato categoriale

output percettivooutput fonetico

Figura 6.5: Lo schema di massima dei modelli di rete a strati di Chauvin, Plunkett e Cottrell che esibisconocategorizzazione di nomi. Ogni blocco e un generico strato neuronale.

in ambito piu psicologico che neuroscientifico, orientati a simulare processi caratteristici dell’acquisizionedel lessico nei bambini, come nel gruppo di Linda Smith [Smith et al., 1992, Smith, 1999].

Non ci si sofferma sui dettagli di questi ulteriori sviluppi, ritornando invece sul principio teorico dicategorizzazione della realta esibito nello spazio delle attivazioni.

Prototipi e prototipi

Paul Churchland ha speculato che l’effetto di possibile attrazione di un vettore neuronale da parte di unpunto prototipale, entro qualche spazio di stati, sia ampiamente generalizzato nel cervello, a diversi livellicompresi quelli piu astratti, e abbia tra i suoi piu vistosi correlati fenomenici il riconoscimento e la com-prensione. Come esempio del primo si puo pensare ad un oggetto visto parzialmente, di cui man mano siva delineando la forma: all’inizio le sue componenti percettive non producono attivazioni definite in nes-sun cluster categoriale, finche ad un certo punto gli indizi visivi sono sufficienti ad attrarre le attivazioniverso un punto prototipale definito, e l’oggetto e improvvisamente diventato familiare, ha un suo nome,e riconosciuto. Analogamente un certo ragionamento inizialmente incomprensibile puo, con aggiunta dialtri elementi, suscitare ad un certo punto un’aggregazione di attivazioni che trovano una corrispondenzaprototipale, e allora appare come chiaro, e compreso. Churchland propone una tassonomia indicativa, dicui si riassumono qui a seguito solamente alcuni tipi:

• prototipi di cluster di caratteristiche, quelli propriamente costituitivi delle categorie lessicali;

• prototipi eziologici, in cui alcune componenti vettoriali sono caratterizzate da una costante se-quenzialita temporale, che quando viene raggruppata in cluster costituisce il correlato cognitivo delrapporto di causalita;

• prototipi di funzionalita esplicativa, che racchiudono rappresentazioni delle conseguenze rispettoa certe azioni. Sono in sostanza analoghi ai precedenti, ma con finalita invertita, in quelli eziologicil’explicandum e il punto di arrivo, qui e quello di partenza, il cui arrivo e invece una scelta di azione;

• prototipi sovraordinati sono quelli in cui lo spazio di stato e il prodotto di input che a loro voltaderivano da attivazioni prototipali precedenti. Sarebbero i responsabili dei processi di comprensioneesplicativa piu astratti, in sostanza della produttivita scientifica umana.

Chiaramente c’e sotto una tesi epistemologica forte, sulla natura della spiegazione scientifica, cheprende ispirazione dai fatti della matematica neuronale, ma non puo attualmente trovare adeguate con-ferme in essa, non si entra in merito, rimanendo sul primo esempio di prototipo, quello che riguarda larappresentazione del significato lessicale.

In questo campo la parola prototipo e di casa, per la nota teoria inizialmente proposta da Eleanor Rosche successivamente elaborata ed ampliata da diversi altri [Rosch and Lloyd, 1978]. E una delle prime criti-che alla formalizzazione matematica classica delle categorie come insiemi (vedi p. 119), di cui la teoria deiprototipi vuole essere l’alternativa cognitivamente piu plausibile. Non piu quindi l’insieme degli elementi,la cui appartenenza e stabilita in base a regole logiche, ma un elemento tipico, il prototipo, che accentra inmodo significativo le proprieta di quella categoria, come nella sintesi pittorica di Fig. 6.7 nel caso dei gatti.Altrettanto famoso, se non piu, e il concetto di somiglianza di famiglia di Wittgenstein, ispiratore di recenti

Le Matematiche del Linguaggio 165

Figura 6.6: La categoria dei gatti nella teoria insiemistica (a sinistra) o in quella dei prototipi (a destra).

teorie sulla categorizzazione che condividono con quella dei prototipi la critica alla visione insiemistica,un confronto e una rassegna sul tema e in [Violi, 1997]. Wittgenstein piu che una sua teoria della catego-rizzazione aveva voluto mettere in evidenza come nel significato lessicale rientrino similarita tra referentidiversi, ben difficili da esprimere mediante regole o liste di proprieta comuni.

I prototipi neuronali sono un’altra cosa, un fenomeno a livello matematico che rivela un meccanismobasilare sul processo generale di categorizzazione delle reti e quindi sul loro potere rappresentazionale.Quando ci si focalizza su un determinato livello di organizzazione neuronale, quella per intendersi del primotipo di Churchland, i prototipi nei neuroni possono agevolmente spiegare diversi fatti che sono centrali sianelle teorie linguistiche legate ai prototipi che alle somiglianze di famiglia. Per esempio la dimensioneverticale delle categorie, cioe l’esistenza di categorie graduate rispetto alla loro estensione, con le piu ampiecomprendenti al loro interno altre piu ristrette, come animale, uccello e gabbiano. In terminineuronali queste gradazioni sono riconducibili a diverse scale negli spazi di stato, oppure a loro proiezionisu sottospazi lineari.

x 2

1x 1x

x 2

1x

x 2

3 33

frutta melevegetali commestibilix x x

Figura 6.7: Pattern di attivazione dello strato intermedio in una rete che categorizza oggetti vegetali commestibili. Leposizioni dei cluster prototipali sono indicati direttamente tramite l’immagine stilizzata dell’oggetto stesso. Nel graficoa sinistra e indicata la superficie di separazione, nello spazio delle attivazioni, tra le categorie della frutta e degli ortaggi.Il grafico al centroe uno zoom nella prima categoria. Al suo interno una regione caratterizza la categoria di base dellemele, che e riportata in scala ingrandita nel grafico piu a destra, qui i cluster prototipali corrispondono a diverse varietadi mele.

Si puo illustrarlo con una rete non dissimile da quella di Fig. 6.1, rimanendo in tema alimentare,specializzata pero per vegetali. I neuroni nello strato intermedio sono sempre solo tre per comodita di vi-sualizzazione. Il risultato del processo di clustering e mostrato nella Fig. 6.7, mescolando rappresentazionematematica ed iconica. I tre grafici sono lo stesso spazio, ma a scale diverse, in cui diventano di volta involta prevalenti cluster differenti, che corrispondono ad altrettante categorie. Nella scala maggiore abbiamouna partizione primaria dello spazio tra frutta ed ortaggi, in cui e assente un effetto prototipico lessicale:non c’e un rappresentante privilegiato di nessuna delle due classi. In una scala intermedia, che racchiude

166 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

Figura 6.8: Schema di una rete SOM nella funzione di mappa concettuale.

lo spazio della frutta, che complessivamente non pare avere un suo prototipo, mentre l’effetto e dominantea livello delle singole specie: mele, banane, ed e visibile nella scala maggiore anche per gli ortaggi. Al-l’interno di una stesso frutto possono esserci categorizzazioni di varieta, come per le mele nel grafico didestra.

In conclusione le caratteristiche salienti del fenomeno di categorizzazione neuronale che emerge dallamatematica delle reti a strati possono essere riassunte in questi punti:

• le entita del mondo vengono categorizzate non in base a loro proprieta oggettive, ma sulla basedell’interazione tra proprieta percepite ed economia giocata da tali oggetti nella vita dell’individuo;

• le categorie sono il risultato dell’esposizione dell’individuo all’ambiente e della predisposizioneneuronale a codificare similarita ricorrenti;

• anche se la loro formazione e caratteristica del periodo di sviluppo infantile, sono continuamenteaggiornate dall’esperienza;

• l’assestamento di una categoria comporta un vantaggio predittivo per l’individuo, e possibile il ri-conoscimento di un oggetto anche in base a input incompleti o distorti, e la supposizione delle suecaratteristiche non disponibili sulla base di quelle prototipali;

• non c’e un principio rappresentativo specificatamente linguistico;

• la categorizzazione e comunque modellata dal linguaggio;

• l’appartenenza ad una categoria in genere non e riconducibile a nessuna caratteristica percettiva, maavviene in uno spazio dove le dimensioni sono codifiche vettoriali non lineari di tali caratteristiche;

• tutte o alcune componenti dello spazio di stato possono a loro volta essere risultati di attivazioniprototipali, pertanto rappresentazioni astratte;

• esiste un punto centrale dei cluster, che agisce da attrattore della categoria, a questo punto prototipalepuo corrispondere o meno un’entita reale.

6.1.2 Mappe e relazioni semantiche

Il fenomeno dell’attivazione prototipale come appena visto e un principio che emerge dalla matematica neu-ronale, particolarmente illuminante riguardo la formazione del significato lessicale. E possibile, medianteulteriori analisi matematiche, e modelli piu sofisticati, approfondire tanti particolari che hanno precise corri-spondenze linguistiche, su cui non ci si e soffermati. Vi sono pero diversi aspetti del linguaggio che trovanospiegazioni poco convincenti o carenti in questo primo quadro. Per esempio, un aspetto centrale del signi-ficato sono le relazioni che si instaurano tra diverse parole e tra i diversi concetti, in particolare i legamitra termini o il contrasto che porta alla loro mutua esclusione. Non si tratta di effetti esclusi dal modelloa strati, che semplicemente registra similarita d’uso linguistico e di concorrenti stimoli percettivi, potendoquindi includere qualunque relazione purche sottesa dai campioni di input. Il punto vero e la mancanza nellamatematica di una visibilita specifica per quei fenomeni, ma lo scopo della matematica e proprio di rendereespliciti mediante i formalismi le meccaniche soggiacenti. Esiste nel ventaglio di aritmetiche neuronaliesposte nel Cap. 5 una possibile risposta, la rete SOM (vedi §5.3.3).

Le Matematiche del Linguaggio 167

Figura 6.9: La rete SOM come mappa semantica, nel primo esperimento di Ritter e Kohonen. E evidente un’orga-nizzazione topologia globale, in cui a sinistra ci sono uccelli, in alto erbivori, e a destra predatori, ma anche relazionilocali, per esempio l’aquila e il falco tra gli uccelli sono i piu vicini ai predatori terrestri.

E una risposta su due fronti: da un lato e un sistema per evidenziare relazioni, inoltre implementa unmeccanismo neuronale di tipo competitivo, il winner-take-all. Queste reti sono organizzate come mappe, incui le relazioni sono visibili in virtu di quelle topologiche tra i vari elementi. La competizione che si instaurapresentando un pattern di attivazione alla mappa produce sempre una singola risposta prevalente. Occorretener presente che in questa rete, piu ancora che in quelle a strati, l’interpretazione degli elementi di calcoloin termini di neuroni biologici sarebbe fuorviante, mentre la corrispondenza piu appropriata e in termini diaggregazioni importanti, come tipicamente le macrocolonne della corteccia striata (vedi §5.2.3). Con questaavvertenza e possibile considerare un’interpretazione abituale della SOM in questo contesto, come mappadi categorie concettuali, i cui input necessariamente devono provenire da livelli inferiori, tipicamente altremappe SOM, come in Fig. 6.8.

Una delle maniere piu comuni di utilizzare la SOM per l’analisi di fenomeni di semantica lessicale,in cui siano importanti le relazioni e i meccanismi competitivi, sono le cosiddette mappe semantiche, incui le celle, al termine del processo di auto-organizzazione della rete, vengono etichettate in base allerisposte a input corrispondenti a nomi. L’operazione e immediata, per via del meccanismo winner-take-all,quindi nella rete organizzata e possibile instaurare una relazione uno-a-uno tra parole e celle. Un esempioeloquente e la Fig. 6.9, di cui verra piu avanti spiegato il modo con cui e stata prodotta.

Per certi versi le relazioni topologiche possono ricordare le reti semantiche lessicali (lexical-semanticnetworks) [Collins and Loftus, 1975], in cui a differenza delle reti semantiche tout-court (vedi p. 90), gliarchi non sono relazioni logiche ma numeri, che misurano la distanza, in una metrica piuttosto arbitraria,tra concetti fatti coincidere con le corrispondenti parole. E una somiglianza che riguarda il formato concui vengono presentati i risultati, ma il procedimento che li ha generati e radicalmente differente. Nel casodelle reti semantiche i nodi sono messi in corrispondenza con concetti e parole in anticipo e in modo rigido,le connessioni tra i nodi sono fissate tramite una varieta di metodi statistici. Nella SOM al contrario nonc’e nessuna scelta a priori sulle etichette da assegnare alle celle, l’unico parametro da fissare e la dimen-sione della mappa. Per inciso anche questa scelta non e impegnativa, perche non tutte le celle debbononecessariamente diventare elementi vincenti in qualche competizione, quindi i risultati rimangono invaria-ti entro una certa gamma di scelte sulla grandezza delle mappe. Le relazioni tra le celle si determinatogradualmente mediante il processo di auto-organizzazione, utilizzando i vettori di ingresso, di dimensioniarbitrarie, dove devono essere codificate le informazioni sulle parole. L’attribuzione finale di significato allecelle non ha nulla di arbitrario, e rimane piu che altro una maniera comoda per interpretare i risultati, ma

168 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

mappa ortograficamappa ortografica

mappa semantica

mappa fonologica mappa fonologica

outputinput

Figura 6.10: Architettura di reti SOM nel modello di Miikkulainen.

da un punto di vista matematico l’effetto della presentazione di un certo input e il vettore di attivazione ditutte le celle della mappa. Infatti, anche se il meccanismo winner-take-all crea la tensione che facilita unaprevalenza di un’attivazione, nondimeno molti neuroni presentano valori significativi, che contribuisconoad una rappresentazione sparsa.

Una scelta che invece impegna il ricercatore che adotta il modello SOM riguarda il vettore d’ingresso.Questa matematica neuronale permette di investigare relazioni semantiche su mappe auto-organizzanti, mala sua pertinenza neuronale e strettamente legata a questo principio, mentre la scelta dello spazio vettorialedegli ingressi e del tutto arbitraria, e pone pesanti ipoteche teoriche sull’esperimento. Si mostreranno oraalcune di queste scelte, in alcuni esperimenti significativi condotti con la SOM.

Il primo tentativo del genere fu condotto dallo stesso Teuvo Kohonen e da Helge Ritter[Ritter and Kohonen, 1989], agli albori del modello SOM, sui sedici nomi di animali gia mostrati nellaFig. 6.9. Loro scelsero una codifica ispirata ai tipi semantici, definendo un vettore di trenta componenti incui entravano dimensione, presenza di pelo o piume, attitudine a cacciare, nuotare, e cosı via. Pur avendoaperto una nuova direzione di ricerca, questo approccio aveva alcuni problemi, anzitutto di ordine pratico,richiedendo una codifica manuale non praticabile per esperimenti su porzioni significative del lessico, maanche teorico. Le informazioni di ingresso infatti continuano ad avere carattere isolato, nella rappresenta-zione degli elementi semantici e assente qualunque rapporto fra di loro, sono tante collezioni indipendentidi caratteristiche.

Gli stessi autori introdussero poco dopo una strategia diversa, basata invece sul codificare nei vettori diingresso una forma di contesto delle parole, una sintesi statistica sulle occorrenze degli elementi lessicaliin un dominio di testi [Ritter and Kohonen, 1990]. E la via successivamente piu seguita, che ha permessol’applicazione della SOM a corpus linguistici consistenti, come il caso piu recente, sempre del gruppo diKohonen, sulle relazioni semantiche di parole nelle favole dei Grimm [Honkela et al., 1995].

Il modo piu elementare di realizzare matematicamente questo tipo di codifica e il seguente. Ogni parolawi avra associato un vettore ~xi definito da

~xidef= [p1 . . . pN s1 . . . sN ]

T (6.1)

doveN e la dimensione del lessico, pj e il numero di volte che la parolawj ha precedutowi e sk e il numerodi volte in cui wk ha seguito wi. Ci sono tante varianti sul tema, la (6.1) assume una finestra temporale diuna parola in avanti e all’indietro, e possibile usare finestre piu ampie, con contributi pesati a seconda delladistanza, inoltre possono essere interposte tecniche per ridurre le dimensioni del vettore, che sono sempremolto elevate.

Witt Loewe ha adottato una codifica vettoriale di questo genere, da lui definita proto-lessico, per ge-nerare mappe semantiche SOM su cui verificare effetti di priming [Lowe and McDonald, 2000]. Questofenomeno, prediletto negli studi recenti di psicolinguistica sperimentale, consiste nella predisposizione cheuna parola puo indurre nella scelta di altre parole, che dovrebbe rilevare qualcosa sulle relazioni concettua-li semantiche. Con i suoi esperimenti Loewe ha mostrato una buona corrispondenza tra la strutturazioneautomatica della SOM e quella ipotizzabile da casi empirici di priming. Un’altra considerazione emersadai suoi studi riguarda un punto sempre critico per questa architettura, la limitazione dell’organizzazione

Le Matematiche del Linguaggio 169

human moved hit

ate

doll

utensil

broke

block

glass gear

vase

foodfurniture

prey

predator

doglivebat

chicken

rock

curtain

woman

moved

vaselionwindowhatchet

paperwt forkhammer

cheese carrot desk

wolf

sheep spoon ball doll

girl boy

broke pasta bat

plate ate dog hitman

hatchet lion vase

fork

cheese carrot desk rock

wolf

sheep spoon ball

boygirlwoman

pasta

moved plate ate dog man hit

bat

chicken paperwt hammer

window

curtain

broke

doll

Figura 6.11: Esempi di associazioni nell’architettura SOM di Miikkulainen. A sinistra la rete ortografica di input, alcentro quella semantica, e a destra quella ortografica di output. Dalla forma ortografica dog in input vengono proiettateassociazioni attorno al concetto dog, notare vicino il contenuto semantico livebat, necessario a disambiguare la formasimbolica bat dai suoi altri sensi (bastone, battuta di baseball, ammiccare, e altri) mentre il concetto doll generaun’associazione centrata intorno alla forma fonetica di output doll.

topologia a pochissime dimensioni, tipicamente due. E lecito sospettare che la ricchezza di relazioni all’in-terno del lessico possa veramente trovare una strutturazione in uno spazio del genere. Con specifiche analisistatistiche invece Loewe ha mostrato che, nonostante lo spazio vettoriale supportante i raggruppamenti les-sicali sia enorme (migliaia di componenti), quello risultante, la cui topologia racchiude effettive relazionisemantiche, sia sorprendentemente a bassa dimensionalita.

Un’architettura piu elaborata e quella proposta da Risto Miikkulainen associando mappe SOM diverseper i piani ortografico, semantico e fonologico [Miikkulainen, 1997]. Il primo ha caratteristiche visuali erappresenta le similarita nella forma scritta delle parole, questa codifica pone meno problemi per la relativastabilita dei caratteri scritti. Per la rete fonologica puo venire utilizzata una base vettoriale particolarmentesofisticata, grazie ad un settore specifico di ricerca, qui non trattato, che riguarda proprio le caratteristicheacustiche delle parole, lo stesso Kohonen ha inaugurato una lunga serie di studi su questo tema mediante laSOM [Kohonen, 1988]. E per la componente semantica che la scelta ha implicazioni teoriche piu pesanti.Anche qui l’orientamento e per una codifica della contestualita, sulla base di corpus, ma con un procedimen-to piu sofisticato rispetto alle semplici statistiche di parole del tipo visto in (6.1). Si tiene conto anche delruolo sintattico delle parole, usando un modulo neuronale aggiuntivo, che verra esposto dettagliatamente in§6.2.3. Inoltre il modello prevede per le interfacce ortografiche e fonologiche due mappe ciascuna, dedicateall’input sensoriale, corrispondenti alla lettura o all’ascolto, e all’output motorio, per la produzione scrittooppure orale. Uno schema e in Fig. 6.10.

Il processo di auto-organizzazione procede secondo i principi matematici della SOM, ma con alcu-ne complicazioni dovute alla presenza contemporanea di piu mappe. I legami tra esse sono sempre di tiposinaptico, con pesi numerici modificati durante l’apprendimento. Le mappe vengono addestrate simultanea-mente, presentando i simboli nelle diverse modalita e le categorie semantiche. Oltre all’auto-organizzazionedelle diverse mappe, emergono spontaneamente le appropriate associazioni tra mappe, che alla fine condu-cono a legami preferenziali tra simboli e cluster concettuali. Nella scelta del corpus vengono presi inconsiderazione fenomeni di omonimia e sinonimia, per cui nella situazione finale le associazioni tra mappesaranno di tipo multiplo, ma sempre con un numero ridotto di legami. Tramite questo sistema neuronalesono stati simulati effetti di priming, ma soprattutto diversi fenomeni di dislessia.

6.1.3 La componente visiva

Le reti SOM della sezione precedente hanno certamente ampliato la prospettiva sul linguaggio offerta dallematematiche neuronali, rispetto alle semplici reti a strati, includendo una piu perspicua rappresentazionedelle relazioni semantiche. Per strada hanno perso pero una componente altrettanto importante: il legame

170 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

linguaggio

gattocane

gomitolo

topo

cuccia

miagolare

graffiare

Figura 6.12: Il significato della parola gatto, pur essendo largamente determinato da relazioni semantiche interne allinguaggio, richiede una componente non linguistica, essenzialmente visiva.

tra significato ed esperienza percettiva. Negli ultimi modelli presentati nelle rappresentazioni semantichepossono confluire solamente quelle regolarita che emergono dalla co-occorenza delle parole nel loro uso,disancorato dalle esperienze percettive che in realta contribuiscono alla formazione del significato (se nonper la percezione del testo scritto o della forma sonora del parlato, che non sono del tutto incorrelati con ilsignificato).

Si ricordera che questa carenza era stata una delle pecche principali rimproverate alle matematiche dellinguaggio classiche (vedi §4.3.2). Nel caso delle matematiche neuronali si tratta solamente di una parzialitanella prospettiva di alcuni modelli, non certo di una carenza intrinseca, al contrario, l’uniformita di calcolodei neuroni risulta vantaggiosa nell’integrare funzioni diverse.

Una delle componenti non linguistiche fondamentale per una larga categoria di nomi e quella visiva,come in Fig. 6.12 e difficile poter dire di comprendere a pieno la parola gatto senza una sua connotazionevisiva.

Tra i primi modelli di acquisizione di parole con una componente visiva ci sono quelli di Chauvine Plunkett gia incontrati in §6.1.1, dove la parte visiva non e modellata in modo conforme alle modalitaconosciute dei sistemi cerebrali, ma gia confezionata sotto forma di caratteristiche estratte. Questa prassie stata a lungo indispensabile, per la proibitiva complessita di realistiche elaborazioni visive. Un primopasso in avanti e stato l’uso di input con un formato pittorico, come matrice di elementi luminosi, anchese di dimensioni estremamente ridotte, con una varieta di contenuti molto lontani da quelli tipici dellaretina. Questo e il trattamento della porzione di dati visivi da parte di Georg Dorffner, che in diversilavori ha rivendicato l’importanza teorica della percezione visiva nella formazione dei categorie semantiche[Dorffner, 1995]. Il suo modello, illustrato in Fig. 6.13, e una sorta di via di mezzo tra reti a strati e SOM. Visono due input, una codifica visiva basata su un’immagine a risoluzione molto bassa, in cui i valori dei pixelsono direttamente i neuroni di ingresso di una rete a strati, e una semplice codifica acustica delle sequenze difonemi, che alimenta una seconda e indipendente rete a strati. Entrambe sono dotate di un livello aggiuntivodi tipo particolare, denominato C-layer, che funziona un po’ come la SOM, perche e provvista di tutte le

input visuale

input acustico

strato semantico

C−layers

Figura 6.13: Schema del modello di Dorffner, con componente visiva e acustica.

Le Matematiche del Linguaggio 171

tartaruga

cavallo

sportoisepuntini

strisce zebra

Figura 6.14: Le “immagini” usate nel modello di Cangelosi et al. . Nonostante l’estrema semplicit a c’e la separazionedi caratteristiche primitive diverse, come la forma (a sinistra) e la tessitura (al centro).

interconnessioni laterali dei neuroni, ed implementa un meccanismo competitivo. Per ogni ingresso quindi,tendera ad organizzarsi un solo vincitore su ciascuno di questi strati, inibendo gli altri. Tutte le attivazionisono poi unificate in uno strato superiore, dove avviene la categorizzazione semantica. Questa rete dimostrasia effetti prototipali, come nelle reti a strati, che di relazioni semantiche e competitivita tra riconoscimentiambigui, caratteristiche della SOM. La sua limitazione e chiaramente nella sua estrema essenzialita, chenon consente verifiche empiriche su porzioni consistenti del linguaggio.

Un’immagine a bassa risoluzione e usata come input visivo anche in [Cangelosi et al., 2000], per un’ar-chitettura neuronale che simuli la categorizzazione linguistica, ma con un ulteriore progresso: viene inter-posto uno strato neuronale che funziona da campo recettivo (vedi §5.2.3, 5.3.3 e l’equazione (5.17)). Il tipodi immagine che puo venire processato e mostrato in Fig. 6.14 e naturalmente non pone nessun problema diriconoscimento. Nell’esperimento vengono usati, nella loro piu spinta rarefazione, concetti fondamentali dielaborazione di immagine come forma e tessitura. Per cui la forma stilizzata associata (con una buona dotedi fantasia) alla parola cavallo, se contiene la caratteristica visuale cui corrisponde la parola strisce,non e piu un cavallo, bensı zebra. Lo scopo e di provare due modi diversi di formazione di concetti,quando la semantica emerge dalla visione, formando categorie chiamate E-level, oppure quando si instaurain modo inferenziale su concetti E-level, nel caso in questione a seguito di una proposizione del tipo

la zebra e un cavallo con le strisce

e questi sono i cosiddetti concetti H-level.All’estremo opposto ci sono modelli che prendono in considerazione situazioni assolutamente realisti-

che, con la necessita pero di dedicare molti moduli del modello alla soluzione di problemi pratici di grandecomplessita, con strategie senza nessun riscontro biologico. E di questa categoria il modello di Deb Roye Alex Pentland, che prevede come input direttamente una telecamera e un microfono, e l’ambito speri-mentale e l’apprendimento del nome di oggetti da parte di bambini, grazie alle frasi degli sperimentatori[Roy and Pentland, 2002]. Questa configurazione e estremamente impegnativa, ma viene risolta soprattuttocon tecniche convenzionali nell’elaborazione del parlato e della visione. L’unica componente rilevante euna rete neuronale ricorsiva che permette di passare dai segnali acustici ai fonemi, mentre la visione si basasu sequenza di analisi tradizionali con risultato finale l’istogramma del contorno segmentato dell’oggetto.D’altronde non era negli scopi degli autori produrre un modello cognitivamente plausibile.

Le matematiche neuronali sono oggi in grado di fornire modelli della visione ben piu accurati e aderentiai meccanismi biologici, pur essendo ancora lontani da una comprensione piena di questo fenomeno. Qual-che esempio e stato brevemente descritto in §5.3.3, ma esistono modelli neuronali per buona parte delle areecerebrali coinvole, una recente rassegna in [Rolls and Deco, 2002]. La visione e uno dei compiti piu gra-vosi, che impegna nei primati il 50% dei neuroni dell’intera corteccia, la sua interazione con il linguaggioe complessa e in gran parte ancora da scoprire. Sicuramente ben poco puo essere spiegato vedendo parolee immagini come facenti parte di due moduli separati, in cui la prima e ridotta ad etichetta delle altre. Ilnesso tra parole e visione e invece ben piu stretto e operativo, come sottolinea Marconi:

In questa concezione ingenua [del rapporto tra percezione e competenza semantica] fa parte della com-petenza semantica un certo corredo di immagini mentali associate a parole: l’immagine di un cane, di untavolo, di un uomo che corre, etc. [...] Non e grazie all’immagine di un cane che sappiamo riconoscerei cani: e se un particolare cane non corrisponde a quella particolare immagine? E certamente questa unadelle ragioni per cui l’interfaccia tra linguaggio e percezione deve avere carattere procedurale;

[Marconi, 1997b, pp.173 e 177 dell’ediz. it.]

172 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

aroundabovebelow

leftright

onout of

throughover

source path end

input frames

in

TR

LM

Figura 6.15: Schema di massima del modello di Regier. Il tutto puo essere visto come una complessa rete a strati, incui l’input e costituito da diversi frame di visione e l’output dall’attivazione di una tra diverse possibili parole. Sonointerposte delle mappe che agiscono sulle due componenti nell’immagine, calcolando orientazioni e altre caratteristichespaziali.

E un insegnamento filosofico che risale allo schematismo kantiano, per ritrovarsi in Wittgenstein e Putnam.Le matematiche neuronali sono una strada percorribile per mostrare come funziona questa interfaccia.

6.1.4 Su, giu, dentro e fuori

In queste sezioni sulla rappresentazione neuronale del lessico, l’attenzione e stata rivolta finora soltantoalle parole nelle cosiddette classi aperte1, nomi e verbi ma soprattutto i primi, una fetta fondamentalema certamente parziale del linguaggio. E quindi doveroso concluderla descrivendo un modello pensatospecificatamente per parole di una classe chiusa, quella dei termini che denotano relazioni spaziali.

E un modello che inoltre, contiene qualche segno dell’indirizzo di ricerca auspicato alla fine della se-zione precedente, sull’impiego di una matematica neuronale adeguata per simulare la percezione visiva.E stato ideato da Terry Regier, all’interno del gruppo NTL (Neural Theory of Language) coordinato daJerome Feldman, il cui diretto ispiratore e Lakoff. Per quest’ultimo le parole che si usano per relazionispaziali hanno qualcosa di speciale: riguardano l’ambito linguistico piu direttamente legato alla corporeita,e contribuiscono a quell’insieme di metafore primarie su cui si appoggia una notevole parte del linguaggioe del pensiero umano. Non e il solo, l’ampia valenza dei concetti esprimenti localizzazione spaziale e illoro carattere primitivo quale diretta esperienza corporea e oggetto di analisi in [Violi, 1991].

Sono parole quindi da trattare con cure particolari, e Regier ha fatto del suo meglio, componendo unmodello piuttosto sofisticato e completo [Regier, 1995, Regier, 1996]. L’assunzione di principio e che ilsignificato di questi termini emerga da esperienze percettive, piu precisamente in alcune circostanze, doveesista un oggetto marcatamente principale, che possa fungere da riferimento statico nei confronti di un altro,eventualmente in movimento. La posizione di questo secondo e messa in corrispondenza con il primo, e lesimilarita di relazioni spaziali vengono progressivamente registrate ed infine categorizzate nel linguaggio.L’oggetto principale e simboleggiato con LM (LandMark), l’altro con TR (TRajector). L’ingresso della retee quindi costituito dal filmato di due oggetti, uno sempre statico che rappresenta LM, e un’altro, TR, che puomuoversi, l’animazione e resa semplicemente tramite una serie di frames, immagini statiche bidimensionaliindipendenti con stesso riferimento spaziale.

1nonostante l’apparenza matematica, e una nozione del tutto qualitativa: una classe aperta comprende molte parole, per esempiolo e quella dei manufatti, mentre una classe chiusa ne comprende poche, come per le espressioni di relazione temporale.

Le Matematiche del Linguaggio 173

lingua mixtec tedesco russo

equivalenteinglese

above on out from underneath

sini siki auf an iz-pod

TR

LM

TR

LM

TR

LM

TR

LMTR

TR

LM

Tabella 6.1: Esempi di termini spaziali nelle diverse lingue sperimentate nel modello di Regier, che differisconodall’inglese, con le corrispondenti immagini utilizzate per l’addestramento della rete.

Il sistema e schematizzato a grandi linee nella Fig. 6.15. Lo strato di neuroni in uscita corrispondealle diverse parole prese in considerazione dalla rete. Questo e interconnesso con lo strato sottostante, dovesono sintetizzate tre informazioni percettive riguardo LM e TR:

source la localizzazione iniziale di LM rispetto a TR;end la localizzazione finale di LM rispetto a TR;path la traiettoria disegnata da LM tra source e end.

E stato ritenuto che queste tre siano le uniche informazioni percettive indispensabili nel determinare leclassi di relazioni spaziali cognitivamente rilevanti e codificate nel linguaggio, assunzione che ha ottenutopoi conferma sperimentale. I dati source, end e path vengono costruiti dinamicamente man mano chevengono presentati i frame successivi dell’animazione, che passano attraverso una catena di processo basatasu mappe neuronali di tipo retinotopico (vedi §5.3.3). Un tipo di mappa contiene celle sensibili alle diverseorientazioni, mentre un’altra utilizza celle recettive simmetriche rispetto al centro. Entrambe sono duplicate,per simulare la focalizzazione su LM e TR.

Il radicamento della classe di parole per relazioni spaziali nella percezione implica che il principiodebba essere del tutto generale, per provarlo il sistema e stato testato su lingue diverse, che comprendonodifferenze di termini notevoli. Nella Tab. 6.1 sono mostrati alcuni esempi. Il primo, nelle colonne piu asinistra, e relativo a temini del mixtec, una lingua parlata nello stato di Oaxaca in Messico, che presentanotevoli differenze con l’inglese, e fa largo uso di metafore relative al corpo di animali. Ci sono due equiva-lenti dell’inglese above (italiano sopra): nel caso in cui l’oggetto sottostante sia piu largo che alto si usasini che indica la schiena di un animale, mentre se il supporto e piu alto che largo il termine appropriato esiki, che denota anatomicamente la testa. Per il tedesco e contemplata la differenza tra auf e an, entrambiresi dall’inglese on (e dall’italiano su), che si differenziano dal grado di orizzontalita della superficie diappoggio, se e marcato vale auf, mentre an si utilizza quando l’appoggio e su un piano prevalentementeverticale. L’ultimo esempio riguarda il termine russo iz-pod, che non ha diretto equivalente in inglese (enemmeno in italiano), denota un movimento ad allontanarsi dal riferimento, dal di sotto.

Questo modello si basa su un’architettura complessa, in cui si tiene conto di diversi fattori, riuscendocon successo a simulare l’emergenza della classe dei termini di relazioni spaziali in molte lingue, dandoconto di molte loro specificita. Occorre pero notare che per ottenere questi risultati si e fatto ricorso anchea mezzi che con la matematica neuronale non hanno niente a che fare. Per esempio nel determinare i valorisource, end e path, e comodo copiare direttamente le posizioni iniziali e finali dai frame di ingresso, eusare semplici funzioni matematiche quali minimo e massimo. E una scelta deliberata, secondo la filosofiadel cosiddetto connessionismo strutturale: se un processo cognitivo comporta dei passaggi che hanno unachiara corrispondenza matematica, e inutile far emergere questi calcoli necessariamente tramite neuroni,tanto vale esplicitarli direttamente. Il sistema si comporra alla fine da una rete macroscopica che segue leleggi della matematica neuronale, al cui interno ci sono pero dei calcoli diversi dettati da evidenze di tipocognitivo. Adottare questo principio grava comunque i modelli di assunzioni precise su come il cervelloopera, non derivanti da evidenze neurologiche bensı psicologiche, ed e noto come questa mossa non abbiamai fornito alcuna garanzia. Pertanto modelli come questo danno risultati limitati, non mostrano necessa-riamente come vanno le cose nella mente. Secondo Lakoff la maniera corretta di considerarli e come prove

174 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

matematiche di esistenza, in questo caso della capacita di un sistema neuronale dotato di visione di costruireil significato dei termini di relazione spaziale, ma il dettaglio dei meccanismi non e detto che concida tramodello e cervello.

6.2 Sintassi senza simboli

La sintassi e stata a lungo il campo di contrasto preferito dei cognitivisti classici nei confronti delle retineuronali, l’aspetto del linguaggio che piu sembrava contraddire i principi della matematica neuronale, lacui natura stessa pareva esigere regole deterministiche, modelli algoritmici, sistemi simbolici. La simbiositra grammatiche chomskiane e computazionalismo funziona grazie a certi principi di calcolo che manca-no nelle reti neuronali: l’esistenza di entita indicizzabili in cui puo essere identificato un contenitore eun suo contenuto, con possibilita di assegnazione specifica (vedi §3.2.2). Non c’e nulla del genere neisistemi di calcolo biologici, e questa caratteristica e correttamente ereditata dalle matematiche neuronali[Squire, 1987].

Questo fatto dovrebbe indurre non poche perplessita nei confronti dell’ipotesi che il processamento sim-bolico dell’informazione sia un modello del funzionamento della mente, ma per chi assuma tale posizionecome incontestabile si trasforma in una prova di inadeguatezza delle matematiche neuronali: siccome lamente deve essere un sistema simbolico, e visto che le reti neuronali non lo sono, ne consegue che nonpossono spiegare la mente:

So linguistic (and mental) representations must constitute symbol systems. So the mind cannot be a PDP2.

[Fodor and Pylyshyn, 1988, p. 13]

Piu precisamente l’handicap che inesorabilmente portano con loro i sistemi non simbolici sarebbe l’im-possibilita di trattare una sintassi linguistica. La sfera della cognizione, e quindi della comprensione lin-guistica, e vista come se presentasse due facce ben distinte, con la faccia sintattica perennemente oscura aineuroni:

There are [...] two questions that you need to answer to specify the content of a mental state: “Whichconcepts are ‘active’?” and “Which of the active concepts are in construction with which others?” Identi-fying mental states with sets of active nodes provides resources to answer the first of these questions butnot the second. [...] Since connectionists eschew postulating mental representations with combinatorialsyntactic/semantic structure, they are precluded from postulating mental processes that operate on mentalrepresentations in a way that is sensitive to their structure3.

[Fodor and Pylyshyn, 1988, pp. 9–10]

In effetti fino a quegli anni questo era un punto particolarmente debole dell’apparato matematico neuronale,non vi era ancora nessuna spiegazione di come questi elementi di calcolo distribuiti riuscissero a realizzarequelle elaborazioni sintattiche che sono costitutive della nostra padronanza linguistica.

Una diatriba simile ha riguardato la questione dell’innatismo della sintassi, ampiamente trattata in§3.1.3, anche se, a differenza della precedente, non c’e nessuna incompatibilita di principio tra la mate-matica neuronale e l’ipotesi che le capacita sintattiche dell’uomo siano innate. La carenza in questo caso edall’altra parte, sono i sistemi computazionali ad risultare particolarmente refrattari all’apprendimento, quelpoco di plasticita che possono offrire e l’adeguamento di algoritmi prefissati tramite un set di parametri. Per-tanto per la scuola chomskiana, una volta adottato il computazionalismo, non c’erano molte alternative. Perle reti neuronali, evolvere progressivamente una funzione anche complessa e del tutto naturale, anche se icomportamenti possono benissimo essere prefissati geneticamente, come probabilmente succede per alcuniaggregati di neuroni.

2Quindi le rappresentazioni linguistiche (e mentali) debbono costituire un sistema simbolico. Per cui la mente non puo essere unPDP.

3Ci sono [...] due domande a cui devi rispondere per specificare il contenuto di uno stato mentale: “Quali concetti sono ’attivi’?” e“Quali concetti, tra quelli attivi, sono in relazione con altri concetti?” Siccome i connessionisti si astengono dall’ipotizzare rappresen-tazioni con strutture combinatorie sintattico/semantiche, non potranno mai postulare processi mentali che operano su rappresentazionimentali in modo sensibile alla struttura.

Le Matematiche del Linguaggio 175

maschile femminile neutro plurale

nominativo der die das diegenitivo des der des derdativo dem der dem der

accusativo den die das die

Tabella 6.2: Il sistema degli articoli in tedesco.

6.2.1 La luna al maschile e il sole al femminile

E proprio dalla discussione sull’innatismo che scaturı uno dei primi esempi di reti neuronali per simulare fe-nomeni sintattici. Brian MacWhinney era, ed e tuttora [MacWhinney, 1999], convinto della sua insostenibi-lita, di fronte a tante evidenze contrarie di psicologia sperimentale dello sviluppo, e voleva trovare un model-lo matematico in grado di dimostrare l’emergenza di fenomeni linguistici dall’interazione ambientale. Il ca-so scelto fu l’apprendimento della morfologia flessionale degli articoli tedeschi [MacWhinney et al., 1989].

E un’acquisizione tutt’altro che semplice, per la poca intuitivita che traspare dal sistema, riportato inTab. 6.2. Gli articoli cambiano rispetto a tre fattori: genere, numero e caso, con molte ripetizioni, peresempio der e usato sotto determinate condizioni al maschile o al femminile, al singolare ma anche alplurale, e si ritrova in tutti i casi eccetto l’accusativo. La maggior difficolta riguarda il genere, anzitutto perla presenza in tedesco anche del neutro, ma per le scelte tra maschile e femminile non molto intuitive, comegia lamentava Mark Twain, trovando assurdo che in questa lingua il sole sia un oggetto femminile mentrela romantica luna maschile [Twain, 1935].

L’idea di MacWhinney era di mostrare come fosse possibile imparare a scegliere l’articolo appropriatograzie ad una serie di indizi linguistici, di natura sia fonologica, semantica e morfologica, rivelatori di generenumero e caso, noti dalla letteratura linguistica recente. Nessuno di questi segnalatori e affidabile, moltisono ambigui, ma l’esposizione al linguaggio consente di catturarne regolarita non esprimibili medianteregole, da appropriati dispositivi di calcolo. Come gia visto, nulla di piu appropriato delle reti neuralibiologiche, ma la disponibilita di matematiche per modellarle in quegli anni era ancora decisamente limitata,quindi la scelta non poteva che cadere sulle reti a strati.

Il modello, illustrato in Fig. 6.16, cerca di riprodurre in uscita una delle sei forme possibili per l’ar-ticolo, avendo come input la rappresentazione fonologica del nome che deve accompagnare, con qualcheinformazione aggiuntiva sul contesto in cui e presentato nel corpus. Vi sono inoltre delle codifiche essen-ziali di tipo semantico, per esempio se il nome si riferisce ad un essere umano che naturalmente abbia uncerto sesso, se sia una categoria superordinata, e cosı via. L’organizzazione interna prevede due primi stratiinterni separati per genere/numero oppure per i diversi casi grammaticali, che confluiscono in un altro stratointerno comune, prima di quello in uscita.

I risultati sono stati notevoli, non solo il modello ha dimostrato di poter imparare correttamente l’usodegli articoli, ma ha esibito molte caratteristiche del tutto analoghe a cio che succede ai bambini tedeschi

der die das den dem des

unita‘ fonologichesemantiche casi

strato interno genere/numerostrato interno casi

Figura 6.16: Schema del modello di MacWhinney. L’input fonologico e composto da 13 gruppi, ciascuno di 10neuroni, quello corrispondente all’ultimo fonema della parola e connesso con entrambi gli strati interni. Il gruppo diinput semantici e composto da 17 neuroni, altri 5 per il gruppo degli indizi di caso.

176 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

smell

movesee

think

existsleep

breaksmash

like

chaseeat

mouse

catdog

monster

liondragon

woman

girlman

boy car

bookrock

sandwich

cookiebread

plate

glass

Tabella 6.3: Il diagramma a clustering gerarchico binario dei vettori di attivazione dello strato intermedio, durante lafase di predizione di parole della rete di Elman. Per ogni parola e stata effettuata la media su tutti i contesti possibili.[Da [Elman, 1990]]

durante questa non facile esperienza. Per esempio sia per i giovani neuroni biologici che per quelli artificialiil primo caso ad essere recepito e il nominativo, l’ultimo il genitivo, un indizio catturato molto presto e laterminazione -e per il femminile, che viene da entrambi presa troppo sul serio, producendo errori nei nomineutri e maschili in -e.

Si possono certo sollevare obiezioni a questo modello, in particolare gli input comprendono delle sem-plificazioni piu che ragionevoli, come per la codifica della fonologia, ma altre che certamente facilitanonon poco il compito alla rete, come la presentazione diretta di indizi semantici, e la stessa scelta dei tipi diindizi dalla letteratura. Auspicabile sarebbe la semplice esposizione ad un corpus, possibilmente in formatofonologico, da cui la rete possa estrarre spontaneamente le regolarita che sono importanti per il corretto usodegli articoli. Ma, considerando che e un lavoro di circa quindici anni fa, il risultato e di tutto rispetto eprova comunque che i sistemi di calcolo basati su neuroni non sono affatto refrattari alla grammatica.

6.2.2 La prima grammatica con i neuroni

La prova piu ovvia della piena capacita dei neuroni di calcolare la sintassi e esibita quotidianamente da ogniuomo che usi il linguaggio, ma per replicare tale dimostrazione in quelle che si pretende siano le matema-tiche dei neuroni si e dovuto aspettare il 1990. Elman si mosse nella stessa direzione di MacWhinney macon un notevole balzo in avanti dal punto di vista matematico, propose una semplice formulazione, la (5.18)descritta in §5.3.4, tramite cui anche un modello artificiale di rete neuronale e in grado di acquisire capacitasintattiche, senza nessuna regola precostituita, solamente in base all’esperienza di frasi corrette.

La chiave di questa fondamentale scoperta e nella proiezione ricorsiva, che estende le possibilita generalidi riconoscimento delle reti alle strutture seriali, che si sviluppano nel tempo, o comunque in sequenza,come appunto nelle frasi del linguaggio.

L’assunzione e che l’intera abilita sintattica dell’uomo sia acquisita dall’esperienza, pertanto anchel’obiezione a priori di Chomsky, che il semplice ordine delle parole non e sufficiente per determinarne ilruolo sintattico [Chomsky, 1965], deve cadere di fronte al fatto che per chi ascolta (o legge) non vi e altrodi manifesto se non le parole stesse e il loro ordine, e pertanto la struttura deve poter essere evinta da questielementi.

Le Matematiche del Linguaggio 177

Time

PCA

2

boys

boy

hear

boy

hears

boys PCA

11

PCA1

chases

chases

chases

boy

boy

boy

who

who

boy]

museum

girl

boy

lion

burns

house]

PCA1

PCA

2

burnsburns

burns]house

johnmary

tiger

Figura 6.17: Tre grafici dalla Principal Component Analysis applicata ai vettori di attivazione nello strato intermedioper la rete di Elman. Quello di sinistra e l’evoluzione nel tempo della PCA2 durante il processamento delle frasi boyhears boy e boys hear boy. Al centro la traiettoria nelle componenti PCA1 e PCA11 per la frase boy cha-ses boy who chases boy who chases boy. Il grafico di destra infine mostra le traiettorie in PCA1 e PCA2

quando la rete elabora le frasi {john, mary, lion, tiger, boy, girl} burns house e {museum,house} burns, l’ultima parola della frase e indicata con ].

Nel primo esperimento Elman costruı 10000 frasi basate su un lessico ridotto di 29 elementi, ogni parolaera codificata mediante un vettore randomizzato, in modo tale che tutti i vettori risultassero tra loro orto-gonali, cosı che la rete inizialmente non avesse nessun riferimento lessicale spurio. Il modo di funzionaree elementare: l’output della rete non e altro che la parola successiva all’input corrente. Naturalmente none rilevante l’errore come in un task di predizione vero e proprio: e normale che all’inizio della frase ogniparola contenga ben poche indicazioni sulla successiva. L’aspetto notevole e l’organizzazione che assumelo spazio delle attivazioni nello strato intermedio, che in questo esperimento era costituito da 150 neuroni.Per capire cosa si e formato in questo spazio, che riguardi la sintassi, Elman ha eseguito (sulla rete adde-strata) il task di predire la parola successiva, per ciascuna delle 29, in tutti i contesti possibili, e ha effettuatola media dei vettori di attivazione. Tali medie sono state raggruppate, con la tecnica del clustering binariogerarchico, cioe unificando ricorsivamente ogni volta i due elementi piu simili, sulla base della distanzaeuclidea dei vettori. Cio che viene fuori e visibile nella Tab. 6.3, ed e un notevole riconoscimento non solodel ruolo sintattico, ma anche di qualche proprieta lessicale delle parole. E netta la distinzione tra nomi everbi, e anche il raggruppamento tra verbi che sono sempre intransitivi, sempre transitivi, o con entrambe lepossibilita, ma vi sono anche cluster che riguardano categorie specifiche, come di oggetti fragili (plate,glass).

Successivamente, sempre con lo stesso tipo di rete, Elman indago i livelli di attivazione dello stratointermedio, in modo piu analitico, tenendo conto sia delle diverse componenti vettoriali, sia dei vari con-testi in cui si producevano le attivazioni [Elman, 1995]. A tal fine la tecnica usata e la PCA (PrincipalComponent Analysis) [Jolliffe, 1986], un metodo comune in algebra lineare: in sostanza si proiettano deivettori in un nuovo spazio, in modo che le variazioni piu importanti avvengano su alcune dimensioni. Nelcaso specifico: l’attivazione dello strato interno e un vettore a 150 dimensioni, un po troppe per capirciqualcosa. Applicando la PCA le dimensioni non cambiano, ma sono ordinate per importanza, quindi usarneanche solo un paio e gia indicativo. Nella Fig. 6.17 sono riportanti tre dei grafici sulle componenti PCA.In quello a sinistra e raffigurata una sola componente, la seconda, durante il processamento delle due frasiboy hears boy e boys hear boy, ed e evidente come questa componente codifichi il numero delsoggetto, ma non nel senso di una regola, bensı dell’opportunita di una diversificazione, che si manifestanell’uso. Infatti l’informazione sul plurale o il singolare e ampiamente differenziata all’inizio della frase,mentre nel momento in cui il verbo si accorda con il soggetto, le due traiettorie praticamente coincidono,non costituendo piu alcuna ulteriore variazione di contenuto per la comprensione delle frasi. Nel grafico alcentro si vede come nel piano delle componenti PCA1 e PCA11 si sviluppino le differenziazioni assunte dastesse parole nel corso di clausole interne, la traiettoria assume una forma a spirale. Il caso di destra, sem-

178 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

girl

girl (?) (?)

Sequence of input words

Previous hidden layer

ActAgent

Input layer

Hidden layer

Output layer

PatientCase−role assignment

Figura 6.18: L’architettura neuronale di Miikkulainen che analizza le frasi secondo i casi grammaticali

pre in Fig. 6.17 mostra un’altra interessante caratteristica linguistica catturata dalla rete: quella che RonaldLangacker definisce accomodation [Langacker, 1987, pp. 76–77 del Vol. I], una variazione semantica chenon e propriamente polisemia, ma una sorta di calibrazione del significato in accordo alla collocazione sin-tattica della parola, come appunto nei due diversi usi di burn tra john burns house oppure museumburns, evidenti nel piano delle componenti PCA1 e PCA2.

La rete di Elman ha costituito quindi una svolta fondamentale per le matematiche del linguaggio diispirazione neuronale, smentendo l’assunto sull’impossibilita di principio dei sistemi neuronali di trattareadeguatamente una sintassi. Dato atto di questo suo ruolo storico, nondimeno vi sono alcune obiezioni sullavalidita e portata di questo modello, che scaturiscono principalmente dalla sua essenzialita e limitatezza.Anzitutto, la scelta di rappresentare le parole in ingresso con vettori puramente randomizzati ed ortogonalie quanto mai drastica, eliminando ogni contributo fonologico e morfologico, che in realta entra decisamentein gioco nell’elaborazione sintattica. Inoltre, questo modo di trattare le parole, finisce per esporre il sistemaneuronale alle stesse debolezze dei sistemi simbolici, in cui la portata semantica si esaurisce solamentenell’insieme di relazioni tra simboli, mentre uno degli aspetti innovativi delle reti neuronali, in quantomodello biologico, e la continuita con la portata referenziale dei simboli, in termini motorio-percettivi.

Naturalmente queste critiche riguardano il quadro di riferimento in cui si debba inserire un apparatoneuronale in grado di comprendere e generare la sintassi, e non mette in discussione il fine primario diElman: la dimostrazione che la matematica neuronale e sufficiente per realizzare elaborazioni sintattichelinguistiche, senza necessita di regole a priori. Anzi, la dimostrazione e ancora piu forte avendo eliminatodai nomi ogni indizio sul ruolo che svolgono, dato solo dalla presentazione di un certo numero di enunciatiin cui compaiono.

6.2.3 Reti alle prese con frasi ambigue

Il primo modello di Elman ha suscitato diverse ricerche nella stessa direzione, ed oggi vi sono modelli neu-ronali piu sofisticati, che realizzano diverse delle caratteristiche di comprensione sintattica del linguaggionaturale, e su porzioni di lessico anche considerevoli. Interessanti sviluppi sono per esempio quelli di RistoMiikkulainen [Miikkulainen, 1993, Miikkulainen, 1997], che ha tentato di integrare il concetto iniziale diElman con altri aspetti linguistici quali lessico, discorso, fonologia, arrivando ad implementare dei veri epropri parser neuronali non simbolici.

Per buona parte l’innovazione di Miikkulainen parte da una considerazione sulla particolare natura del-la sintassi, che emerge spontaneamente dalle reti ricorsive alla Elman: nello spazio di attivazione dellostrato intermedio, si nota come il raggruppamento delle parole segua un criterio in cui non esista sem-pre una distinzione netta tra ruolo sintattico e ruolo semantico, soprattutto a livello subordinato dei rag-gruppamenti. E una tematica corrente in linguistica cognitiva, tra i primi Charles Fillmore ha introdottouna grammatica in cui il ruolo delle parole e classificato proprio tenendo conto della impossibilita di se-parare del tutto nel linguaggio naturale la funzione sintattica dal significato, la teoria casi grammaticali

Le Matematiche del Linguaggio 179

Word

Parser−prev.hidden

Parser−hiddenNext word

Case−role vector

Control

Stack−repParser−hidden

Parser−prev.hidden Stack−rep

Stack−repSeg−hidden

Parser−prev.hidden

Parser−hidden

Output

Input

Parser Segmenter Stack

Figura 6.19: Il parser completo basato sull’architettura neuronale di Miikkulainen, in grado di processarecorrettamente le clausole subordinate

[Fillmore, 1968, Fillmore, 1987, Cook, 1989]. Per recepire questa istanza la rete ricorsiva usa come targetproprio l’assegnazione delle parole alle categorie grammaticali principali, ricevendo in input la parola cor-rente, e continuando ad utilizzare un’autoproiezione nel tempo dello strato intermedio, come illustrato inFig. 6.18.

Un’altra innovazione riguarda la critica mossa precedentemente, dell’eccessiva neutralita nelle reti diElman nel rappresentare in maniera distribuita le parole, Miikkulainen ha cercato in vari modi di creare unarappresentazione neuronale piu plausibile del lessico. Una modalita consiste nel permettere uno sviluppodella codifica distribuita delle parole, da parte dell’architettura neuronale stessa, durante l’apprendimento,con il meccanismo FRGEP [Miikkulainen and Dyer, 1991]. Puo essere spiegato brevemente come un’e-stensione della back-propagation (vedi §5.3.2) nel senso che propagando all’indietro l’errore commessodalla rete su un certo target, si arriva anche all’input stesso, ovvero alla parola presentata in quel momento,e la si modifica come se si trattassero di pesi sinaptici. Progressivamente si verifica che le proprieta rilevatedalla rete ricorsiva nell’uso di una parola in diverse frasi, presenti sotto forma di vettori nello spazio distrato dei neuroni intermedi, si riflettono nella codifica della parola stessa.

Da questi nuclei di base sono stati realizzati diversi modelli piu completi, come un parser vero e proprio,in grado di processare non piu solo un ristretto mondo lessicale, ma anche corpus linguistici consistenti.Questo parser, illustrato nella Fig. 6.19 e composto da tre diverse architetture neuronali, tutte caratteriz-zate dalla duplicazione dello strato interno con funzionamento ricorsivo nel tempo. La rete che realizza ilriconoscimento dei casi grammaticali, il parser vero e proprio, e del tutto analoga a quella gia vista di Fig.6.18, ma i propri stati interni sono associati a quelli di due altre reti, di cui una ha funzione di stack, masempre con funzionamento neuronale. E una struttura del tipo RAAM, memoria autoassociativa ricorsiva[Pollack, 1990], in buona sostanza una rappresentazione compatta di diversi strati intermedi precedenti dalparser, richiamabili per somiglianza. Questo incremento della “memoria di lavoro”, per dirla in termini psi-cologici, consente il richiamo corretto dei ruoli sintattici attraverso clausole subordinate. E lo stesso motivoche richiede l’altra rete, il segmenter, che e sensibile proprio alla transizione di clausole relative, e riduce lostrato intermedio alla sola codifica rilevante per la clausola attuale.

Da sottolineare che anche se queste denominazioni ricordano analoghi dispositivi computazionali clas-sici (stack, segmenter), la loro funzione non e qui predeterminata, ma sempre appresa tramite numerosiesempi di frasi. Come conseguenza, non e affatto assicurata la corretta trattazione di subordinate di qual-siasi livello, proprio come succede a livello umano, contrariamente invece ad un parser simbolico, chepuo funzionare su un numero arbitrario di livelli di subordinate. E stato analizzato come queste limita-zioni di complessita sintattica presentino diverse analogie con dati psicolinguistici. A parita di numerodi subordinate, le difficolta maggiori per questo parser neuronale sono in frasi con incorporamento centra-le, del tipo the girl, who the dog, who the boy, who chased the cat, liked, bit, saw

the boy, in cui diventa difficile ricordare l’agente di liked, bit e saw, e anche i pazienti di liked ebit. Anche le prestazioni umane, dimostrano maggior difficolta sull’incorporamento centrale delle clau-sole [Miller and Isard, 1964, Foss and Cairns, 1970]. Inoltre, il riconoscimento del corretto abbinamento

180 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

princesstheforballparktheinballthethrewdiplomatThe

dance

baseball

The ball was throw in the clubroom the fans by the emceefor

dance

baseball

Figura 6.20: Esempi del processo di parsing non monotono nella rete di Miikkulainen, durante frasi contenti il termineambiguo ball, che puo avere due differenti significati nei contesti dance e baseball, indicati in entrambi i graficicome zona superiore e inferiore di attivazione di questa componente di senso del termine ball.

strutturale dei casi grammaticali in questi tipi di clausole, e fortemente influenzato dall’abbinamento se-mantico dei termini in questione, cosı il termine girl e piu facilmente ricordato come agente nella frasethe girl, who the dog bit, saw the boy che in quella the girl, who the dog bit, cha-

sed the cat. Allo stesso modo, una miglior comprensione di subordinate centrali in presenza di unmarcato abbinamento semantico, e stato osservato in afasici [Caramazza and Zurif, 1976] e nei bambini[Huang, 1983].

Un’altra interessante prerogativa di questo parser e la non monotonicita nella disambiguazione dei ter-mini, ovvero l’assegnazione di uno dei possibili significati ad un termine polisemico non avviene in modorigido, nel momento in cui questo termine e presentato, ma e sempre suscettibile di revisione, sino al ter-mine della frase. Nell’esempio riportato in Fig. 6.20 il termine ambiguo e ball, nei due sensi italiani dipalla e danza. Nella prima frase, (grafico in alto), l’attivazione del senso di ball inizialmente e neutrale(lungo la linea tratteggiata), fino ad incontrare il termine diplomat, che agisce da priming verso il sensodance, ma successivamente ballpark ribalta l’attribuzione di senso, trattandosi di un termine che, nell’e-sperienza della rete, ricorre piu nel contesto baseball, ma infine princess modifica definitivamente ladisambiguazione verso le danze, come si addice a principesse e principi.

Nella seconda frase l’ambiguita permane fino al termine clubroom, che propende verso dance, ma ifans, si sa, non mancano mai dove c’e una palla, il verdetto finale la rete lo ottiene con il termine emcee(cerimoniere), e via di nuovo con i balli.

Anche queste architetture matematiche neuronali, nonostante dimostrino prestazioni sintattiche in cuisi ritrovano tante caratteristiche umane, non sono certo esenti da critiche, anzitutto non si puo non reiterarela diffidenza verso il meccanismo della back-propagation, gia espresso in §5.3.2, che in parte si perdonavaad Elman, perche non metteva in gioco altro che l’aperta struttura della frase (il target non e che la parolaa seguire). Qui invece il target, su cui si calcola l’errore e le modifiche dei pesi sinaptici, e l’assegnazionedei casi grammaticali. Anche se si accetta che la teoria di Fillmore possa avere una validita profonda, e benpoco accettabile una definizione a priori e chiusa di quante e quali sono questi casi. Anzitutto e notoriamenteun argomento piuttosto controverso: si va dai 5-10 casi della teoria originale, ai tre casi astratti di Jakobsen[Jakobsen, 1996, p. 36], o i 30 e piu tipici dei sistemi di NLP [Habash and Dorr, 2001], e pare arduodefinire quali siano dei casi grammaticali “naturali”. La cosa migliore da fare sarebbe, con un’architettura

Le Matematiche del Linguaggio 181

piu evoluta, risolvere anche questo aspetto senza ricorso ad un’imposizione teorica, ma lasciando che larete neuronale stessa sviluppasse dall’esperienza le categorie di casi grammaticali che sono di utilita nelprocesso di parsing sintattico, ed e plausibile che nel sistema biologico avvenga qualcosa del genere.

Concludendo questa breve panoramica sugli attuali modelli neuronali che tentano di spiegare comefunziona la sintassi del linguaggio umano, si ritiene che la prerogativa piu importante sia proprio questaemergenza di regole naturali, da un substrato matematico in cui non vi e nessuna esplicitazione di regolesintattiche, ma le stesse sono derivate unicamente dall’esperienza. Tutto cio ricorda certi di Wittgenstein,che metteva in guardia contro la facile tentazione, notando certe invarianze nella struttura del linguaggio, amitizzare la regole, a renderle entita sopra alle espressioni. La generazione delle regole sintattiche in unarete, assomiglia notevolmente ad una descrizione del genere:

Dunque in questo modo definisco cosa vuol dire “comando” “regola”: [....] Se per o costui non possiedeancora questi concetti, gli insegnero a usare le parole mediante esempi e con l’esercizio – E nel far cionon gli comunico nulla di meno di quanto sappia io stesso.

[Wittgenstein, 1953, §208]

6.3 Il tempo della logica

Le stesse ragioni per cui la sintassi era ritenuta aliena da un sistema di calcolo non simbolico, come quelloneuronale, erano naturalmente buone anche per la logica. In questo caso c’e soprattutto un’entita matema-tica fondamentale nella logica ma assente nei sistemi neuronali: la variabile. Non e nemmeno pensabile unprocedimento di risoluzione in logica senza uso delle variabili. Mentre per la sintassi dare conto di comei neuroni possano implementarla era necessario, si potranno contestare tutte le grammatiche formali ma everamente arduo negare questo aspetto del linguaggio, per la logica il problema e meno pressante. Come sie visto i suoi contestatori non sono pochi, Devlin in testa, e all’interno della filosofia neuronale non gode diparticolari simpatie, regole e impianti formali del tipo logico-matematico sono considerati del tutto avulsidal funzionamento del cervello.

Eppure, concesso che il ragionamento umano non coincida perfettamente con nessun sistema di inferen-za logica, cio non toglie che i metodi della logica riescono a coglierne una parte veramente notevole. None partendo da quella matematica che si puo spiegare il cervello, come avevano pensato McCulloch e Pitts,ma una matematica dei neuroni matura dovrebbe poter mostrare come emergano certe forme del pensieroche la logica ha individuato e formalizzato.

E venuto anche il tempo per la logica neuronale, e la soluzione che pare aver superato il dilemma dellavariabile sta proprio nel tempo.

6.3.1 La tradizione orale e i ritmi moderni

SHRUTI in sanscrito vuol dire proprio tradizione orale ed e il nome che Lokendra Shastri ha preso inprestito per il suo modello, perche la maniera transitoria e dinamica di trasmettere conoscenze nella co-municazione orale e comune al principio di propagazione logica basato sull’attivita ritmica dei neuroni.Sotto questo colto preziosismo linguistico si cela uno dei primi modelli che incorporano le piu avanzateconoscenze sui ritmi nel cervello, per realizzare inferenze [Shastri and Ajjanagadde, 1993].

Il modello fa uso di astrazioni matematiche chiamate nodi, che corrispondono a piccoli agglomerati dineuroni, di cui sono presi in considerazione solamente alcuni meccanismi, tra quelli effettivamente diagno-sticati nei neuroni reali, in particolar modo per il riconoscimento delle sincronie temporali. I nodi sonoclassificati in pochi tipi, ciascuno orientato a realizzare uno specifico compito matematico. Anche per l’an-damento dei segnali nel tempo vengono astratti due soli tipi: i burst, idealizzati come livelli continui su unafinestra temporale ampia, e gli impulsi, di durata infinitesima, con ampiezza variabile. Questi sono i nodipiu importanti, con il simbolo geometrico che viene qui usato nelle figure:

• m-ρ producono un’uscita analogica continua, dipendente dai segnali afferenti, gli impulsi possonopero essere accumulati solamente se in sincronia tra di loro, ovvero con tempi di arrivo entro unafinestra temporale stretta, inoltre tale accumulo deve una soglia minima;

• τ -and si attivano solamente con ingressi di tipo burst, e producono a loro volta questo segnale;

182 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

collector−nodes enabler−node role−nodes

w−w+

?likes who−likes+likes whomw+

w−

who?happy−happy+happy

Figura 6.21: Rappresentazioni di predicati in SHRUTI mediante focal-cluster. Per likes (a destra) ci sono duerole-nodes, mentre happy (a sinistra) ne ha uno solo.

• τ -or producono in uscita burst, ma si attivano anche con impulsi, che devono sempre superareuna soglia e sono accumulabili purche in sincronia.

Come ulteriore particolare grafico, i legami sinaptici di tipo inibitorio sono resi con un pallino nero.Mediante questi nodi sono formate strutture piu ad alto livello, ancora suddivise in tipi. Una delle

principali, il focal-cluster, puo essere adoperato per rappresentare predicati. Per facilitare l’esposizione sifara uso di esempi, visto che si e tornati alla logica, si ritorna alle gioie e dolori di Puffettina gia utilizzatiper CYC, il modello computazionale classico di logica (vedi §3.2.4). In Fig. 6.21 ecco come diventanoi predicati likes e happy nei nodi di SHRUTI. Indipendentemente dal numero dei suoi argomenti, nelfocal-cluster di un predicato ci sono sempre tre nodi: due chiamati collector-node e un enabler-node. Comesi vede dalla figura i primi due vanno sempre a coppia: +likes e -likes, la loro attivazione e la misuradi quanto il predicato sia affermato o negato, hanno sempre un legame reciproco inibitorio. L’attivazionedel nodo enable regola invece l’attivita del sistema nel cercare i responsabili dell’eventuale eccitazione diuno dei due collector, che sono legati dai due pesi sinaptici w+ e w−. Per dare un’idea informale di questiparametri, supponendo che +likes sia fortemente attivo, un valore basso di w+ fa prendere per buono chequalcuno sia in buoni rapporti con qualcun’altro, mentre un valore elevato induce il sistema a persistere nelverificarlo, dando prova di radicale scetticismo nell’amicizia. Questi primi tre nodi sono di tipo τ -and, c’epoi un numero variabile di nodi a funzionamento m-ρ, tanti quanti gli argomenti del predicato. Nel caso dilikes c’e l’argomento per il ruolo di chi e in amicizia who e un altro per chi e l’oggetto delle attenzioni,whom. Per il predicato happy c’e solamente colui che e detto piu o meno felice, who.

Il cuore del sistema e la sua capacita di esprimere regole, come esempio prendiamo la seguente, espressanel linguaggio CYC:

( implies( likes ?X ?Y )( happy ?Y )

)

ovvero, in simbolismo logico:∀x∀y (l(x, y) ⊃ h(y)) (6.2)

avendo usato l(·, ·) per il predicato likes e l(·) per happy. L’equivalente in SHASTRI si puo vederein Fig. 6.22. La regola e l’interposizione di un particolare blocco, il mediator tra i predicati (ovvero irelativi focal cluster) che fungono da antecedente e conseguente. Al suo interno ci sono due nodi di tipoτ -and con funzioni gia incontrate: un collector positivo +med e un enabler ?med, non ha senso il collectornegativo, negare la regola significherebbe semplicemente introdurre una regola diversa. Il nodo +med vieneattivato dall’equivalente collector positivo dell’antecedente, in questo caso +likes, e la sua uscita e uncollegamento sinaptico di peso w2 verso il collector positivo del conseguente, +happy nell’esempio. Perl’enabler il percorso e al contrario, riceve input dall’enabler del conseguente (qui ?happy) e puo attivarequello dell’antecedente (?likes), con peso sinaptico w1. Infatti e la curiosita del sistema di verificare sequalcuno sia in uno stato di felicita che induce una ricerca delle regole che la possono causare, avendotrovato che una buona ragione e essere nelle grazie di qualcuno, occorre cercare tra gli antecedenti chisia con questa disposizione d’animo. I due pesi w{1,2} caratterizzano la determinatezza della regola, piuprecisamente w1 da una misura di quanto il verificarsi dell’antecedente porti all’occorrenza del conseguente.mentre w2 esprime quanto il verificarsi del conseguente sia dovuto all’antecedente, in termini matematici:

w1 = p (h(y)|l(x, y)) (6.3)

w2 = p (l(x, y)|h(y)) (6.4)

Le Matematiche del Linguaggio 183

r1

w+

w−

w−w+

r2

?e

mediator

who?happy−happy+happy

w2

1w

?likes who−likes+likes whom

+med ?med

Figura 6.22: Una regola in SHRUTI, rappresentata del mediator (al centro) che lega l’antecedente (sopra) con ilconseguente (sotto). I quadrati r1 e r2 che rappresentano i collegamenti ai ruoli dei predicati non sono nodi, ma circuitipiu complessi, la loro uscita verso l’esterno e diretta ai nodi ?e di T-instance (vedi Fig. 6.24) con tipo appropriato perquei ruoli.

Nel mediator ci sono altri elementi ri in numero uguale alla massima -arita dei due predicati, l’antece-dente e il conseguente, nell’esempio sono due, il numero di argomenti di likes. Non sono propriamentenodi, bensı circuiti piu complessi, i cui dettagli non sono rilevanti. Tutti vengono stimolati dall’enabler?med, in aggiunta quelli che corrispondono a ruoli presenti negli argomenti del conseguente, ricevono inputanche dall’appropriato role node di questo, nell’esempio da ?who di happy.

Per ultimo i moduli r1 e r2, secondo la Fig. 6.22, inviano uscite anche verso dei ?e di cui ancora nonsi sa nulla. Dopo le regole, sono necessarie delle istanze, ed e proprio qui che entrano in gioco questi nodi?e. Facendo sempre il parallelo con CYC, si supponga che al sistema siano noti questi fatti:

( genls Puffo Agent )( isa Puffettina Puffo )

il primo, si ricorda, dice che la collezione Puffo e parte di quella piu generale Agent, la seconda chePuffettina e un individuo Puffo. In SHRUTI gli individui sono istanze (istance) e le collezioni tipi(type), e quanto sopra e realizzato dai tre focal cluster di Fig. 6.23 con le loro connessioni. I nodi sonotutti di tipo m-ρ e possono assumere sia funzione di collector positivo che di enabler. Nell’istanza c’e solouna coppia, mentre per i tipi ci sono due coppie di nodi, collector e enabler per e e v. Il primo si riferiscead esemplari di quel tipo, mentre il secondo al tipo nel suo insieme, possono essere visti come riferimentiesistenziali o, rispettivamente, universali. Lo si puo comprendere meglio prendendo come esempio i nodi

instance

E−facts/T−factstype

type

+e ?v ?e+v Puffo

Puffettina

+e ?v ?e+v Agent

+ ?

Figura 6.23: Concatenazione di relazioni tipo isa (tra il centro e in alto) e genls (tra il cluster in basso e quello alcentro).

184 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

w−w+

−andτ

+Puffetto+Puffettina

?Puffettina?Puffetto

ρm−

ρm−

?likes who−likes+likes whom

w3

Figura 6.24: Un E-fact in SHRUTI. Il nodo tipo τ -and si attiva sul segnale dell’enabler, in questo caso ?likes. Lasua effettiva accensione puo pero essere bloccata da un meccanismo abbastanza articolato, in cui sono coinvolti queinodi inibitori rappresentati con pallini neri. Tutti e due i nodi di argomento del predicato hanno potere inibitorio, manel loro percorso possono essere a loro volta inibiti dagli enabler delle istanze a cui sono legati. Nell’esempio in esame,il ruolo who se attivo bloccherebbe il nodo τ -and. Ma se in contemporanea e anche attivo ?Puffetto, l’enablerdell’istanza candidata a questo ruolo, allora l’effetto precedente viene inibito, con il risultato complessivo che τ -and elibero di attivarsi.

in Puffo (al centro nella figura): +v esprime la confidenza sull’esistenza in generale dei Puffi, mentre +ee il supporto all’evidenza che ci sia qualche Puffo in particolare. Il nodo +v riceve input dal tipo Agent,e un motivo in piu per credere ai Puffi sapere che sono una sottospecie di altri tipi. Piu ci si crede, epiu e probabile che ce ne sia qualcuno in particolare, ecco spiegato il collegamento di +v verso +e, ilquale naturalmente e rafforzato da qualunque istanza di Puffi attualmente considerata dal sistema, comePuffettina. L’attivita di +e si trasmette sia verso i tipi superiori, come Agent, dichiarando che anche iPuffi sono loro esemplari, e anche al suo stesso ?e: se ci sono ragioni per credere all’esistenza di esemplaridi Puffi, val la pena cercare di rintracciarli.

Si e ora in grado di ritornare ai ?e lasciati in sospeso precedentemente, riguardo le regole. Le afferenzeche nella Fig. 6.22 i blocchi r1 e r2 mandano verso ?e fanno esattamente le veci del predicato argIsavisto in CYC: stabiliscono il tipo che puo assumere quel determinato ruolo nei predicati che compongonola regola. A differenza di CYC non e nel predicato che viene forzata l’appartenenza ad un tipo, e con icollegamenti che si instaurano quando partecipa ad una certa regola, pertanto uno stesso predicato in regolediverse puo avere requisiti di tipi differenti.

SHRUTI possiede un’ultima categoria di focal cluster che sono i fatti, asserzioni riguardanti istanze otipi, l’equivalente in CYC delle GAF (Ground Atomic Formula). Piu precisamente ci sarebbe un’ulterioresuddivisione in due sottocategorie, i E-fact e T-fact, i primi detti episodici e i secondi tassonomici. Dalpunto di vista dell’implementazione basti dire che i primi legano predicati ad individui mentre i secondipredicati a tipi, nel dettaglio qui si vedranno solamente gli E-fact.

L’esempio di cui ci si serve e un fatto non da poco, in linguaggio CYC:

( likes Puffetto Puffettina )

che in SHRUTI prende la forma di Fig. 6.24. Il focal cluster in alto e l’elemento di binding tra ilpredicato likes e le istanze Puffetto e Puffettina, il suo nodo principale e un τ -and, che si accendequando l’enabler di likes e alto e i suoi nodi di ruolo sono in sincronia con gli enabler di Puffettoe Puffettina. Questo τ -and se acceso va ad attivare il collector +likes, segnalando che c’e qualcunoche sta volendo bene a qualcun’altro, e tramite i due nodi m-ρ va a stimolare i legittimi responsabili, neirelativi ruoli: per who +Puffetto e per whom +Puffettina. Il peso sinaptico w3 esprime la confidenzasull’asseribilita del predicato, assegnando quelle determinate istanze ai suoi argomenti.

E arrivato il momento di verificare la felicita di Puffettina, soprattutto di vedere come puo farlo SHRUTI.Per innescare un processo inferenziale occorre anzitutto l’attivazione di qualche nodo enabler, in altre paroleche l’attenzione del sistema venga rivolta verso elementi coinvolti nelle regole di interesse. Si puo ottenerequesto effetto simulando l’ascolto o il pensiero di una proposizione del tipo:

Is Puffettina happy?

Le Matematiche del Linguaggio 185

?Puffettina

+Puffetto

?Puffetto

?med

+happy

?happy

+Puffettina

who happy

+med

−andτ

whom likes

who likes

+likes

?likes

?e−Agent

r1

r2

Figura 6.25: Diagramma temporale delle attivazioni di nodi durante l’inferenza. I nodi del tipo τ (come ?happy o+med) producono un burst, tutti gli altri un impulso. La descrizione dettagliata delle sequenze e nel testo.

un analogo in CYC della query formale4:

( happy Puffettina )

Per seguire cosa succede si e raccolto, nel diagramma temporale di Fig. 6.25, la sequenza delle atti-vazioni dei principali nodi coinvolti dal processo inferenziale, tutti fanno parte dei focal cluster descrittipiu sopra. Le prime attivazioni riguardano due enabler: ?Puffettina nel suo focal cluster di istanza, e?happy nel predicato happy, perche la query stimola il sistema ad indagare partendo da questi due termi-ni, inoltre e attivo il nodo di argomento who del predicato happy, in sincronia con ?Puffettina, perchel’ipotesi che si vuol verificare e proprio se Puffettina soddisfi quel ruolo. Nel sistema c’e una regola cheriguarda il predicato happy, quella di Fig. 6.22, piu o meno corrispondente in logica classica alla (6.2),l’attivita di ?happy stimola quindi nel mediatore di questa regola il nodo ?med. A seguito si verificanodiversi eventi: il blocco r1 si attiva in dipendenza da ?med soltanto, mentre r2 viene attivato trovando lasincronia con il ruolo who di happy, entrambi contribuiscono all’attivazione di ?e del tipo Agent, perchee quello pertinente alla regola, questo tipo a catena stimola le sue due istanze correnti, Puffettina ePuffetto (vedi Fig. 6.23). Un altro importante effetto della regola e di attivare l’enabler dell’anteceden-te, il predicato likes. Il nodo ?likes comincia quindi ad emettere i suoi burst, che sono recepiti da unE-fact presente nel sistema e legato a questo predicato. Si tratta del fatto, oramai di pubblico dominio, chePuffetto non e insensibile a Puffettina, gia illustrato nelle Fig. 6.24. All’interno del focal cluster di questoE-fact, il nodo τ -and si trova libero da inibizioni, perche sia ?Puffetto che ?Puffettina sono attivi, edin fase con i ruoli, rispettivamente ?who e ?whom. La produzione di burst di τ -and e recepita da +likes,la sua attivazione significa attribuire temporaneamente credenza all’interesse di Puffetto per Puffettina. Ilnodo +likes e direttamente legato al collector +med del mediatore della regola (vedi Fig. 6.22, che a suavolta scarica i suoi burst in +happy. Finalmente Puffettina e felice, verificato da SHRUTI.

Il parallelo con CYC che si e voluto fare in questo precorso illustrativo non e stato solo utile per faci-litare l’esposizione. Ha anche evidenziato una prima perplessita sull’impostazione di questo sistema. C’e

4Quella originale vista in 3.2.4 era articolata diversamente: ( feelsEmotion Puffettina ( HighAmountFn Happiness ) ),per l’assenza di un predicato happy in CYC, ma e un particolare del tutto irrilevante.

186 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

l’impressione che, nel tentativo di produrre con i neuroni i risultati della logica, si siano anche replicati trop-po fedelmente dei suoi aspetti architetturali, soprattutto gli schemi con cui la logica e stata implementatanel computazionalismo. Tutti i blocchi costituitivi di CYC hanno un diretto correlato in SHRUTI: i costruttiisa e genls, le regole come condizionali quantificati universalmente, le dichiarazioni GAF, e persino lequery. Se questo e certamente un gran vantaggio progettuale, non ci vuole troppa fantasia ad immagina-re le notevoli difficolta ad implementare sistemi come questi in software, lascia molti dubbi sulla fedeltastrutturale con i processi di calcolo mentali. Il punto di partenza e un’architettura ideata per il silicio sullosfondo della logica classica, nei cui moduli vengono poi fatti calare, non facilmente, meccanismi effettividi funzionamento dei neuroni. Naturalmente il processo evolutivo e inverso: dalle proprieta di calcolo adisposizione nel substrato biologico si sviluppano sistemi a livello via via piu alto, che alla fine realizzanosistemi in grado di fare inferenze e ragionamenti logici. Non e escluso che i due percorsi, pur con partenzediametralmente opposti, finiscano per convergere, ma sarebbe pura (e dubbia) coincidenza.

Occorre anche puntualizzare che SHRUTI alla fine non coincide affatto con la logica classica, il sistemapresenta differenze non da poco, e tutte nella direzione piu consona alla cognitivita umana. Il punto prin-cipale che risalta da ogni particolare di questo modello e l’assenza della dicotomia di valori vero/falso,distintiva della logica matematica fin da Boole. Vi sono invece sempre valori continui, che esprimonodiverse gradazioni: nell’asserire o negare un predicato, nel legare in forma condizionale antecedente e con-seguente, e cosı via. Tali gradazioni possono in genere essere lette sia in senso epistemico che ontologico:come probabilita rispetto al livello attuale di informazione del sistema, o rispetto alla causalita fattuale, nelcaso di regole. I valori di asseribilita delle inferenze sono il risultato di interazioni complesse, in cui entrain gioco anche l’attivazione del sistema nelle ricerche, risultando quindi dipendente dal livello di attenzionededicato a quell’inferenza o a qualche sua componente.

6.3.2 Degli innocui neuroni infernali

INFERNET, il modello di Jaques Sougne, non deve il suo nome a inquietanti capacita demoniache, bensıa quella piu umana di compiere inferenze, ma a prendersene carico dovrebbero essere le reti neuronali, dacui l’equivoca assonanza [Sougne, 1999, Sougne, 2001].

Fin qui gli intenti appaiono simili a quelli di SHRUTI, non solo, anche il principio cardine per trasfor-mare gli elementi neuronali in dispositivi logici non cambia, e il tempo caratterizzante i ritmi e le sincroniecerebrali. Nonostante queste somiglianze i due modelli si differenziano radicalmente per le loro implemen-tazioni, con conseguenze teoriche tali da giustificare qui l’analisi di una seconda matematica neuronale concapacita logiche. Avendo indugiato non poco sui dettagli tecnici di SHRUTI, si ritiene superfluo procedereora allo stesso modo, ci si soffermera solamente sulle caratteristiche che rendono INFERNET una propostaalternativa.

Sono due in particolare le scelte caratterizzanti di Sougne:

• l’utilizzo di neuroni con funzionamento spiking (vedi §5.3.5);

• l’adozione di rappresentazioni distribuite.

Per quanto riguarda il primo punto, va notato che SHRUTI, pur basandosi sulla sincronizzazione temporale,lo faceva replicandone gli effetti presunti, ottenuti mediante idealizzazioni del tutto avulse dai comporta-menti neuronali: impulsi ideali oppure finestre temporali con livello continuo, entrambi in grado di propa-garsi senza nessun ritardo o modifica. In INFERNET si parte dal comportamento temporale dei neuroni,modellato sulla falsariga dell’equazioni (5.20), che e pur sempre un’idealizzazione, ma molto piu fedelenei confronti del funzionamento di una singola cellula. Gli effetti di sincronismo sono valutati come ri-flesso di questa modellizzazione primaria, tenendo conto dei ritardi di propagazione e del decadimento deisegnali nel tempo, tecnicamente rientra in quella categoria di modelli chiamati synfire chain che meglioapprossimano diversi meccanismi dei neuroni corticali.

Anche per il secondo punto occorre rifarsi a SHRUTI e alla sua accezione di neuroni come corrispon-denti non tanto al singolo neurone biologico, ma piu a loro agglomerati, conseguentemente vengono chia-mati “nodi”, in INFERNET si intende invece che il neurone artificiale svolga le funzioni tipiche del suocorrispettivo in natura. La conseguenza piu importante e che nel primo caso viene preclusa la possibilita dirappresentazioni distribuite, prerogativa cosı tipica dei sistemi neuronali. Il problema nel dare individualitaad un nodo composto da molti neuroni, e nel circoscrivere a priori il contributo rappresentativo di quei

Le Matematiche del Linguaggio 187

Figura 6.26: L’architettura schematica del modello INFERNET. La sua organizzazione comprende cluster di neuronidensamente connessi al loro interno. Tra i diversi cluster c’e invece una connessione piu sparsa. I neuroni con stessatonalita di grigio partecipano alla rappresentazione di un’entita definita. Come si vede un simbolo puo essere ripartitotra piu cluster. Vi sono alcuni neuroni con una doppia gradazione perche contribuiscono a due simboli differenti, i ruolisono diversificati per mezzo della sincronia temporale.

tt t

% % %

Figura 6.27: Attivazione di un simbolo in INFERNET. I tre grafici mostrano nel tempo la porzione di neuroni con-tribuenti ad un simbolo che producono AP. Ogni gradino degli istogrammi indica la percentuale, tra tutti i neuroni diun simbolo, che si e accesa in quell’istante di tempo. L’intero asse orizzontale e dell’ordine del centesimo di secondo.L’energia di attivazione complessiva dei neuroni e la stessa nei tre grafici, ma nel primo a sinistra i neuroni produconoAP distribuiti su un’ampia finestra temporale, quindi il loro attivarsi non e legato a quel simbolo. Al contrario nelgrafico di destra i neuroni presentano una marcata sincronia, i momenti della loro eccitazione sono racchiusi in pochimillisecondi, quindi il simbolo e pienamente attivo. Il grafico di centroe una situazione intermedia.

neuroni ad una sola entita. Nella rappresentazione distribuita invece stessi neuroni possono di volta in voltacontribuire a rappresentazioni diverse, dando luogo a tutti quei fenomeni di condivisione visti in §6.1.1.

Con una rappresentazione distribuita non e piu possibile assegnare ruoli particolari ai singoli nodi,su questo si basava la complessa architettura di SHRUTI, in cui alla fine si instaurava una correlazioneforte tra certi gruppi di nodi, i focal cluster, e strutture logiche classiche come costrutti isa, regole. Euna perdita benefica per INFERNET, che tenta in questo modo di mostrare l’emergenza di meccanismiinferenziali senza dover ricorrere ad analogie architetturali sospette. Nella Fig. 6.26 si puo vedere la tipicaorganizzazione di questo modello, in cui i neuroni sono indifferenziati nei ruoli, vengono raggruppati incluster, e partecipano in modo distribuito a rappresentazioni simboliche. Da notare come ogni neurone possapartecipare a diversi simboli, il suo ruolo e di volta in volta discriminato tramite la sincronia temporale. Ilfatto di accendersi, per i neuroni che potenzialmente competono ad uno stesso simbolo, non e nessunagaranzia che questo sia effettivamente attivato, occorre che gli AP si concentrino in un intervallo temporalestretto, come illustrato in Fig. 6.27.

Le velocita di propagazione degli AP e le tolleranze delle finestre temporali sono dati cruciali del mo-dello, la loro calibrazione si basa su diverse evidenze neurologiche sperimentali [Singer, 1995]. La fre-quenza tipica di oscillazione di un neurone attivato e intorno ai 40 Hz, corrispondente al gamma-rhythmbiologico, e la finestra di sincronizzazione sui 5 millisecondi. Da questi parametri emerge subito un da-to teoricamente importante: in un circuito neuronale connesso sono possibili in contemporanea al mas-

188 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

tfase 1 fase 2 fase 3

Puffettina

Puffetto

whom

who

likes

Figura 6.28: Diagrammi temporali per l’esecuzione in INFERNET dell’asserzione predicativa corrispondente, inlinguaggio CYC, a (likes Puffetto Puffettina). Vi sono tre fasi temporali, ciascuna di durata intorno a 5msec, la prima riguarda i neuroni che partecipano al simbolo likes stesso, i quali inducono due fasi per il who e ilwhom di tale predicato. Le istanze che trovano sincronia in queste due fasi sono proprio fornite dal gruppo di neuroniche rappresentano, rispettivamente, Puffetto e Puffettina, il binding produce quindi l’asserzione.

simo 5-6 finestre temporali, che Sougne chiama fasi5. Ovvero in una stessa inferenza possono esseretenuti in considerazione non piu di cinque termini contemporaneamente, cosı come piu in generale nel-la visione di una scena non potrebbero essere focalizzati piu di cinque oggetti insieme, o il parsing diuna frase non puo gestire piu di cinque rinvii anaforici nello stesso tempo, e cosı via. Si tratta di li-mitazioni cognitive su cui c’e una vivace discussione, pare che valori con stesso ordine di grandezzadi quello che emerge in INFERNET siano effettivamente riscontrabili in diversi esperimenti psicologici[Lisman and Idiart, 1995, Jensen and Lisman, 1998].

La base del processamento di asserzioni in INFERNET e il meccanismo di binding dei predicati, cheavviene tramite una precisa successione di fasi. Anzitutto deve partire l’attivazione del simbolo corrispon-dente al predicato, e poi a seguire i suoi argomenti, ciascuno occupa una propria fase. Il binding con leattuali istanze per gli argomenti richiede la sincronia temporale con le fasi corrispondenti, come mostrato inFig. 6.28 nel consueto esempio su Puffetto e Puffettina. notare che a differenza di SHRUTI qui non esistonodei neuroni astratti (i collector) per asserire o negare, e proprio il verificarsi del binding che manifesta l’as-serzione. Ogni evento del genere induce inoltre delle modificazioni sinaptiche a breve termine, fenomenoancora una volta documentato nelle reti biologiche. Nel caso della Fig. 6.28 per esempio, si verificherebbeun rafforzamento delle connessioni sinaptiche tra i neuroni che partecipano al ruolo whom del predicatolikes e quelli che concorrono alla rappresentazione dell’individuo Puffettina, nonche un adattamentodei relativi ritardi favorevole ad una maggior sincronia. Lo stesso naturalmente si verificherebbe tra who

e Puffetto. Data la rappresentazione distribuita, gli effetti coinvolgono in una certa misura tutte le rap-presentazioni condivise, per cui per esempio Puffetto rafforza la sua posizione all’interno della categoriadegli agenti con attitudini positive, e volersi bene diventa sempre piu una prerogativa della societa dei Puffi.

Questi meccanismi automatici di apprendimento sono alla base delle propagazioni inferenziali, per cuiil processamento di qualcosa che assomigli, in termini di CYC, alla query ( likes ?W Puffettina)

attiverebbe preferenzialmente i neuroni che rispondono sull’individuo Puffetto. C’e nel sistema un deca-dimento automatico di questi tipi di legami, in modo che, a distanza di tempo, parlando di chi si vuol benetante attivazioni siano possibili, non necessariamente i due Puffi dell’esempio.

L’uso nelle equazioni di INFERNET di parametri temporali accuratamente tarati sui dati neuroscienti-fici permette di confrontare il modello con una vasta serie di dati psicologici empirici, basati sui tempi direazioni, paragone improponibile con qualunque altro sistema di simulazione cognitivo. Sougne ha sfruttatoquesta prerogativa per mettere a confronto il suo modello e gruppi di persone, su diversi tipi di problemati-che cognitive classiche, per esempio sulle inferenze di tipo condizionale, basate cioe su un’asserzione p ⊃ qcon varie combinazioni (positive o negate) di asserzione o negazione di p e q, oppure sui rapporti tra numero

5Se il ritmo di AP e 40 Hz, vuol dire che tra un AP e il successivo passano 25 msec, dato che gli impulsi presinaptici sono recepiticome sincroni entro 5 msec, ci sono in tutto 25

5= 5 finestre temporali distinte a disposizione.

Le Matematiche del Linguaggio 189

di argomenti in un predicato e sua complessita cognitiva. In entrambi i casi sono emerse similarita sorpren-denti, sia sui tempi di reazione che sugli errori, che su altri effetti, quali la preferenza accordata al modusponens come regola di deduzione rispetto al modus tollens, maggiori difficolta quando l’antecedente siadato in forma negata, la possibilita di deduzioni logicamente scorrette come la negazione dell’antecedenteo l’affermazione del conseguente.

Sono risultati ragguardevoli in un modello che, come visto, risulta esente da alcune obiezioni imple-mentative sollevabili nei confronti di SHRUTI, pur rimanendo ben lontani da costituire una dimostrazionesu come i neuroni veri realizzino la logica. Entrambi i due approcci sono da prendere come primi timidipassi della matematica neuronale verso la logica, con gia un grande successo: rappresentare, come diceLakoff, prove matematiche di esistenza, soprattutto nel caso dei neuroni piu umani di INFERNET.

190 CAPITOLO 6. LE FUNZIONI LINGUISTICHE DEI NEURONI

Capitolo 7

Un bilancio provvisorio

Alla fine di questo non breve percorso, culminato durante gli ultimi due capitoli nell’illustrazione di alcuneproposte evidentemente ritenute piu valide, e il momento di una valutazione complessiva delle possibilitaper il linguaggio di essere spiegato da una matematica. Queste considerazioni conclusive toccheranno treaspetti diversi. Anzitutto la relazione tra la matematica neuronale e quelle precedenti, oggetto dei capitoli2 e 3, che nonostante le loro crisi e difficolta, su cui ci si e soffermati nel capitolo 4, hanno prodotto tanteprofonde analisi sul linguaggio che non vanno certo trascurate, e che in qualche modo debbono risultarecompatibili anche con il funzionamento dei neuroni.

Successivamente si cerchera di mostrare che una buona parte dei capi di accusa che erano stati solle-vati alle vecchie matematiche, rendendole sempre meno idonee ad un fondamento del linguaggio umano,risultano irrilevanti o infondati per il calcolo neuronale, se non addirittura si tramutano in ulteriori motividi avallo.

Infine verranno brevemente passati in rassegna dei nuovi contendenti, di cui finora non si era parlato,se non in rapidi cenni. Esistono altri approcci matematici che, soprattutto negli ultimi anni, sono statiproposti come base del linguaggio. Non hanno avuto il debito spazio in questa ricerca anzitutto per motividi economia generale, ma anche perche difettano di quei requisiti qui privilegiati come caratteristiche diuna appropriata matematica del linguaggio. Purtuttavia sono ambiti innovativi di estremo interesse, punti divista inediti sul linguaggio, probabilmente in grado di completare il quadro che fornirebbero potenzialmentei sistemi di calcolo neuronali.

7.1 Le vecchie matematiche

Sia la logica che la scuola teorica di Chomsky sono stati due formidabili fari puntati su altrettanti aspettidel linguaggio, la semantica composizionale e la sintassi. Le discussioni e le critiche sui presupposti teoricidi queste due teorie difficilmente possono intaccare le sistemazioni che hanno fornito su tanti aspetti primaoscuri del linguaggio, che continuano a rimanere le migliori attualmente disponibili.

Considerando per esempio la semantica, le moderne teorie sulla quantificazione, i predicati, il significatodelle parole logiche, sono tutti possibili bersagli di critiche che riescono a trovare evidenti discordanze tra imodelli formalizzati e come vanno le cose nel linguaggio reale, mettendo in dubbio il loro statuto di leggiassolute del mondo. Ma indipendentemente da ogni considerazione metafisica, e compatibilmente conl’esistenza di certe discrepanze, rimane l’evidenza che in un’ampia maggioranza dei casi tali modelli sonouna buona descrizione di come effettivamente funziona il linguaggio per l’uomo, non disponibile primadello sviluppo della logica, oggi ancora una delle migliori. Anche per le grammatiche generative, spogliatedall’aurea di regole universali, scorporate dalla pretesa di rappresentare direttamente un modello funzionalebiologico, non c’e dubbio che rappresentano la piu ampia e profonda descrizione delle regolarita sintattichepresenti nel linguaggio umano. Anche la loro forma matematica, considerata non piu come un’ipotecateorica ma solamente come un’arbitraria scelta del linguaggio descrittivo, costituisce un’efficiente modalitadi sintesi, pratica per enucleare fenomeni da riprodurre poi con matematiche cognitivamente piu plausibili.

Dopo un periodo iniziale in cui l’approccio neuronale al linguaggio era limitato all’elaborazione disegnali continui, con architetture utilizzabili solamente in modelli orientati alla semantica lessicale, vi sono

192 CAPITOLO 7. UN BILANCIO PROVVISORIO

state notevoli evoluzioni, che hanno condotto ai sistemi piu complessi e articolati visti in §6.2 e §6.3. Questenuove tendenze sono prime possibili strade verso una riconciliazione tra la matematica continua dei neuronie l’istituirsi di relazioni sintattiche e di meccanismi logici e inferenziali. Da una loro forma matura enecessario aspettarsi la capacita di riprodurre l’intera gamma di fenomeni oggi descrivibili mediante lalogica e le grammatiche formali, anche se non piu in forma di regole deterministiche, ma soggette ad errori,eccezioni ed interferenze cosı come nel linguaggio ordinario.

Tra le matematiche “vecchie” quella con cui vi sono minori relazioni e il computazionalismo, nonostantela denominazione computational neuroscience, in cui pero il punto comune e giusto il calcolo, ma per questaidea non occorreva necessariamente il computer, gia l’aveva suggerita Hobbes. Anche se l’informatica haavuto un ruolo storico nell’avvio di queste ricerche, dal punto di vista matematico non ha particolari punti dicontatto. La TM e il modello di calcolo ideale per il silicio, Turing stesso, pensando al modello che potessesuperare il suo test di intelligenza, aveva in mente altro, macchine che imparano, sulla falsariga dei neuronicerebrali (vedi §5.3.1).

Negli anni ’80 e ’90 vi sono stati diversi studi sulle equivalenze formali tra TM e modelli neurona-li, e tentativi di darne una collocazione negli schemi convenzionali della calcolabilita e della complessitacomputazionale1 [Parberry, 1990, Orponen, 1994]. Sono ricerche utili solamente dal punto di vista dell’usoapplicativo di modelli di reti artificiali, ma inutili e fuorvianti per la matematica neuronale del linguaggio.L’aspetto formale in questo caso dice poco, e la peculiarita del modo di calcolo quello che conta, costi-tuita dalla parallelizzazione su grande scala di elementi molto simili, impiegati in elaborazione di segnalicontinui.

E comunque importante riuscire ad inquadrare in qualche modo le caratteristiche computazionali dellereti, e recentemente vi sono diversi approcci in questo senso. Nell’ambito delle teorie della probabilita sie sviluppato un filone, che va sotto il nome di Support Vector Machines, dove si e formalizzato il compitodi apprendere da un set di esperienze, che e una delle capacita caratterizzanti le reti neuronali. L’idea dibase e di quantificare le prestazioni di un sistema che apprende, in termini di bilancio tra la sua capacitadi generalizzare e l’accuratezza nella categorizzazione, sulla base di certi dati. Per esempio, supponendoche si tratti di un riconoscimento percettivo, e che i dati siano piante, l’eccesso di accuratezza consisterebbenell’asserire che una nuova varieta di margherite non siano piante, perche non corrispondono con esattezzaa nessun precedente prototipo, mentre l’eccesso di generalizzazione sarebbe assumere per pianta qualunquecosa verde che spunti dalla terra. La misura caratteristica e denominata dimensione VC, dalle iniziali deisuoi proponenti, Vapnik e Chervonenkis [Vapnik and Chervonenkis, 1971], e soprattutto il primo ad averindirizzato questo impianto teorico alla caratterizzazione delle reti neuronali [Vapnik, 1995, Vapnik, 1999].Discorsivamente si puo dire che, dato il problema di classificare un certo numero di input in categorie, taledimensione indica in quante categorie diverse e in grado di classificare una data rete.

In maniera meno subordinata al dominio della probabilita, esistono dei recenti tentativi di inquadra-re teoricamente un analogo della complessita per una rete neuronale artificiale, ovvero come misurarela difficolta che pone un determinato problema per una rete, senza ricorrere ai poco pertinenti paradig-mi computazionalisti. In particolar modo Marco Gori ha introdotto il concetto di Computational Su-spiciousness come equivalente della trattabilita nella complessita computazionale classica, per misura-re la difficolta di un certo problema, qualora debba essere affrontato da una rete neuronale artificiale[Gori and Meer, 2002, Gori, 2003]. L’aspetto cruciale preso in considerazione e nuovamente l’addestra-mento, trattato in maniera del tutto generale come processo di ottimizzazione continua, indipendentementedalla specifica architettura della rete. Il grado di “sospetto” suscitato dai problemi e una misura della possi-bilita che la rete non raggiunga una soluzione veramente ottima perche intrappolata, durante il processo diaddestramento, da minimi locali della funzione energia da minimizzare, in pratica che si attesti su condizio-ni che sembrano ottimali per un certo ambito limitato di input, ma non lo sono per tutti i possibili input delproblema. Tale misura consente inoltre una divisione globale dei problemi in due grandi categorie analoghea quelle definite nella complessita computazionale classica: i problemi “non sospetti”, corrispondenti allaclasse dei problemi trattabili, e quelli invece “sospetti”, indiziati di intrattabilita.

Il punto qui centrale e che cio che puo risultare difficile per un computer non lo e necessariamente perle reti neuronali e viceversa.

1In informatica la complessita di un problema e una funzione che misura la dipendenza del tempo necessario a risolvere unproblema dalla sua dimensione. Un problema e considerato “trattabile” quando esiste un algoritmo che lo risolve con complessit apolinomiale, e tecnicamente si dice che appartiene alla classe P , in caso contrario e intrattabile e ∈ NP .

Le Matematiche del Linguaggio 193

7.2 Le vecchie critiche

Il capitolo 4 e stato una rassegna di tanti punti critici che sono emersi nei confronti delle vecchie matema-tiche del linguaggio, minandone le possibilita di costituire un’effettiva matematica del linguaggio. Ora sivuol vedere cosa succede ripresentando le stesse critiche alla nuova matematica, quella neuronale. Sonoelencate qui, a seguire, nello stesso ordine in cui erano nel capitolo 4.

• Lo spettro delle antinomie e dell’incompletezza non impensierisce i sistemi neuronali, che finorahanno trovato supporto in ambiti matematici diversi da quello fondativo, quali l’analisi e l’algebralineare, ambiti che sono sempre rimasti indifferenti a questo genere di problemi.

• Le limitazioni dei sistemi simbolici discreti non solo non riguardano la matematica del cervello,dove la trattazione preferenziale e nel continuo, sono semmai un motivo in piu per preferirla in quantoesente da tali limitazioni.

• La prevalenza della sintassi e una prerogativa di matematiche, come le grammatiche generative,concepite come sistemi simbolici; al contrario per i neuroni, che simbolici non sono, e stato piuimmediato mostrare le loro capacita di rappresentazione semantica, si e dovuto aspettare la teoria diElman delle reti ricorsive per dar conto della sintassi, che rimane comunque immersa nel linguaggioe non trattabile in maniera isolata.

• Le presunte strutture profonde che Chomsky aveva ipotizzato come migliore soluzione possibile,nel suo sistema, della discrepanza tra una forma logica delle frasi e quella effettiva con tutti gliarricchimenti espressivi del linguaggio reale, non sono necessarie, semplicemente perche non c’enessuna discrepanza da colmare. Non ci sono regole astratte a cui ricondurre le forme esteriori dellinguaggio, con le conseguenti difficolta. Ci sono invece, in un percorso inverso, delle regolarita cheil sistema apprende dall’uso del linguaggio.

• Le difficolta nel NLP possono contagiare chi, nella comunita degli studiosi sulle reti artificiali, lavorasul fronte applicativo, dove i risultati sono auspicati, e le soluzioni neuronali stanno prendendo piede.Non inquietano invece coloro che le sviluppano per indagini filosofiche e cognitive: il computer esolamente un mezzo per eseguire la matematica, piu veloce e comodo di carta e penna, senza nessunparticolare riferimento alla mente umana, al contrario talmente diverso da rendere poco efficienti lesimulazioni di reti neuronali.

• Le obiezioni dai cinesi, che attorniano le stanze di Searle, potrebbero coinvolgere anche i neuroni,anche loro in fin dei conti manipolano segnali elettrici, non si sa se scritti in cinese. Vale perosolamente la replica di Searle con stanze allargate per contenere segnali di telecamere e comandi aimotori per muoversi. Si e visto che quando la stanza e in realta la sala di comando di un robot, il suoargomento, gia di per se contestabile, perde ogni mordente (vedi §4.3.2).

• Il computer che non impara, cruccio dei sistemi di conoscenza artificiale, e un altro degli appuntial computazionalismo che rivendicano l’esigenza di matematiche diverse, con capacita di apprendereautonomamente, come gia addirittura Turing aveva previsto (vedi §5.3.1). E una delle prerogative ditutti i sistemi neuronali.

• Gli argomenti classici contro la razionalita sono in genere senza risposta per qualunque spiegazionedelle facolta cognitive di tipo matematico, vecchie o nuove, essendo per lo piu petizioni di principio.La loro presa e maggiore se si possono abbinare a constatazioni oggettive sulle difficolta di unamatematica, lo stato di salute attuale di quella neuronale non dovrebbe agevolarli.

• La predilezione per i linguaggi purificati dalle sottigliezze ed astrusita espressive di quello realenon e un’esigenza nelle matematiche neuronali, dove non ci sono strutture predefinite a cui doverricondurre le forme esteriori del linguaggio, la partenza e il linguaggio ordinario, le cui regolaritad’uso sia semantiche che sintattiche trovano rappresentazione nei neuroni nel corso del tempo in cuisi e esposti al linguaggio in un contesto di esperienze percettive.

194 CAPITOLO 7. UN BILANCIO PROVVISORIO

• Non regole ma giochi linguistici, questa in sintesi la critica che Wittgenstein muove alla logicanelle Philosophische Untersuchung. Di quelle regole c’e ben poco nel calcolo neuronale, non solo,i suoi meccanismi che concorrono alla formazione del significato delle parole si ritiene siano i piuprossimi all’idea di gioco linguistico e di grammatica come uso. E infatti dalle regolarita di impiegodelle parole in determinati contesti che emergono le sue collocazioni negli spazi vettoriali e in quellitopologici, entro cui si caratterizzano semanticamente e sintatticamente. Con questo non si vuolecertamente associare la filosofia di Wittgenstein nel suo complesso con il neurocomputazionalismo,di cui sarebbe per esempio difficile conciliare il radicamento nel funzionamento fisico del cervello,si vuol solo mostrare come sia indenne a questo tipo di critica della logica cogliendo l’insegnamentoracchiuso nel concetto di gioco linguistico.

• La focalizzazione sugli aspetti composizionali, trascurando il lessico non e certo un difetto im-putabile alle reti neuronali, dove al contrario e prevalsa la ricerca sul lessico e la categorizzazione,e soltanto di recente si e riusciti a sviluppare modelli in cui dar conto della composizione semantica(vedi §6.3).

• La categorizzazione secondo le condizioni necessarie e sufficienti era una grave difficolta nellasistemazione logica delle conoscenze concettuali, che pesava su sistemi tipo CYC, e si esponevaa critiche come visto in §4.3.2. Uno dei primi pregi esplicativi dalle reti neuronali e stata propriala categorizzazione, rappresentata negli spazi vettoriali sotto forma di cluster, che riproduce diversieffetti cognitivi quali prototipicita e “somiglianze di famiglia”.

• Il lato referenziale nella competenza lessicale, quello rimasto oscuro nella semantica classica e neisistemi computazionali basati sulla logica come il CYC (vedi §3.2.4), trova la sua naturale sistema-zione nei modelli neuronali, in cui nella rappresentazione semantica confluiscono direttamente spazivettoriali afferenti dai canali percettivi, come la visione.

• La biologia dimenticata. Questa e probabilmente la critica alle vecchie matematiche che piu netta-mente si ribalta per il calcolo neuronale. Si tratta evidentemente di una matematica che nasce dallabiologia, da alcune delle sue scoperte piu importanti del secolo scorso, e si sviluppa in stretto contattocon la sua nuova branca costituita dalle neuroscienze.

7.3 Altre matematiche

Dal periodo in cui e subentrata la crisi delle vecchie matematiche del linguaggio ad oggi, quella basatasui neuroni non e stata la sola nuova proposta, di candidati ce ne sono diversi altri, che pur avendo ancoradimensioni di ricerca piu modeste e fondamenti meno consolidati, presentano diversi spunti di interesse.

Un’area matematica che ha suscitato diverse attenzioni e quella dei sistemi dinamici, soprattutto a se-guito di alcuni suoi settori divenuti popolari, come la teoria del caos2. La rilevanza di situazioni caotichenelle reti neuronali e tema di discussione da molti anni, alcuni studiosi come Walter Freeman e AntonBabloyantz ritengono questa matematica essenziale per descrivere adeguatamente cosa succede nel cervel-lo [Babloyantz and Lourenco, 1994, Freeman, 2000], ma le loro posizioni sono piuttosto isolate, e finorahanno prodotto ben pochi risultati, se si eccettuano i modelli del sistema olfattivo. Non e in dubbio se i neu-roni abbiano o meno comportamenti caotici, che sono senz’altro presenti nelle soluzioni delle equazioni diHodgkin e Huxley (5.1–5.4), il punto e se entro questo genere di dinamica si celi una parte importante, o ad-dirittura essenziale, del loro calcolo. Analoghi studi sono stati effettuati anche a livello di neuroni artificiali,per dare un maggior fondamento teorico a queste ipotesi [Pasemann, 1995, Lee and Farhat, 2001].

Esiste anche un filone di ricerca che usa concetti di teoria dei sistemi dinamici per tentare una direttaspiegazione del linguaggio, del tutto indipendente dai meccanismi cognitivi.

Il suo portavoce principale e stato Rene Thom, che negli anni settanta e stato protagonista della “teoriadelle catastrofi”, insieme a Christopher Zeeman, a cui e dovuto questo termine d’effetto [Zeeman, 1977],ingrediente non ultimo dell’attrazione che suscito allora questa nuova pagina di matematica. Le catastrofi,

2Il caos descrive situazioni in cui le equazioni differenziali del sistema non hanno soluzioni stabili e nemmeno periodiche, mapresentano un comportamento apparentemente casuale. In realta continuano ad essere sistemi deterministici in cui possono essereriscontrabili regolarita, anche se non direttamente, ma negli spazi dei cosiddetti attrattori.

Le Matematiche del Linguaggio 195

non sempre terribili nonostante il loro nome, sono luoghi di parametri dove avvengono brusche transizionidi variabili di un sistema controllate da tali parametri, passando da una condizione di stabilita ad un’altra.Il contributo piu valido della teoria e stata la classificazione di questi tipi di transizioni, che presentano ca-ratteristiche similari, se il numero dei parametri e compreso tra 2 e 4, dando luogo a sette diverse tipologiedenominate “catastrofi elementari”, di cui le piu semplici sono la “piega” (fold) che prevede un solo para-metro di controllo, e la “cuspide” (cusp) per due parametri, quest’ultima probabilmente quella piu studiataed utilizzata di tutte.

Nell’applicazione al linguaggio [Thom, 1970, Thom, 1988] il sistema in cui interviene la teoria delle ca-tastrofi e caratterizzato dall’accoppiamento di due spazi diversi: uno interno in cui ci sarebbero i significati,e uno spazio esterno dove si troverebbero le espressioni linguistiche. La dinamica dello spazio interno eprovvista di attrattori, dove si muove di volta in volta il senso che il parlante vuole attribuire alle espressionilinguistiche che produce. In sostanza gli eventi del mondo, classificabili a seconda della loro appartenenza auna delle sette categorie di catastrofi elementari, avrebbero una corrispondenza diretta con altrettanti classidi enunciati. In particolare, per esempio, ci sarebbe una esatta corrispondenza tra il numero degli argomentidel predicato nell’enunciato e il numero di minimi (luoghi stabili) del sistema che descrive l’evento reale.

A Thom e stata mossa una critica generale nell’attribuire eccessiva universalita alla sua teoria delle ca-tastrofi, che da formalismo matematico dotato di un certo rigore e pregnanza su fenomeni di discontinuitatra attrattori, viene assunto a principio per spiegare un po’ di tutto, dai comportamenti dei predatori, lemetamorfosi degli insetti o le crisi delle grandi civilta. Fino al linguaggio.Ma per raggiungere un tale ecumenismo la teoria deve ricorrere a forzature che sono state all’origine di cri-tiche piu tecniche e piu pesanti [Zahler and Sussman, 1977, Kolata, 1977, Sussman and Zahler, 1978]. Insostanza viene contestata un’arbitraria e spesso inconsistente mappatura tra i termini matematici del sistemaentro cui si evolvono i fenomeni dalla teoria, e la realta a cui e applicato tale sistema, con quantizzazioni spu-rie, variabili di controllo improprie e indebite condizioni di esistenza delle funzioni caratteristiche. Comerisultato nella comunita scientifica la teoria delle catastrofi e stata abbandonata con la stessa rapidita con cuiaveva inizialmente accolto entusiasmi, ed ora e un argomento piu frequentato dai filosofi che dai matemati-ci. Non e nemmeno citata nei 10 volumi dell’autorevole Encyclopaedia of Mathematics [AA. VV., 1997].Questo destino non poteva che ripercuotersi negativamente sui tentativi di fondare il linguaggio su talematematica, dove non si e potuto assistere ad una crescita della ricerca.

Purtuttavia esiste una scuola che tenta di dare un seguito a questi spunti [Petitot, 1985, Østergaard, 1997],che potrebbe produrre sviluppi interessanti, se questo genere di matematica venisse usata, anziche come va-ga metafora, come strumento per la spiegazione effettiva di fenomeni linguistici significativi. Spogliatadelle sue pretese universali e di un certo alone mistico, la teoria di Thom e Zeeman non e che un para-grafo della piu generale teoria delle biforcazioni, che rappresenta una potente metodologia per la soluzio-ne di sistemi dinamici non lineari [Chow and Hale, 1982]. Un appello a queste matematiche in respiropiu ampio e cio che tenta Jean Petitot, privilegiando nella loro applicazione la concezione del linguaggiocognitivista, di Langacker, Talmy e Lakoff [Petitot, 1991], non trascurando conseguentemente i rapportitra linguaggio e percezione [Petitot, 1997], e con un attento interesse alla natura neuronale della mente[Petitot and Tondut, 1999].

Un ambito piu recente che sta attraendo diversi studiosi del linguaggio e quello degli agenti autonomi.Non e propriamente una disciplina matematica, ma una denominazione che raccoglie diverse proposte mo-dellistiche ispirate a metafore degli organismi sociali e dei loro comportamenti interattivi. Sono in buonaparte eredita del concetto di automi cellulari [von Neumann, 1966], che ha avuto recentemente una siste-mazione matematica rigorosa [Wolfram, 1994], in cui i comportamenti di un individuo sono limitati a trepossibilita: riproduzione, eliminazione o stasi di ogni individuo, in funzione della presenza di altri vicini.Gli agenti autonomi hanno in genere una gamma di comportamenti piu ampia, sempre dettati da regole pre-fissate in cui entra in gioco la reciproca interazione, dei classici sono le simulazioni del movimento di stormidi uccelli, colonie di insetti o branchi di pesci. James Hurford e Simon Kirby hanno utilizzato il modellodegli agenti nel simulare diversi effetti dell’evoluzione del linguaggio umano, sia dal punto sintattico chesemantico [Hurford, 2000, Hurford and Kirby, 2001]. In particolare ad essere riprodotta dagli agenti e quel-la faccia dell’evoluzione da loro definita “glossogenesi” (glossogeny), intermedia tra l’ontogenesi, ovverol’acquisizione da parte del bambino, e la filogenesi a cui si riferiscono gli studi biologici sull’emergenza dellinguaggio. Per Angelo Cangelosi e Domenico Parisi la matematica degli agenti puo andare d’accordo conle reti neuronali, prese in un accezione decisamente piu connessionista che neuroscientifica, in un modello

196 CAPITOLO 7. UN BILANCIO PROVVISORIO

della categorizzazione lessicale [Cangelosi and Parisi, 1998]. Senza dubbio il paradigma degli agenti e ap-propriato per dar conto della componente sociale e culturale che investe il linguaggio nella sua evoluzione,su cui nulla puo dire la matematica neuronale, che e pregnante solamente nel modellare i processi mentalidi un individuo. C’e una sostanziale differenza nel fatto che i processi mentali sono il prodotto di elementibiologici, con incontestabile natura di dispositivi di calcolo, mentre non esiste un corrispondente elementomatematico nel caso delle relazioni sociali tra individui, per cui la teoria degli agenti rimane improntata damolta arbitrarieta.

7.4 O nessuna

Nel corso di questa ricerca si e cercato di esaminare diverse matematiche che possano spiegare il linguag-gio umano, prendendo in considerazione punti di vista molto diversi, tentando comparazioni, valutazionicritiche, ma non e mai emersa una questione che potrebbe sembrare basilare: se il linguaggio non sia inveceirriducibile a qualunque matematica, se sia costituzionalmente tutt’altro. Questione che naturalmente nonsi intende affrontare proprio ora, nelle ultime righe, che e stata deliberatamente elusa proprio perche su unpiano preliminare rispetto agli interessi di questa ricerca. Senza l’implicita assunzione che il linguaggio siasuscettibile di una spiegazione matematica tutto quello che e stato detto finora avrebbe ben poco senso, madibattere e difendere tale assunzione richiederebbe un’altra impresa, diversa da quella qui tentata.

Con questo non si vuole nemmeno ignorare l’argomento, e per correttezza scientifica non e inopportunolegittimare e delineare certi dubbi proprio nel momento in cui, in fase di bilancio, si cerchi di intravedereoltre l’attuale orizzonte temporale.

Non e facile azzardare previsioni su future matematiche e sulla loro fortuna nel poter fondare una spie-gazione adeguata del linguaggio, e non si intende nemmeno tentarlo. Si ritiene comunque che oggi esistanoalcune evidenze molto forti, sul fatto che il cervello effettui un vero e proprio calcolo, nel senso di modifi-cazioni mirate di potenziali elettrici su cui si basa qualunque atto cognitivo, in particolare il linguaggio, aconferma empirica di una visione matematica del linguaggio che, su basi completamente diverse, ha domi-nato il secolo scorso. Esistono inoltre numerosi dati consistenti sulla natura di questo calcolo, basato su unparallelismo massivo di elementi tra loro molto simili, i neuroni. Pur non volendo considerare, per estremodi scetticismo, questo quadro una certezza, e suffragato da una tale coerenza teorica e validazione empiricada essere ritenuto da chi scrive un’ipotesi di lavoro fondamentale. Da questa posizione scaturiscono dueatteggiamenti generali nei confronti delle matematiche del linguaggio. Anzitutto si e inclini a considerare lamatematica un terreno privilegiato per spiegare il linguaggio, in quanto la scienza piu idonea a sintetizzarein modo comprensibile fenomeni che abbiano carattere di calcolo, ma facendo valere una discriminanteprecisa, considerando che una proposta matematica per spiegare il linguaggio si qualifichi diversamente aseconda che tenga conto della realta di calcolo biologico oppure no.

Il secondo atteggiamento e invece un legittimo dubbio su cosa possa offrire la matematica. La netta evi-denza che il linguaggio funzioni nel cervello tramite calcoli non garantisce affatto la possibilita di costruireuna matematica idonea a spiegarli. Tutti gli sviluppi che sono stati descritti nei capitoli 5 e 6 fanno ricorso astrumenti di base convenzionali, quali la teoria delle funzioni continue o l’algebra lineare. Non e detto chesia l’attrezzatura idonea per trattare lo specifico delle reti neuronali, l’emergenza di funzioni da un numeroelevato di elementi identici densamente interconnessi. I notevoli successi registrati in diversi casi potreb-bero essere dovuti semplicemente alla limitazione delle funzioni da simulare, che verrebbe a cadere nelcaso del linguaggio, il cui funzionamento olistico non permette certe semplificazioni. Potrebbe essere unlimite costituzionale delle architetture attuali, nonostante i risultati dimostrati finora, superabile solamentecon la fondazione di una matematica radicalmente diversa, e una discussione presente da anni nelle neuro-scienze computazionali, anche se le poche proposte sono tuttora allo stato embrionale, e comprensibilmenteriguardano tempi lunghi.

E in questi termini quindi che, pur avendolo eluso, non si vuol negare il dubbio che alla fine il linguaggiopossa essere irriducibile ad una matematica. L’incertezza che pende su questa direzione di ricerca non ecerto una remora al percorrerla, al contrario un ulteriore stimolo a perseguirla. Con l’entusiasmo di ricercarela chiusura di un circolo mirabile, una matematica che sia l’essenza stessa del tramite che ha permesso diraggiungerla: il linguaggio.

Bibliografia

[Aarts and Korst, 1989] Aarts, E. and Korst, J. (1989). Simulated Annealing and Boltzmann Machines. John Wiley,New York.

[Abeles, 1991] Abeles, M. (1991). Corticons: neural circuits of the cerebral cortex. Cambridge University Press,Cambridge (UK).

[Ackermann, 1925] Ackermann, W. (1925). Zum Hilbertischen Aufbau der reellen Zahlen. Mathematische Annalen,99:118–133. Trad. ingl. di S. Bauer-Mengelberg in [van Heijenoort, 1967], pp 493–507.

[Aho et al., 1986] Aho, A. V., Sethi, R., and Ullman, J. D. (1986). Compilers: Principles, Techniques and Tools.Addison Wesley, Reading (MA).

[Aho and Ullman, 1972] Aho, A. V. and Ullman, J. D. (1972). The Theory of Parsing, Translation and Compiling.Prentice Hall, Englewood Cliffs (NJ).

[Albeverio et al., 1986] Albeverio, S., Fenstad, J. E., Høegh-Krohn, R., and Lindstrøm, T. (1986). Nonstandardmethods in stochastic analysis and mathematical physics. Academic Press, New York.

[Alnes, 1999] Alnes, J. H. (1999). Sense and basic law V in Frege’s logicism. Nordic Journal of Philosophical Logic,4:1–30.

[Anderson and Belnap, 1975] Anderson, A. and Belnap, N. (1975). Entailment: the Logic of Relevance and Necessity.Princeton University Press, Princeton (NJ).

[Anderson, 1971] Anderson, J. (1971). The Grammar of Case. Towards a Localistic Theory. Cambridge UniversityPress, Cambridge (UK).

[Anderson, 1983] Anderson, J. A. (1983). Cognitive and psychological computation with neural networks. IEEETransactions on Systems, Man and Cybernetics, 13:799–815.

[Anderson, 1974] Anderson, R. (1974). Substance recall of sentences. Quaterly Journal of Experimental Psychology,26:530–541.

[Angelelli, 1964] Angelelli, I., editor (1964). Begriffsschrift und andere Aufsatze. Olms, Hildesheim.

[Angelelli, 1967] Angelelli, I., editor (1967). Kleine Schriften. Olms, Hildesheim.

[Annett, 1999] Annett, M. (1999). The theory of an agnostic right shift gene in schizophrenia and autism.Schizophrenia Research, 39:177–182.

[Asperti and Longo, 1991] Asperti, A. and Longo, G. (1991). Categories Types and Structures. MIT Press, Cambridge(MA).

[AA. VV., 1970] AA. VV. (1970). The History of Mathematics from Antiquity to the Beginning of the XIX-th Century.Moscow.

[AA. VV., 1997] AA. VV. (1997). Encyclopaedia of Mathematics. Kluwer, Dordrecht (NL).

[Austin, 1962] Austin, J. L. (1962). How to Do Things With Words. Oxford University Press, Oxford (UK).

[Babloyantz and Lourenco, 1994] Babloyantz, A. and Lourenco, C. (1994). Computation with chaos, a paradigm forcortical activity. In Proceedings of the National Academy of Sciences USA, volume 91, 9027.

[Backus, 1959] Backus, J. W. (1959). The syntax and semantics of the proposed international algebraic language ofthe Zurich ACM-GAMM conference. In Proceedings of International Conference on Information Processing, pages125–132. UNESCO.

[Bailly and Longo, 2003] Bailly, F. and Longo, G. (2003). Space, time and cognition: From the standpoint ofmathematics and natural science. In Peruzzi, editor, Causality and Mind. Kluwer, Dordrecht (NL).

[Bain, 1873] Bain, A. (1873). Mind and Body. The Theories of their Relation. Henry King, London.

198 BIBLIOGRAFIA

[Baker and McCarthy, 1981] Baker, C. L. and McCarthy, J., editors (1981). The logical problem of languageacquisition. MIT Press, Cambridge (MA).

[Ball, 1999] Ball, P. (1999). The Self-Made Tapestry: Pattern Formation in Nature. Oxford University Press, Oxford(UK).

[Barlow, 1972] Barlow, H. B. (1972). Single units and sensation: A neuron doctrine for perceptual psychology?Perception, 1:371–394.

[Barrett, 1987] Barrett, P. H. (1987). Charles Darwin’s Notebooks, 1836-1844: Geology, Transmutations of Species,Metaphysical Enquiries. Cornell University Press, Ithaca (NJ).

[Barto et al., 1983] Barto, A., Sutton, R., and Anderson, C. (1983). Neuronlike adaptive elements that can solvedifficult learning control problems. IEEE Transactions on Systems, Man and Cybernetics, 13:834–846.

[Barwise, 1989] Barwise, K. J. (1989). Simulated Annealing and Boltzmann Machines. John Wiley, New York.

[Bear and Kirkwood, 1993] Bear, M. and Kirkwood, A. (1993). Neocortical long term potentiation. Current Opinionin Neurobiology, 3:197–202.

[Bell, 1937] Bell, E. (1937). Men of Mathematics. Simon & Schuster, New York.

[Belletti, 1990] Belletti, A. (1990). Generalized verb movement. Rosenberg and Sellier, Torino, (IT).

[Bergdoll and Koch, 1995] Bergdoll, S. and Koch, U. T. (1995). BIOSIM – a biological neural network simulatorfor research and teaching, featuring interactive graphical user interface and learning capabilities. Neurocomputing,8:93–112.

[Beth, 1962] Beth, E. (1962). Formal Methods, An introduction to symbolic logic and to the study of effectiveoperations in arithmetic and logic. Reidel, Dordrecht.

[Bichakjian, 2002] Bichakjian, B. H. (2002). Language in a Darwinian Perspective. Peter Lang, Frankfurt, (DE).

[Biro and Kotatko, 1995] Biro, J. I. and Kotatko, P., editors (1995). Frege, Sense and Reference One Hundred YearsLater. Kluwer, Dordrecht (NL).

[Bliss and Collingridge, 1993] Bliss, T. and Collingridge, G. (1993). A synaptic model of memory: long-termpotentiation in the hippocampus. Nature, 361:31–39.

[Bochenski, 1956] Bochenski, J. M. (1956). Formale Logik. Verlag Karl Alber, Freiburg. trad. it. La Logica Formaledi A. Conte, Einaudi, 1972.

[Bonomi, 1973] Bonomi, A., editor (1973). La struttura logica del linguaggio. Bompiani, Milano (IT).

[Boole, 1847] Boole, G. (1847). The Mathematical Analysis of Logic Being an Essay towards a Calculus of DeductiveReasoning. Macmillan, Cambridge. Trad. it. di Mario Trinchero Analisi matematica della logica, saggio d’ uncalcolo di ragionamento deduttivo, 1965.

[Boole, 1854] Boole, G. (1854). An Investigation of the Laws of Thought, on which are founded the MathematicalTheories of Logic and Probabilities. Walton and Maberley, London. Trad. it. di Mario Trinchero Indagine sulleleggi del pensiero, cui sono fondate le teorie matematiche della logica e della probabilita‘, 1976.

[Boolos, 1985] Boolos, G. (1985). Reading the Begriffsschrift. Mind, 94:331–344. Reprinted in[Burgess and Jeffrey, 1998].

[Boolos, 1986] Boolos, G. (1986). Saving Frege from contradiction. Proceedings of the Aristotelian Society, 97:137–151. Reprinted in [Burgess and Jeffrey, 1998].

[Boolos, 1993] Boolos, G. (1993). Whence the contradiction? The Aristotelian Society Supplement, LXVII:213–234.Reprinted in [Burgess and Jeffrey, 1998].

[Braitenberg and Schuz, 1991] Braitenberg, V. and Schuz, A. (1991). Anatomy of the cortex. Springer-Verlag, Berlin.

[Bunt and Nijholt, 2000] Bunt, H. and Nijholt, A. (2000). Advances in Probabilistic and Other Parsing Technologies.Kluwer, Dordrecht (NL).

[Burgess and Jeffrey, 1998] Burgess, J. and Jeffrey, R., editors (1998). Logic, Logic, and Logic. Harvard UniversityPress, Cambridge (MA).

[Bush and Douglas, 1991] Bush, P. C. and Douglas, R. J. (1991). Synchronization of bursting action potential dischargein a model network of neocortical neurons. Neural Computation, 3:19–30.

[Call and Tomasello, 1994] Call, J. and Tomasello, M. (1994). Production and comprehension of referential pointingby orangutans. Journal of Comparative Psychology, 108:307–315.

[Call and Tomasello, 1997] Call, J. and Tomasello, M. (1997). Primate Cognition. Oxford University Press, Oxford(UK).

Le Matematiche del Linguaggio 199

[Cangelosi et al., 2000] Cangelosi, A., Greco, A., and Harnad, S. (2000). From robotic toil to symbolic theft:Grounding transfer from entry-level to higher-level categories. Connection Science, 12:143–162.

[Cangelosi and Parisi, 1998] Cangelosi, A. and Parisi, D. (1998). The evolution of a ’language’ in an evolvingpopulation of neural nets. Connection Science, 10:83–97.

[Cantor, 1883] Cantor, G. (1883). Uber unendliche, lineare Punktmanichfaltigkeiten. Mathematische Annalen,21:545–591.

[Caramazza and Zurif, 1976] Caramazza, A. and Zurif, E. B. (1976). Dissociation of algorithmic and heuristicprocesses in language comprehension: Evidence from aphasia. Brain and Language, 3:572–582.

[Carlsson, 1988] Carlsson, A. (1988). The current status of dopamine hypothesis of schizophrenia.Neuropsychopharmacology, 1:179–203.

[Carnap, 1952] Carnap, R. (1952). Meaning postulates. Philosophical Studies, pages 65–73.

[Chauvin, 1989] Chauvin, Y. (1989). Toward a connectionist model of symbolic emergence. In Proceedings of the11th Conference of the Cognitive Science, pages 487–580, Mahwah (NJ). Lawrence Erlbaum Associates.

[Chomsky, 1957] Chomsky, N. (1957). Syntactic Structures. Mouton & Co., The Hague (NL).

[Chomsky, 1958] Chomsky, N. (1958). On certain formal properties of grammars. Information and Control, 1:91–112.

[Chomsky, 1964] Chomsky, N. (1964). Current Issues in Linguistic Theory. Mouton & Co., The Hague (NL).

[Chomsky, 1965] Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press, Cambridge (MA).

[Chomsky, 1966] Chomsky, N. (1966). Cartesian Linguistics: a Chapter in the History of Rationalist Thought. Harperand Row Pub. Inc, New York.

[Chomsky, 1968] Chomsky, N. (1968). Language and Mind. Harcourt, Brace and World, New York. second enlargededition, 1972.

[Chomsky, 1972] Chomsky, N. (1972). Studies on semantics in generative grammar. Mouton & Co., The Hague (NL).

[Chomsky, 1981] Chomsky, N. (1981). Lectures in Government and Binding. Foris, Dordrecht.

[Chomsky, 1986a] Chomsky, N. (1986a). Barriers. MIT Press, Cambridge (MA).

[Chomsky, 1986b] Chomsky, N. (1986b). Knowledge of Language: Its Nature, Origins and Use. Praeger, New York.

[Chomsky, 1991] Chomsky, N. (1991). Some notes on economy of derivation and representation. In Freidin, R., editor,Principles and Parameters in Comparative Syntax. MIT Press, Cambridge (MA).

[Chomsky, 1993] Chomsky, N. (1993). A minimalist progam for linguistic theory. In Hale, K. and Keyser, S. J.,editors, The View from Building 20: Essays in Linguistics in Honor of Sylvain Bromberger. MIT Press, Cambridge(MA).

[Chomsky, 1995] Chomsky, N. (1995). The Minimalist Program, chapter 4 Categories and Transformations. MITPress, Cambridge (MA). Second Edition: 1997.

[Chomsky and Halle, 1968] Chomsky, N. and Halle, M. (1968). The Sound Pattern of English. Harper and Row Pub.Inc, New York.

[Chomsky and Lasnik, 1993] Chomsky, N. and Lasnik, H. (1993). The theory of principles and parameters. In Ja-cobs, J., von Stechow, A., Sternefeld, W., and Vennemann, T., editors, Syntax – An International Handbook ofContemporary Research. W. de Gruyter, Berlin, (DE).

[Chomsky and Miller, 1963] Chomsky, N. and Miller, G. A. (1963). Formal properties of grammars. In Luce, R. D.,Bush, R. R., and Galanter, E., editors, Handbook of Mathematical Psychology. John Wiley, New York.

[Chow and Hale, 1982] Chow, S. N. and Hale, J. K. (1982). Methods of Bifurcation Theory. Prentice Hall, EnglewoodCliffs (NJ).

[Church, 1941] Church, A. (1941). The Calculi of Lambda Conversion. Princeton University Press, Princeton (NJ).

[Church, 1956] Church, A. (1956). Introduction to Mathematical Logic. Princeton University Press, Princeton (NJ).

[Churchland, 1986a] Churchland, P. M. (1986a). Some reductive strategies in cognitive neurobiology. Mind, 95:279–309.

[Churchland, 1989] Churchland, P. M. (1989). A Neurocomputational perspective: The Nature of Mind and theStructure of Science. MIT Press, Cambridge (MA).

[Churchland and Churchland, 1990] Churchland, P. M. and Churchland, P. S. (1990). Could a machine think?Scientific American, 262:3239.

200 BIBLIOGRAFIA

[Churchland, 1986b] Churchland, P. S. (1986b). Neurophilosophy. MIT Press, Cambridge (MA).

[Churchland and Sejnowski, 1994] Churchland, P. S. and Sejnowski, T. (1994). The Computational Brain. MIT Press,Cambridge (MA).

[Clarke, 1705] Clarke, S. (1705). A Demonstration on Existence and Attributes of God. London. in Works, 1738–42.

[Collins and Loftus, 1975] Collins, A. M. and Loftus, E. F. (1975). A spreading-activation theory of semanticprocessing. Psychological Review, 82:407–425.

[Condillac, 1798] Condillac, E. B. (1798). La langue des calculs. Paris. in Œuvres, vol II, 1948.

[Cook, 1989] Cook, W. A. (1989). Case Grammar Theory. Georgetown University Press, Washington, (DC).

[Cottrell et al., 1990] Cottrell, G., Bartell, B., and Haupt, C. (1990). Grounding meaning in perception. In Proceedingsof the German Workshop for AI, Berlin. Springer-Verlag.

[Cottrell and Fort, 1988] Cottrell, M. and Fort, J. (1988). Etude d’un processus d’auto-organisation. Annales de l’institut Henri Poincare, 23(1).

[Cybenko, 1989] Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function, mathematics ofcontrol. Signals and Systems, 2:303–314.

[Dale, 1935] Dale, H. H. (1935). Pharmacology and nerve endings. Proceedings of the Royal Society of Medicine,28:319–332.

[Darwin, 1880] Darwin, C. (about 1880). Notebooks. Published in [Barrett, 1987].

[Daw et al., 2002] Daw, N. D., Kakade, S., and Dayan, P. (2002). Opponent interactions between serotonin anddopamine. Neural Networks, 15:603–616.

[De Morgan, 1841] De Morgan, A. (1841). On the foundation of algebra, I. Transactions of the CambridgePhilosophical Society, VII.

[Dedekind, 1888] Dedekind, R. (1888). Was sind und was sollen die Zahlen? Brunswick (DE).

[Dennett, 1978] Dennett, D. C. (1978). Brainstorms. Bradford Books, Montgomery (VE).

[Dennett, 1980] Dennett, D. C. (1980). The milk of human intentionality. Behavioral and Brain Science, 3:429–430.

[Dennett, 1995] Dennett, D. C. (1995). Darwin’s dangerous idea. Evolution and the meaning of life. Simon andSchuster, New York.

[Descartes, 1637] Descartes, R. (1637). La Dioptrique. Paris. trad. it. in Opere scientifiche di R. Descartes, Lojacono,E., 1983.

[Deutsch, 1985] Deutsch, D. (1985). Quantun theory, the Church-Turing principle and the universal quantumcomputer. Proceedings of the Royal Society of London, 400:97–117.

[Devlin, 1997] Devlin, K. (1997). Goodbye Descartes: The end of Logic and the Search for a New Cosmology of theMind. John Wiley, New York.

[Diamond, 1975] Diamond, C., editor (1975). Wittgenstein’s Lectures on the Foundations of Mathematics –Cambridge, 1939. Chicago University Press, Chicago (IL).

[Dooling and Christiaansen, 1977] Dooling, D. J. and Christiaansen, R. E. (1977). Levels of encoding and retention ofprose. In G, H, B., editor, The psychology of learning and motivation, volume XI. Academic Press, New York.

[Dorffner, 1995] Dorffner, G. (1995). On grounding language with neural networks. IEE Colloquium: GroundingRepresentations — Integration of Sensory Information in NLP (AI and Neural Nets Digest), 103:471–473.

[Dowty, 1985] Dowty, D. R. (1985). Natural Language Parsing. Cambridge University Press, Cambridge (UK).

[Doya, 2000] Doya, K. (2000). Metalearning, neuromodulation, and emotion. In Hatano, G., Okada, N., and Tanabe,H., editors, Affective Minds. Elsevier, Amsterdam.

[Dretske, 1981] Dretske, F. I. (1981). Knowledge and the Flow of Information. MIT Press, Cambridge (MA).

[Dreyfus, 1972] Dreyfus, H. (1972). What Computers Can’t Do: A Critique of Artificial Reason. Harper and Row Pub.Inc, New York.

[Dreyfus, 1992] Dreyfus, H. (1992). What Computers Still Can’t Do: A Critique of Artificial Reason. MIT Press,Cambridge (MA).

[Dreyfus and Dreyfus, 1986] Dreyfus, H. L. and Dreyfus, S. E. (1986). Mind Over Machine: The Power of HumanIntuition and the Expertise in the Era of the Computer. The Free Press, New York.

[du Bois-Reymond, 1849] du Bois-Reymond, E. (1849). Untersuchungen uber Thierische Elektricitat.

Le Matematiche del Linguaggio 201

[Dummett, 1973] Dummett, M. A. (1973). Frege: Philosophy of Language. Duckworth, London.

[Earley, 1970] Earley, J. (1970). An efficient context-free parsing algorithm. Communications of the Association forComputing Machinery, 13:94–102.

[Eccles, 1945] Eccles, J. C. (1945). An electrical hypothesis of synaptic and neuromuscular transmission. Nature,156:680–682.

[Edelman, 1987] Edelman, G. (1987). Neural Darwinism. Basic Books, New York.

[Edelman, 1992] Edelman, G. (1992). Bright Air, Brilliant Fire. On the Matter of the Mind. Basic Books, New York.

[Edmonds, 1971] Edmonds, J. (1971). Matroids and the greedy algorithm. Mathematical Programming, 1:126–136.

[Einstein, 1921] Einstein, A. (1921). Geometry and experience. Expanded form of an address to the Prussian Academyof Sciences in Berlin on January 27th, 1921.

[Elman, 1990] Elman, J. L. (1990). Finding structure in time. Cognitive Science, 14:179–221.

[Elman, 1993] Elman, J. L. (1993). Learning and development in neural networks: The importance of starting small.Cognition, 48:71–99.

[Elman, 1995] Elman, J. L. (1995). Language as a dynamical system. In Port, R. F. and Gelder, T. v., editors, Mind asMotion: Explorations in the Dynamics of Cognition, pages 195–225. MIT Press, Cambridge (MA).

[Enard et al., 2002] Enard, W., Przeworski, M., Fisher, S., Lai, C., Wiebe, V., Kitano, T., Monaco, A., and Paabo, S.(2002). Molecular evolution of FOXP2, a gene involved in speech and language. Nature, 418:869–872.

[Engquist and Schmid, 2001] Engquist, B. and Schmid, W., editors (2001). Mathematics Unlimited – 2001 andBeyond. Springer-Verlag, Berlin.

[Erwin et al., 1992a] Erwin, E., Obermayer, K., and Schulten, K. (1992a). Self-organizing maps: Ordering,convergence properties and energy functions. Biological Cybernetics, 67:47–55.

[Erwin et al., 1992b] Erwin, E., Obermayer, K., and Schulten, K. (1992b). Self-organizing maps: Stationary states,metastability and convergence rate. Biological Cybernetics, 67:35–45.

[Farley and Clark, 1954] Farley, B. and Clark, W. A. (1954). Simulation of self-organizing systems by digitalcomputer. IRE Transactions on Information Theory, 4:76–84.

[Feferman, 1988] Feferman, S. (1988). Weyl vindicated: Das Kontinuum seventy years later. In Cellucci, C. andSambin, G., editors, Temi e prospettive della logica e della filosofia della scienza contemporanee, SILFS, Cesena,pages 59–93, Bologna, (IT). CLUEB.

[Fillmore, 1968] Fillmore, C. J. (1968). The case for case. In Bach, E. and Harms, R. T., editors, Universals inlinguistic theory, pages 0–88. Holt, Rinehart and Winston, New York.

[Fillmore, 1987] Fillmore, C. J. (1987). Fillmore’s Case Grammar: A Reader. Julius Groos Verlag.

[Flake, 1999] Flake, G. W. (1999). The Computational Beauty of Nature. MIT Press, Cambridge (MA).

[Fodor, 1981] Fodor, J. (1981). Representations: Philosofical Essay on the Foundation of Cognitive Science. MITPress, Cambridge (MA).

[Fodor and Pylyshyn, 1988] Fodor, J. and Pylyshyn, Z. (1988). Connectionism and cognitive architecture: a criticalanalysis. Cognition, 28:3–71.

[Fodor et al., 1974] Fodor, J. A., Bever, T. G., and Garrett, M. F. (1974). The Psychology of Language. Mc Graw Hill,New York.

[Fong and Berwick, 1991] Fong, S. and Berwick, R. C. (1991). The computational implementation of principle-basedparsers. Kluwer, Dordrecht (NL).

[Foss and Cairns, 1970] Foss, D. J. and Cairns, H. S. (1970). Some effects of memory limitation upon sentencecomprehension and recall. Journal of Verbal Learning and Verbal Behavior, 9:541–547.

[Freeman, 2000] Freeman, W. J. (2000). Neurodynamics: an exploration of the Mesoscopic Brain Dynamics. Springer-Verlag, Berlin.

[Frege, 1873] Frege, G. (1873). Uber eine geometrische Darstellung der imaginaren Gebilde in der Ebene. PhD thesis,University of Gottingen. Reprinted in [Angelelli, 1967].

[Frege, 1879] Frege, G. (1879). Begriffsschrift, eine der arithmetischen nachgebildete Formelsprache des reinenDenkens. Louis Nebert, Halle a. S. Reprinted in [Angelelli, 1964], Trad. ingl. di S. Bauer-Mengelberg in[van Heijenoort, 1967], pp 1–82, Trad. it. in [Mangione, 1965].

[Frege, 1891b] Frege, G. (1879–1891b). Logik. Published in [Hermes et al., 1983].

202 BIBLIOGRAFIA

[Frege, 1881] Frege, G. (1881). Uber den Zweck der Begriffsschrift. Sitzungsberichte der Jenaischen Gesellschaft furMedizin und Naturwissenschaft, XV. Reprinted in [Angelelli, 1964].

[Frege, 1884] Frege, G. (1884). Die Grundlagen der Arithmetik: eine logisch-mathematische Untersuchung uber denBegriff der Zahl. W. Koebner, Breslau. Reprinted by Olms, Hildesheim, 1961.

[Frege, 1891a] Frege, G. (1891a). Funktion und Begriff. In Jenaischen Gesellschaft fur Medizin undNaturwissenschaft, Jena. Verlag Hermann Pohle. Reprinted in [Angelelli, 1967], Trad. It. in [Bonomi, 1973].

[Frege, 1892] Frege, G. (1892). Uber Sinn und Bedeutung. Zeitschrift fur Philosophie und philosophische Kritik,100:25–50. Reprinted in [Angelelli, 1967].

[Frege, 1903b] Frege, G. (1903b). Uber die Grundlagen der Geometrie. Jahresbericht der Deutschen Mathematiker-Vereinigung, 12:319–324 (Part I) 368–375 (Part II). Reprinted in [Angelelli, 1967].

[Frege, 1904] Frege, G. (1904). Was ist eine Funktion? In Meyer, S., editor, Festschrift Ludwig Boltzmann gewidmetzum sechzigsten Geburtstage, Leipzig. A. Barth. Reprinted in [Angelelli, 1967], Trad. it. di M. Carapezza e G.Rigamonti in [Poggi, 2002].

[Frege, 1880] Frege, G. (about 1880). Booles rechnende Logik und die Begriffsschrift. Published in[Hermes et al., 1983].

[Frege, 1903a] Frege, G. (Band I (1893), Band II (1903)a). Grundgesetze der Arithmetik. Verlag Hermann Pohle, Jena.Reprinted by Olms, Hildesheim, 1962.

[Freud, 1895] Freud, S. (1895). Project for a Scientific Psychology. The Hogarth Press, London.

[Gabor, 1946] Gabor, D. (1946). Theory of communication. Journal IEE, 93:429–459.

[Gardner and Gardner, 1969] Gardner, R. A. and Gardner, B. T. (1969). Teaching sign language to a chimpanzee.Scienze, 165:664–672.

[Gauss, 1900] Gauss, C. F. (1900). Werke. Teubner, Leibzig.

[Gazdar, 1979] Gazdar, G. (1979). Pragmatics: Implicature, Presupposition, and Logical Form. New York, AcademicPress.

[Georgakopoulos et al., 1988] Georgakopoulos, G., Kavvadias, D., and Papadimitriou, C. (1988). Probabilisticsatisfiability. Journal of Complexity, 4:1–11.

[Gerstner, 1999] Gerstner, W. (1999). Spiking neurons. In [Maass and Bishop, 1999].

[Glock, 1996] Glock, H.-L. (1996). A Wittgenstein Dictionary. Basil Blackwell, Oxford (UK).

[Godel, 1930a] Godel, K. (1930a). Die Vollstandigkeit der Axiome des logischen Funktionenkalkuls. Monatshefte furMathematik und Physik, 38:173–198. Trad. ingl. di S. Bauer-Mengelberg in [van Heijenoort, 1967], pp 582–591.

[Godel, 1930b] Godel, K. (1930b). Uber die Vollstandigkeit des Logikkalkuls. PhD thesis, University of Wien.rewritten version in [Godel, 1930a].

[Godel, 1931] Godel, K. (1931). Uber formal unentscheidbare satze der Principia Mathematica und verwand-ter systeme I. Monatshefte fur Mathematik und Physik, 38:173–198. Trad. ingl. di S. Bauer-Mengelberg in[van Heijenoort, 1967], pp 596–616.

[Gold, 1967] Gold, E. M. (1967). Language identification in the limit. Information and Control, 10:447–474.

[Goldsmith, 1985] Goldsmith, J. (1985). A principled exception to the coordinate structure constraint. In Papers fromthe Twenty-First Regional Meeting, Chicago Linguistic Society, Part I, Chicago (IL). Chicago Linguistic Society.

[Golowasch et al., 1992] Golowasch, J., Buchholz, F., Epstein, I. R., and Marder, E. (1992). Contribution of individualionic currents to activity of a model stomatogastric ganglion neuron. Journal of Neurophysiology, 67:341–349.

[Gori, 2003] Gori, M. (2003). Continuous problem solving and computational suspiciousness. In Ablameyko, S.,Goras, L., Gori, M., and Piuri, V., editors, Limitations and future trends in neural computation. IOS Publishing.

[Gori and Meer, 2002] Gori, M. and Meer, K. (2002). A step towards a complexity theory for analog systems.Mathematical Logic Quarterly, 48:45–59.

[Greenfield and Savage-Rumbaugh, 1991] Greenfield, P. M. and Savage-Rumbaugh, E. S. (1991). Imitation, gramma-tical development, and the invention of protogrammar by an ape. In Krasnegor, N. A., Rumbaugh, D. M., Schiefel-bush, R. L., and Studdert-Kennedy, M., editors, Biological and behavioral determinants of language development.Lawrence Erlbaum Associates, Mahwah (NJ).

[Grice, 1957] Grice, H. P. (1957). Meaning. Philosophical Review, 66:377–388. Republished in H.P. Grice, Studies inthe Way of Words, Harvard University Press, 1989.

Le Matematiche del Linguaggio 203

[Gruber, 1976] Gruber, J. (1976). Lexical Structures in Syntax and Semantics. North Holland, Amsterdam.

[Habash and Dorr, 2001] Habash and Dorr (2001). Large scale language independent generation using thematichierarchies. In Proceedings of the MT Summit VIII.

[Hailperin, 1965] Hailperin, T. (1965). Best possible inequalities for the probability of a logical function of events.American Mathematical Monthly, 72:343–359.

[Hailperin, 1976] Hailperin, T. (1976). Boole’s Logic and Probability. North Holland, Amsterdam. Second Ed. 1986.

[Haken, 1978] Haken, H. (1978). Synergetics – An Introduction, Nonequilibrium Phase Transitions andSelf-organization in Physics, Chemistry and Biology. Springer-Verlag, Berlin.

[Hameroff and Penrose, 1996] Hameroff, S. and Penrose, R. (1996). Orchestrated reduction of quantum coherence inbrain microtubules: A model for consciousness. In Hameroff, S., Kasznuak, A., and Scott, A., editors, Toward ascience of Consciousness - The first Tucson discussions and debates. MIT Press, Cambridge (MA).

[Hamilton, 1837] Hamilton, W. (1837). Quaternions. boh.

[Hancock et al., 1992] Hancock, P. J. B., Baddeley, R. J., and Smith, L. S. (1992). The principal components of naturalimages. Network, 3:61–70.

[Harrah, 1968] Harrah, D. (1968). Erotetic logic. In Lambert, K., editor, The Logical Way of Doing Thinks, pages3–21. Yale University Press, New Haven (CO).

[Harris, 1951] Harris, Z. S. (1951). Methods in Structural Linguistics. Chicago University Press, Chicago (IL).

[Hartshorne and Weiss, 1935] Hartshorne, C. and Weiss, P., editors (1935). Collected Papers of Charles SandersPeirce. Harvard University Press, Cambridge (MA).

[Hayes and Hayes, 1951] Hayes, K. J. and Hayes, C. (1951). The intellectual development of a home-raisedchimpanzee. Proceedings of the American Philosophical Society, 95:105–109.

[Hebb, 1949] Hebb, D. O. (1949). The Organization of Behavior. John Wiley, New York.

[Henkin, 1949] Henkin, L. (1949). The completeness of the first-order functional calculus. Journal of Symbolic Logic,14:159–166.

[Hermes et al., 1983] Hermes, H., Kambartel, F., and Kaulbach, F., editors (1983). Nachgelassene Schriften. FelixMeiner, Hamburg. second edition.

[Herrero, 2001] Herrero, M. A. (2001). The growth of planar filamentary structures. In Proceedings of the 11Conference of the European Consortium for Mathematics in Industry, Berlin. Springer-Verlag.

[Hilbert, 1899] Hilbert, D. (1899). Grundlagen der Geometrie. Teubner, Leibzig. reprint, 1903, 1930.

[Hilbert, 1900] Hilbert, D. (1900). Mathematische Probleme. Votrag, gehalten auf dem internationalen Mathematiker-Kongress zu Paris. In Nachrichten der Koniglichen Gesellschaft der Wissenschaften zu Gottingen, pages 253–297. Translation, incorporating subsequent emendations and additions, by Mary Winston Newson in Bulletin of theAmerican Mathematical Society (Ser. 2) 8 (1902): 437–79.

[Hilbert and Ackermann, 1928] Hilbert, D. and Ackermann, W. (1928). Grundzuge der theoretischen Logik. Springer-Verlag, Berlin. Trad. Principles of Mathematical Logic, Chelsea,New York,Second edition, 1959.

[Hille, 1992] Hille, B. (1992). Ionic Channels of Excitable Membranes. Sinauer, Sunderland (MA).

[Hilpinen, 1983] Hilpinen, R. (1983). On C. S. Peirce’s tjeory of proposition: Peirce as a precursor of game-theoreticalsemantics. In Freeman, E., editor, The Relevance of Charles Peirce. The Hegeler Institute, La Salle.

[Hintikka, 1973] Hintikka, J. (1973). Logic, Language Games, and Information. Clarendon Press, Oxford (UK).

[Hintikka, 1996a] Hintikka, J., editor (1996a). The Principles of Mathematics Revisited. Cambridge University Press,Cambridge (UK).

[Hintikka, 1996b] Hintikka, J. (1996b). A revolution in logic? Nordic Journal of Philosophical Logic, 1:169–183.

[Hintikka and Sandu, 1996] Hintikka, J. and Sandu, G. (1996). Game-theoretical semantics. In van Benthem, J. andter Meulen, A., editors, Handbook of Logic and Language. Elsevier, Amsterdam.

[Hobbes, 1651] Hobbes, T. (1651). Leviathan. London. trad. it. di G. Nicheli, La Nuova Italia, 1976.

[Hobbs, 1985] Hobbs, J. R. (1985). Ontological promiscuity. In Mann, W., editor, Proceedings of the Twenty-Third Meeting of the Association for Computational Linguistics, pages 61–69, Morristown (NJ). Association forComputational Linguistics.

[Hodgkin and Huxley, 1952] Hodgkin, A. L. and Huxley, A. F. (1952). A quantitative description of ion currents andits applications to conduction and excitation in nerve membranes. Journal of Physiology, 117:500–544.

204 BIBLIOGRAFIA

[Hofstadter, 1980] Hofstadter, D. R. (1980). Reductionism and religion. Behavioral and Brain Science, 3:433–434.

[Hofstadter, 1979] Hofstadter, R. D. (1979). Godel, Escher, Bach: an eternal golden braid. Basic Books, New York.

[Hogenbout and Matsumoto, 1998] Hogenbout, W. R. and Matsumoto, Y. (1998). Robust parsing using a hiddenMarkov model. In Karttunen, L., editor, International Workshop on Finite State Methods in Natural LanguageProcessing. Association for Computational Linguistics, Somerset (NJ).

[Holden, 1986] Holden, A. V., editor (1986). Chaos. Manchester University Press, Manchester (UK).

[Honkela et al., 1995] Honkela, T., Pulkki, V., and Kohonen, T. (1995). Contextual relations of words in Grimmtales, analyzed by self-organizing map. In Fogelman-Soulie, F. and Gallinari, P., editors, Proceedings ICANN’95,International Conference on Artificial Neural Networks, pages 3–7. EC2, Nanterre, France.

[Hopper, 1953] Hopper, G. M. (1953). Compiling routines. Computers and Automation, 2:1–5.

[Hornik et al., 1989] Hornik, K., Stinchcombe, M., and White, H. (1989). Multilayer feedforward networks areuniversal approximators. Neural Networks, 2:359–366.

[Huang, 1983] Huang, M. S. (1983). A developmental study of children’s comprehension of embedded sentences withand without semantic constraints. Journal of Psychology, 114:51–56.

[Hubel and Wiesel, 1962] Hubel, D. H. and Wiesel, T. N. (1962). Receptive fields, binocular interaction, and functionalarchitecture in the cat’s visual cortex. Journal of Physiology, 160:106–154.

[Hubel and Wiesel, 1968] Hubel, D. H. and Wiesel, T. N. (1968). Receptive fields and functional architecture of mokeystriate cortex. Journal of Physiology, 195:215–243.

[Hurford, 2000] Hurford, J. (2000). The emergence of syntax. In Chris Knight, J. R. H. and Studdert-Kennedy, M.,editors, The Evolutionary Emergence of Language: Social Function and the Origins of Linguistic Form. CambridgeUniversity Press, Cambridge (UK).

[Hurford and Kirby, 2001] Hurford, J. R. and Kirby, S. (2001). The emergence of linguistic structure: An overviewof the iterated learning model. In Cangelosi, A. and Parisi, D., editors, Simulating the Evolution of Language.Springer-Verlag, Berlin.

[Husserl, 1907] Husserl, E. (1907). In und Raum. Vorlesungen 1907, D., editor, Husserliana 16. Martinus Nijhoff,The Hague (NL). 1973.

[Jackendoff, 1994a] Jackendoff, R. (1994a). Patterns in the Mind. Basic Books, New York.

[Jackendoff, 1994b] Jackendoff, R. (1994b). The representational structures of the language faculty and their interac-tions. In Brown, C, M. and Hagoort, P., editors, The Cognitive Neuroscience of Language. Oxford University Press,Oxford (UK).

[Jakobsen, 1996] Jakobsen, M. (1996). Semantisk roller i tysk - og mine anskuelser om roller. In Rasmussen, L. S.,editor, Semantiske Roller. Odense Working Papers in Language and Communication 10.

[Jarvella, 1979] Jarvella, R. J. (1979). Immediate memory and discourse processing. In G, H, B., editor, The psychologyof learning and motivation, volume XIII. Academic Press, New York.

[Jensen and Lisman, 1998] Jensen, O. and Lisman, J. E. (1998). An oscillatory short-term memory buffer model canaccount for data on the Stemberg task. Journal of Neuroscience, 18:10688–10699.

[Johnson-Laird, 1983] Johnson-Laird, P. (1983). Mental Models: towards a cognitive science of language, inferenceand consciousness. Cambridge University Press, Cambridge (UK).

[Johnson-Laird and Stevenson, 1970] Johnson-Laird, P. N. and Stevenson, R. (1970). Memory for syntax. Nature,227:412.

[Jolliffe, 1986] Jolliffe, I. T., editor (1986). Principal Component Analysis. Springer-Verlag, Berlin.

[Joshi, 1987] Joshi, A. K. (1987). An introduction to tree adjoining grammars. In Manaster-Ramer, A., editor,Mathematics of Language. John Benjamins, Amsterdam.

[Kandel et al., 1991] Kandel, E. R., Schwartz, J. H., and Jessel, T. M. (1991). Principles of Neural Science. Elsevier,Amsterdam.

[Kasami, 1965] Kasami, T. (1965). An efficient recognition and syntax algorithm for context-free languages. ScientificReport 65-758, AFCRL, Bedford (MA).

[Katz, 1999] Katz, P. S. (1999). Beyond Neurotransmission: neuromodulation and its importance for informationprocessing. Oxford University Press, Oxford (UK).

[Kellogg and Kellogg, 1933] Kellogg, W. N. and Kellogg, L. A. (1933). The ape and the child. Mc Graw Hill, NewYork.

Le Matematiche del Linguaggio 205

[Khaneman et al., 1982] Khaneman, D., Slovic, P., and Tversky, A., editors (1982). Judgment under Uncertainty:Heuistics and Biases. Cambridge University Press, Cambridge (UK).

[Kirchhoff, 1847] Kirchhoff, G. (1847). Annalen der Physik und Chemie, 72:497–508.

[Kistler et al., 1997] Kistler, W. M., Gerstner, W., and van Hemmen, L. (1997). Reduction of the Hodgkin-Huxleyequations to single-variable threshold model. Neural Computation, 9:1015–1045.

[Kleene, 1936] Kleene, S. C. (1936). General recursive functions of natural numbers. Mathematische Annalen,112:727–742.

[Kleene, 1956] Kleene, S. C. (1956). Representation of events in nerve nets and finite automata. Automata studies,34:3–41.

[Kleene, 1967] Kleene, S. C. (1967). Mathematical Logic. John Wiley, New York.

[Klemke, 1968] Klemke, E. D., editor (1968). Essays on Frege. University of Illinois Press, Urbana (IL).

[Kneale and Kneale, 1962] Kneale, W. C. and Kneale, M. (1962). The Development of Logic. Clarendon Press, Oxford.trad. it. di A. G. Conte Storia della Logica, Einaudi, 1972.

[Kohonen, 1982] Kohonen, T. (1982). Self-organizing formation of topologically correct feature maps. BiologicalCybernetics, 43:59–69.

[Kohonen, 1984] Kohonen, T. (1984). Self-Organization and Associative Memory. Springer-Verlag, Berlin.

[Kohonen, 1988] Kohonen, T. (1988). The ’neural’ phonetic typewriter. Computer, 21:11–22.

[Kohonen, 1995] Kohonen, T. (1995). Self-Organizing Maps. Springer-Verlag, Berlin.

[Kohonen et al., 1997] Kohonen, T., Kaski, S., and Lappalainen, H. (1997). Self-organized formation of variousinvariant-feature filters in the Adaptive-Subspace SOM. Neural Computation, 9:1321–1344.

[Kolata, 1977] Kolata, G. B. (1977). Catastrophe theory: The emperor has no clothes. Science, 196:350–351.

[Lakoff, 1986] Lakoff, G. (1986). A principled exception to the coordinate structure constraint. In Proceedings of thethe Twenty-First Regional Meeting, Chicago Linguistic Society, Chicago (IL). Chicago Linguistic Society.

[Lakoff and Johnson, 1980] Lakoff, G. and Johnson, M. (1980). Metaphors We Live By. Chicago University Press,Chicago (IL).

[Lakoff and Johnson, 1999] Lakoff, G. and Johnson, M. (1999). Philosophy in the Flesh. The Embodied Mind and itsChallenge to Western Thought. Basic Books, New York.

[Lakoff and Nunez, 2000] Lakoff, G. and Nunez, R. (2000). Where Mathematics comes from. How the Embodied Mindbrings Mathematics into beings. Basic Books, New York.

[Langacker, 1987] Langacker, R. W. (1987). Foundations of Cognitive Grammar. Stanford University Press, Stanford(CA).

[Lee and Farhat, 2001] Lee, G. and Farhat, N. (2001). The bifurcating neuron network 1. Neural Networks, 14:115–131.

[Leibner, 1991] Leibner, J. (1991). An Invitation to Cognitive Science. Basil Blackwell, Oxford (UK).

[Leibniz, 1666] Leibniz, G. W. (1666). De arte combinatoria. Ginevra. in Opera Omnia a cura di L. Dutens, 1768.

[Leibniz, 1684] Leibniz, G. W. (1684). Abhdlg. ohne Uberschrift Vorarb. z. allg. Charakteristik. Berlin. in Diephilosophischen Schriften a cura di C. I. Gerhardt, 1875–1863.

[Leiss, 1999] Leiss, E. (1999). Language equations. Springer-Verlag, Berlin.

[Lenat and Guha, 1989] Lenat, D. and Guha, R. V. (1989). Building large knowledge-based systems: representationand inference in the CYC project. Addison Wesley, Reading (MA).

[Lenat, 1995] Lenat, D. B. (1995). CYC: A large-scale investment in knowledge infrastructure. Communications ofthe Association for Computing Machinery, 38:33–38.

[Lenneberg, 1967] Lenneberg, E. (1967). Biological Foundations of Language. John Wiley, New York.

[Leonardi, 1992] Leonardi, P. (1992). La filosofia del linguaggio ordinario. significato e forza. In Santambrogio, M.,editor, Introduzione alla filosofia analitica del linguaggio. Laterza, Bari (IT).

[Lettvin et al., 1959] Lettvin, J., Maturana, H., McCulloch, W., and Pitts, W. (1959). What the frog’s eye tells thefrog’s brain. Proceedings of IRE, 47:1940–1951.

[Lieberman, 1967] Lieberman, P. (1967). Intonation, Perception, and Language. MIT Press, Cambridge (MA).

[Lieberman, 1991] Lieberman, P. (1991). Uniquely Human. The Evolution of Speech, Thought, and Selfless Behavior.Harvard University Press, Cambridge (MA).

206 BIBLIOGRAFIA

[Lieberman, 2002] Lieberman, P. (2002). Human Language and our Reptilian Brain. The Subcortical Bases of Speech,Syntax, and Thought. Harvard University Press, Cambridge (MA).

[Lightfoot, 1982] Lightfoot, D. (1982). The Language Lottery: Toward a Biology of Grammars. MIT Press, Cambridge(MA).

[Linde et al., 1980] Linde, Y., Buzo, A., and Gray, R. (1980). An algorithm for vector quantizer design. IEEETransactions on Communications, 28:84–95.

[Lindenmayer, 1968] Lindenmayer, A. (1968). Mathematical models for cellular interactions in development. J. Theor.Biol., 18:280–315.

[Lisman and Idiart, 1995] Lisman, J. E. and Idiart, M. A. P. (1995). Storage of 7±2 short-term memories in oscillatorysubcycles. Science, 267:1512–1515.

[Llull, 1310] Llull, R. (1260–1310). Opera omnia. Moguntiae, Paris. Compendio curato da I. Salzinger, 1721–1742.

[Longo, 1999] Longo, G. (1999). The mathematical continuum, from intuition to logic. In Petitot, J., Varela, F.,Pahoud, F., and Roy, J.-M., editors, Naturalizing Phenomenology: Issues in Contemporary Phenomonology andCognitive Science. Stanford University Press, Stanford (CA).

[Lorenzen, 1962] Lorenzen, P. (1962). Metamathematik. Bibligraphisches Institut, Mannhein, (DE).

[Lothaire, 2002] Lothaire, M. (2002). Algebraic Combinatorics on Words. Cambridge University Press, Cambridge(UK).

[Lovelace, 1842] Lovelace, Mary Caroline, C. o. A. A. (1842). Translator’s notes to an article on Babbage’s analyticalengine. In Taylor, R., editor, Scientific Memories, volume 3, pages 691–731.

[Lowe and McDonald, 2000] Lowe, W. and McDonald, S. (2000). The direct route: mediated priming in semanticspace. In Gernsbacher, M. A. and Derry, S. D., editors, Proceedings of the 22nd Annual Meeting of the CognitiveScience Society, pages 675–680. Lawrence Erlbaum Associates.

[Lucas, 1961] Lucas, J. R. (1961). Minds, machines, and Godel. Philosophy, 36:112–127.

[Łukaszewicz, 1925] Łukaszewicz, J. (1925). D emonstartion de la compabilite des axiomes de la theorie de ladeduction. Annales de la Societe Polonaise de Mathematique, 3:§149.

[Łukaszewicz, 1957] Łukaszewicz, J. (1957). Aristotle’s Syllogistic from the Standpoint of Modern Formal Logic.Clarendon Press, Oxford.

[Maass and Bishop, 1999] Maass, W. and Bishop, C. M., editors (1999). Pulsed Neural Networks. MIT Press,Cambridge (MA).

[Machover, 1995] Machover, M. (1995). Set theory, Logic and Their Limitations. Cambridge University Press,Cambridge (UK).

[MacLennan, 1988] MacLennan, B. J. (1988). Logic for the new AI. In Fetzer, J. H., editor, Aspects of ArtificialIntelligence, pages 163–192. Kluwer, Dordrecht (NL).

[MacLennan, 1993] MacLennan, B. J. (1993). Continuous symbol systems: The logic of connectionism. In Levine,D. S. and Aparicio, M., editors, Neural Networks for Knowledge Representation and Inference, pages 83–120.Lawrence Erlbaum Associates, Mahwah (NJ).

[MacWhinney, 1994] MacWhinney, B. (1994). The dinosaurs and the ring. In Corrigan, R., Iverson, G., and Lima, S.,editors, The Reality of Linguistics Rules. Benjamins, Amsterdam.

[MacWhinney, 1999] MacWhinney, B., editor (1999). The Emergence of Language. Lawrence Erlbaum Associates,Mahwah (NJ). Second Edition.

[MacWhinney et al., 1989] MacWhinney, B., Leinbach, J., Taraban, R., and McDonald, J. (1989). Language learning:Cues or rules? Journal of Memory and Language, 28:255–277.

[Mandelbrot, 1983] Mandelbrot, B. (1983). The Fractal Geometry of Nature. W. H. Freeman, San Francisco (CA).

[Mangione, 1965] Mangione, C., editor (1965). Frege, Logica e Aritmetica, Scritti scelti. Boringhieri, Torino.

[Manna, 1974] Manna, Z. (1974). Mathematical Theory of Computation. Mc Graw Hill, New York.

[Marconi, 1997a] Marconi, D., editor (1997a). Guida a Wittgenstein – Il “Tractatus”, dal “Tractatus” alle “Ricerche”,Matematica, Regole e Linguaggio privato, Psicologia, Certezza, Forme di vita. Laterza, Bari (IT).

[Marconi, 1997b] Marconi, D. (1997b). Lexical Competence. MIT Press, Cambridge (MA). Ediz. it. CompetenzaLessicale, Laterza, 1999.

[Markov, 1913] Markov, A. A. (1913). An example of statistical investigation in the text of “Eugene Onegin”illustrating coupling of “tests” in chains. Proceedings of the Academy of Sciences of St. Petersburg, 7.

Le Matematiche del Linguaggio 207

[Marsalek et al., 1997] Marsalek, P., Koch, C., and Maunsell, J. (1997). On the relationship between synaptic inputand spike output jitter in individual neurons. Proc. Natl. Acad. Sci. USA, 94:735–740.

[Marsden and McCracken, 1976] Marsden, J. and McCracken, M. (1976). Hopf Bifurcation and its Applications.Springer-Verlag, Berlin.

[Martin et al., 1998] Martin, G. R., Eglen, R. M., Hoyer, D., Hamblin, M. W., and Yocca, F., editors (1998). Advancesin serotonin receptor research: Molecular biology, signal transduction, and therapeutics. New York Academy ofScience, New York.

[Martin-Lof, 1996] Martin-Lof, P. (1996). On the meanings of the logical constants and the justifications of the logicallaws. Nordic Journal of Philosophical Logic, 1:11–60.

[Massaro, 1988] Massaro, D. W. (1988). Some criticisms of connectionist models of human performance. Journal ofExpeimental Psychology, 5:595–609.

[Mastronade, 1983] Mastronade, D. N. (1983). Correlated firing of retinal ganglion cells: I. spontaneously activeinputs in X- and Y-cells. Journal of Neuroscience, 14:409–441.

[McCarthy, 1960] McCarthy, J. (1960). Recursive functions of symbolic expressions and their computation bymachine. Communications of the Association for Computing Machinery, 3:184–195.

[McCarthy, 1963] McCarthy, J. (1963). A basis for a mathematical theory of computation. In Braffort, P. andHirschberg, D., editors, Computer Programming and Formal System. North Holland, Amsterdam.

[McCarthy et al., 1962] McCarthy, J., Abrahams, P. W., Edwards, D. J., Hart, T. P., and Levin, M. (1962). LISP 1.5Programmer’s Manual. MIT Press, Cambridge (MA).

[McDermott, 1976] McDermott, D. (1976). Artificial intelligence meets natural stupidity. Newsletter of the SpecialInterest Group on Artificial Intelligence of the Association for Computing Machinery (SIGART Newsletter), 57.

[McCulloch and Pitts, 1943] McCulloch, W. and Pitts, W. (1943). A logical calculus of the ideas immanent in nervousactivity. Bulletin of Mathematical Biophysics, 5:115–133.

[Mehler, 1989] Mehler, J. (1989). Language at the initial state. In Galaburda, A., editor, From Reading to Neurons,pages 189–216. MIT Press, Cambridge (MA).

[Miikkulainen, 1993] Miikkulainen, R. (1993). Subsymbolic Natural Language Processing: and Integrated Model ofScripts, Lexicon and Memory. MIT Press, Cambridge (MA).

[Miikkulainen, 1997] Miikkulainen, R. (1997). Dyslexic and category-specific aphasic impairments in aself-organizing feature map model of the lexicon. Brain and Language, 59:334–366.

[Miikkulainen et al., 1997] Miikkulainen, R., Bednar, J., Choe, Y., and Sirosh, J. (1997). Self-organization, plasticity,and low-level visual phenomena in a laterally connected map model of the primary visual cortex. In Goldstone,R. L., Schyns, P. G., and Medin, D. L., editors, Psychology of Learning and Motivation, volume 36, pages 257–308.Academic Press, New York.

[Miikkulainen and Dyer, 1991] Miikkulainen, R. and Dyer, M. G. (1991). Natural language processing with modularPDP networks and distributed lexicon. Cognitive Science, 15:343–399.

[Miller, 1962] Miller, G. A. (1962). Some psychological studies on grammar. American Psychologist, 17:748–762.

[Miller, 1991] Miller, G. A. (1991). The Science of Words. W. H. Freeman, San Francisco (CA).

[Miller et al., 1990] Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., and Miller, K. (1990). Five papers onWORDNET. Journal of Lexicography, 3:Special Issue on WORDNET.

[Miller and Isard, 1964] Miller, G. A. and Isard, S. (1964). Free recall of self-embedded english sentences. Informationand Control, 7:292–303.

[Minsky, 1974] Minsky, M. (1974). A framework for representing knowledge. Technical Report Memo 306, MITAI-Laboratory. Shorter versions in [Winston, 1975] p. 211–277.

[Minsky and Papert, 1969] Minsky, M. and Papert, S. (1969). Perceptrons. MIT Press, Cambridge (MA).

[Minsky, 1954] Minsky, M. L. (1954). Neural nets and the brain-model problem. PhD thesis, Princeton University.

[Montague, 1973] Montague, R. (1973). The proper treatment of quantification in ordinary english. In Hintikka, J., J.,M., and Suppes, P., editors, Approaches to natural language. Reidel, Dordrecht.

[Morse, 1921] Morse, M. (1921). Recurrent geodesics on a surface of negative curvature. Transactions AmericanMathematical Society, 22:84–100.

[Narendra and Parthasarathy, 1990] Narendra, K. S. and Parthasarathy, K. (1990). Identification and control ofdynamical systems using neural networks. IEEE Transactions on Neural Networks, 1:4–27.

208 BIBLIOGRAFIA

[Neher and Sakmann, 1976] Neher, E. and Sakmann, B. (1976). Noise analysis of drug induced voltage clamp currentsin denervated frog muscle fibers. Journal of Physiology, 258:705–729.

[Newell and Simon, 1976] Newell, A. and Simon, H. A. (1976). Computer science as empirical enquiry: Symbols andsearch. Communications of the Association for Computing Machinery, 19:113–126.

[O’Keefe and Recce, 1993] O’Keefe, J. and Recce, M. (1993). Phase relationship between hippocampal place unitsand the EEG theta rhytm. Hippocampus, 3:317–330.

[Orponen, 1994] Orponen, P. (1994). Computational complexity of neural networks: a survey. Nordic Journal ofComputing, 1:94–110.

[Østergaard, 1997] Østergaard, S. (1997). The Mathematics of Meaning. Aarhus University Press, Aarhus (DK).

[Pacotte, 1935] Pacotte, J. (1935). La logique et l’empirisme integral. Paris.

[Papadimitriou and Steiglitz, 1982] Papadimitriou, C. and Steiglitz, K. (1982). Combinatorial Optimization:Algorithms and Complexity. Prentice Hall, Englewood Cliffs (NJ).

[Parberry, 1990] Parberry, I. (1990). A primer on the complexity theory of neural networks. In Banerji, R. B., editor,Formal Techniques in Artificial Intelligence, pages 23–26. Elsevier, Amsterdam.

[Parisi, 1999] Parisi, D. (1999). Mente: i nuovi modelli della vita artificiale. Il mulino, Bologna.

[Pasemann, 1995] Pasemann, F. (1995). Characteristics of periodic attractors in neural ring networks. NeuralNetworks, 8:421–429.

[Peacock, 1834] Peacock, G. (1834). Treatise on Algebra. boh.

[Peirce, 1867] Peirce, C. S. (1867). On a improvement in Boole’s calculus of logic. Reprinted in[Hartshorne and Weiss, 1935].

[Peirce, 1870] Peirce, C. S. (1870). Description of a notation for the logic of relatives, resulting from an amplifica-tion of the conceptions of Boole’s calculus of logic. Memoirs of the American Academy of Sciences, 9:317–378.Reprinted in [Hartshorne and Weiss, 1935].

[Peirce, 1880] Peirce, C. S. (1880). On the algebra of logic. Reprinted in [Hartshorne and Weiss, 1935].

[Peirce, 1885] Peirce, C. S. (1885). On the algebra of logic; a contribution to the philosophy of notation. AmericanJournal of Mathematics, 7:180–202. Reprinted in [Hartshorne and Weiss, 1935].

[Pennisi, 1994] Pennisi, A. (1994). Le lingue mutole: le patologie del linguaggio fra teoria e storia. La Nuova ItaliaScientifica, Roma.

[Pennisi, 1998] Pennisi, A. (1998). Psicopatia del linguaggio. La Nuova Italia Scientifica, Roma.

[Penrose, 1989] Penrose, R. (1989). The Emperor’s new Mind. Oxford University Press, Oxford (UK).

[Penrose, 1994] Penrose, R. (1994). Shadows of the Mind. Oxford University Press, Oxford (UK).

[Penrose, 1997] Penrose, R. (1997). The Large, the Small and the Human Mind. Cambridge University Press,Cambridge (UK).

[Peters and Ritchie, 1973] Peters, S. and Ritchie, R. (1973). On the generative power of transformational grammars.Information Sciences, 6:49–83.

[Petitot, 1985] Petitot, J. (1985). Morphgenese du sens. PUF, Paris.

[Petitot, 1991] Petitot, J. (1991). Syntaxe topologique et grammaire cognitive. Langages, 103:97–128.

[Petitot, 1997] Petitot, J. (1997). La neige est blanche ssi ... predication et perception. Mathematiques, Informatiqueet Sciences humaines, 35:35–50.

[Petitot and Tondut, 1999] Petitot, J. and Tondut, Y. (1999). Vers une neuro-geometrie. fibrations corticales, structuresde contact et contours subjectifs modaux. Mathematiques, Informatique et Sciences humaines, 145:5–101.

[Piaget, 1936] Piaget, J. (1936). La naissance de l’intelligence chez l’enfant. Delachaux et Niestle, Geneva.

[Piaget, 1937] Piaget, J. (1937). La construction du reel chez l’enfant. Delachaux et Niestle, Geneva.

[Picardi, 1994] Picardi, E. (1994). La chimica dei concetti. Il Mulino, Bologna (IT).

[Pinker, 1994] Pinker, S. (1994). The language instinct. How the mind creates language. William Morrow, New York.

[Plebe, 2001] Plebe, A. (2001). Self-organizing map approaches to the traveling salesman problem. In Maggini, M.,editor, Limitations and Future Trends in Neural Computation, NATO Advanced Research Workshop, 22–24 October,2001, Siena, Italy.

[Plebe and Anile, 2002] Plebe, A. and Anile, A. M. (2002). A neural-network-based approach to the double travelingsalesman problem. Neural Computation, 14(2):437–471.

Le Matematiche del Linguaggio 209

[Plebe et al., 2001] Plebe, A., Anile, A. M., and Rinaudo, S. (2001). Neural networks in circuit simulators. In Dorffner,G., Bischof, H., and Hornik, K., editors, Artificial Neural Networks – ICANN 2001 International Conference, Vienna,Austria, August 2001, pages 699–705, Berlin. Springer-Verlag. ISBN: 3540424865.

[Plebe, 1966] Plebe, Armando, I. (1966). Introduzione alla logica formale. Laterza, Bari (IT).

[Plunkett and Sinha, 1992] Plunkett, K. and Sinha, C. G. (1992). Connectionism and developmental theory. BritishJournal of Developmental Psychology, 10:209–254.

[Poggi, 2002] Poggi, S., editor (2002). Le leggi del pensiero tra logica, ontologia e psicologia. Il dibattito austro-tedesco (1830–1930). Edizioni Unicopli, Milano.

[Pollack, 1990] Pollack, J. B. (1990). Recursive distributed representations. Artificial Intelligence, 46:77–105.

[Pollock, 1989] Pollock, J.-Y. (1989). Verb movement, universal grammar, and the structure of IP. Linguistic Inquiry,20:365–424.

[Popper, 1962] Popper, K. (1962). Conjectures and Refutations: the Growth of Scientific Knowledge. Basic Books,New York.

[Post, 1921] Post, E. (1921). Introduction to a general thoery of elementary propositions. Journal of Mathematics,43:163–185.

[Post, 1947] Post, E. (1947). Recursive unsolvability of a problem of Thue. Journal of Symbolic Logic, 12:1–11.

[Pour-El and Richards, 1981] Pour-El, M. B. and Richards, I. (1981). Wave equation with computable initial data suchthat its unique solution is not computable. Advances in Mathematics, 39:215–239.

[Pullum and Gazdar, 1982] Pullum, G. and Gazdar, G. (1982). Natural languages and context-free languages.Linguistics and Philosophy, 4:471–504.

[Putnam, 1960] Putnam, H. (1960). Minds and machines. In Hook, S., editor, Dimensions of Mind. New YorkUniversity Press, New York.

[Putnam, 1988] Putnam, H. (1988). Representation and Reality. MIT Press, Cambridge (MA).

[Pylyshyn, 1981] Pylyshyn, Z. (1981). Computation and cognition: Issues in the foundations of cognitive science. TheBehavioral and Brain Sciences, 3:111–150.

[Quillian, 1968] Quillian, M. R. (1968). Semantic memory. In Minsky, M., editor, Semantic Information Processing,pages 227–270. MIT Press, Cambridge (MA).

[Quine, 1953] Quine, W. V. (1953). Mr. Strawson on logical theory. Mind, 62:433–451.

[Quine, 1937] Quine, W. V. O. (1937). New foundations for mathematical logic. In From a Logical Point of View.Harvard University Press, Cambridge (MA). 2d rev. ed. 1980.

[Quine, 1955] Quine, W. V. O. (1955). On Frege’s way out. Mind, 64:145–159. Reprinted in [Klemke, 1968].

[Quine, 1966] Quine, W. V. O. (1966). The ways of paradox. In The Ways of Paradox and other essays. RandomHouse, New York.

[Quinlan, 1991] Quinlan, P. (1991). Connectionism and Psychology. Harvester Wheatshaft, Hemel Hempstead, (UK).

[Ramon y Cajal, 1906] Ramon y Cajal, S. (1906). In DeFelipe, J. and Jones, E. G., editors, Cajal on the CerebralCortex: and Annotated Translation of the Complete Writings. Oxford University Press, Oxford (UK). 1988.

[Rashevsky, 1938] Rashevsky, N. (1938). Mathematical Biophysics: Physico-Mathematical Foundations of Biology.Chicago University Press, Chicago (IL).

[Raynaud, 2002] Raynaud, S. (2002). Equazione e giudizio. sulla teoria della denotazione degli enunciati dichiarativiin Frege. In [Poggi, 2002].

[Read, 1989] Read, S. (1989). Relevant logic: a Philosophical Examination of the Basis of Inference. Basil Blackwell,Oxford (UK).

[Regier, 1995] Regier, T. (1995). A model of the human capacity for categorizing spatial relations. CognitiveLinguistics, 6:63–88.

[Regier, 1996] Regier, T. (1996). The Human Semantic Potential: Spatial Language and Constrained Connectionism.MIT Press, Cambridge (MA).

[Revesz, 1985] Revesz, G. E. (1985). Introduction to Formal Languages. Mc Graw Hill, New York. correctedrepublication 1991, Dover, New York.

[Rice, 1954] Rice, H. (1954). Classes of recursively enumerable sets and their decision problems. Transaction ofAmerican Mathematical Society, 74:358–366.

210 BIBLIOGRAFIA

[Rieke et al., 1997] Rieke, F., Warland, D., de Ruyter van Steveninck, R., and Bialek, W. (1997). Spikes – Exploringthe Neural Code. MIT Press, Cambridge (MA).

[Riemann, 1854] Riemann, B. (1854). Uber die Hypothesen, welche der Geometrie zu Grunde liegen. PhD thesis,University of Gottingen. ???

[Rinzel, 1990] Rinzel, J. (1990). Electrical excitability of cells, theory and experiment: review of the Hodgkin-Huxleyfoundation and an update. Bulletin of Mathematical Biology, 52:5–23.

[Ritter and Kohonen, 1989] Ritter, H. and Kohonen, T. (1989). Self-organizing semantic maps. Biological Cybernetics,61:241–254.

[Ritter and Kohonen, 1990] Ritter, H. and Kohonen, T. (1990). Learning ’semantotopic maps’ from context. In Procee-dings IJCNN’90, International Joint Conference on Neural Networks, pages 23–26. Lawrence Erlbaum Associates,Mahwah (NJ).

[Ritter et al., 1992] Ritter, H., Martinetz, T., and Schulten, K. (1992). Neural Computation and Self-Organizing Maps.Addison Wesley, Reading (MA).

[Robinson, 1966] Robinson, A. (1966). Non-standard analysis. North Holland, Amsterdam.

[Robinson, 1965] Robinson, J. A. (1965). A machine-oriented logic based on the resolution principle. Journal of theAssociation for Computing Machinery, 12:23–41.

[Roca, 1990] Roca, I. M., editor (1990). Logical issues in Language Acquisition. Foris, Dortrecht, (DE).

[Rolls and Deco, 2002] Rolls, E. and Deco, G., editors (2002). Computational Neuroscience of Vision. OxfordUniversity Press, Oxford (UK).

[Rosch and Lloyd, 1978] Rosch, E. and Lloyd, B., editors (1978). Cognition and Categorization. Lawrence ErlbaumAssociates, Mahwah (NJ).

[Rose, 1992] Rose, S. (1992). The Making of Memory. Anchor Books, New York.

[Rosenblatt, 1958] Rosenblatt, F. (1958). The perceptron: a probabilistic model for information storage andorganisation in the brain. Psychological Review, 65:386–408.

[Roy and Pentland, 2002] Roy, D. and Pentland, A. (2002). Learning words from sights and sounds: a computationalmodel. Cognitive Science, 26:113–146.

[Rumelhart and McClelland, 1986] Rumelhart, D. E. and McClelland, J. L., editors (1986). Parallel DistributedProcessing: Explorations in the Microstructure of Cognition. MIT Press, Cambridge (MA).

[Russell, 1902] Russell, B. (1902). Letter to Frege. in [van Heijenoort, 1967].

[Russell, 1903] Russell, B. (1903). Principles of Mathematics. Chicago University Press, Chicago (IL).

[Russell, 1918] Russell, B. (1918). Mysticism and Logic, chapter 5. New York.

[Russell, 1953] Russell, B. (1953). Mr. Strawson on referring. Mind, 66:385–389.

[Saussure, 1916] Saussure, F. (1916). Course de linguistique generale. Payot, Paris. Trad. it. di Tullio De MauroCorso di Linguistica Generale, 1967.

[Savage-Rumbaugh, 1986] Savage-Rumbaugh, E. S. (1986). Ape language. Columbia University Press, New York.

[Schroder, 1997] Schroder, M. (1997). A brief history of the notation of Boole’s algebra. Nordic Journal ofPhilosophical Logic, 2, 1:41–62.

[Searle, 1980] Searle, J. R. (1980). Mind, brain and programs. Behavioral and Brain Science, 3:417–424.

[Searle and D., 1985] Searle, J. R. and D., V. (1985). Foundations of Illocutionary Logic. Mc Graw Hill, New York.

[Shannon, 1938] Shannon, C. (1938). A symbolic analysis of relay and switching circuits. Transactions of theAmerican Institute of Electrical Engineers, 57:713–723.

[Shastri and Ajjanagadde, 1993] Shastri, L. and Ajjanagadde, V. (1993). From simple associations to systematic rea-soning: A connectionist encoding of rules, variables, and dynamic bindings using temporal synchrony. Behavioraland Brain Science, 16:417–494.

[Sherrington, 1906] Sherrington, C. S. (1906). On the proprio-ceptive system, especially in its reflex aspect. Brain,29:467–482.

[Shieber, 1985] Shieber, S. M. (1985). Evidence against the context-freeness of natural languages. Linguistics andPhilosophy, 8:333–343.

[Shieber, 1986] Shieber, S. M. (1986). An Introduction to Unification-Based Approaches to Grammar. Number 4 inCSLI Lecture Notes. Center for the Study of Language and Information, Stanford University, Stanford (CA).

Le Matematiche del Linguaggio 211

[Simon, 1986] Simon, J. C. (1986). Patterns and Operators: the Foundations of Data Representations. Mc Graw Hill,New York.

[Singer, 1995] Singer, W. (1995). Synchronization of neuronal responses as a putative binding mechanism. In TheHandbook of Brain Theoriey and Neural Networks. MIT Press, Cambridge (MA).

[Singer, 2000] Singer, W. (2000). Response synchronization: a universal coding strategy for the definition of relations.In Gazzaniga, M. S., editor, The New Cognitive Neurosciences. MIT Press, Cambridge (MA). Second Edition.

[Smith, 1991] Smith, B. C. (1991). The owl and the electric encylopedia. Artificial Intelligence, 47:251–288.

[Smith, 1999] Smith, L. B. (1999). Children’s noun learning: How general learning processes make specializedlearning mechanisms. In [MacWhinney, 1999]. Second Edition.

[Smith et al., 1992] Smith, L. B., Jones, S., and Landau, B. (1992). Count nouns, adjectives, and perceptual propertiesin childen’s novel word interpretations. Developmental Psychology, 28:273–289.

[Sougne, 1999] Sougne, J. (1999). INFERNET: A neurocomputational model of binding and inference. PhD thesis,Universite de Liege. Collection PAI n 7.

[Sougne, 2001] Sougne, J. (2001). Binding and multiple instantiation in a distributed network of spiking nodes.Connection Science, 13:99–126.

[Spinoza, 1677] Spinoza, B. (1677). Ethica ordine geometrico demonstrata. Hagae. in Benedicti de Spinoza Operaquot-quot reperta sunt a cura di J. van Vlaten e J.P.N. Land, 1882.

[Squire, 1987] Squire, L. (1987). Memory and the brain. Oxford University Press, Oxford (UK).

[Stabler, 1992] Stabler, E. P., editor (1992). The Logical Approach to Syntax: Foundations, Specifications andImplementations of Theories of Government and Binding. MIT Press, Cambridge (MA).

[Stalnaker, 1973] Stalnaker, R. C. (1973). Presuppositions. Journal of Philosophical Logic, 2:447–457.

[Stannett, 1990] Stannett, M. (1990). X-machines and the halting problem: Building a super-Turing machine. FormalAspects of Computing, 2:331–341.

[Steele and Gabriel, 1996] Steele, G. L. and Gabriel, R. P. (1996). The evolution of LISP. In Bergin, T. and Gibson,R., editors, History of Programming Launguages II. Addison Wesley, Reading (MA).

[Stevens, 2000] Stevens, C. F. (2000). Models are common; good theories are scarce. Nature NeuroscienceSupplement, 3:1177.

[Stinchcombe, 1999] Stinchcombe, M. (1999). Neural network approximation of continuous functionals andcontinuous functions on compactifications. Neural Networks, 12:467–477.

[Stinchcombe and White, 1989] Stinchcombe, M. and White, H. (1989). Universal approximation using feedforwardnetworks with non-sigmoid hidden layer activation functions. In Proceedings International Joint Conference onNeural Networks, pages 613–617, S. Diego (CA).

[Stipp, 1995] Stipp, D. (1995). 2001 is just around the corner. Where’s Hal? Fortune.

[Stoy, 1977] Stoy, J. E. (1977). Denotational Semantics: The Scott-Strachey Approach to Programming LanguageTheory. MIT Press, Cambridge (MA).

[Strawson, 1952] Strawson, P. F. (1952). Introduction to Logical Theory. Methuen, London.

[Sulloway, 1982] Sulloway, F. J. (1982). Freud: Biologie der Seele: Jenseits der psycoanalytischen Legende.Hohenheim Verlag, Koln-Lovenich.

[Sussman and Zahler, 1978] Sussman, H. and Zahler, R. (1978). Catastrophe theory as applied to the social andbiological sciences. Synthese, 37:117–216.

[Tarski, 1955] Tarski, A. (1955). A lattice-theoretic fixpoint theorem and its applications. Pacific Journal ofMathematics, 5:285–309.

[Tennant, 1998] Tennant, N. (1998). Games some people would have all of us play. Philosophia Mathematica, 6:90–115.

[Thom, 1970] Thom, R. (1970). Topologie et linguistique. In Haefliger, A. and Narasimhan, R., editors, Essays onTopology and Related Topics. Springer-Verlag, Berlin.

[Thom, 1988] Thom, R. (1988). Esquisse d’une Semiophysique. Inter Editions, Paris.

[Thue, 1906] Thue, A. (1906). Uber unendliche Zeichenreihen. Norske Vid. Selsk. Skr. I. Mat. Nat. Kl., 7:1–22.

[Thue, 1912] Thue, A. (1912). Uber die gegnseitige Lage gleiche Teile gewisser Zeichenreihen. Norske Vid. Selsk.Skr. I. Mat. Nat. Kl., 10:1–67.

212 BIBLIOGRAFIA

[Tomatis, 1972] Tomatis, A. (1972). De la communication intra-uterine au langage humain. Editions ScientifiquesFrancaises, Paris.

[Tomita and Bunt, 1995] Tomita, M. and Bunt, H., editors (1995). Current Issues in Parsing Technology. Kluwer,Dordrecht (NL).

[Traub et al., 1991] Traub, R. D., Wong, R. K. S., Miles, R., and Michelson, H. (1991). A model of CA3 hippocampalpyramidal neuron incorporating voltage-clamp data on intrinsic conductances. Journal of Neurophysiology, 66:635–650.

[Trinchero, 1964] Trinchero, M. (1964). Alternative d’interpretazione della logica di Boole. Rivista di Filosofia,56:178–194.

[Turing, 1936] Turing, A. (1936). On computable numbers, with an application to the Entscheidungsproblem.Proceedings of the London Mathematical Society, 42:230–265.

[Turing, 1948] Turing, A. (1948). Intelligent machinery. Technical report, National Physical Laboratory, London.Raccolto in Ince, D. C. (ed.) Collected Works of A. M. Turing: Mechanical Intelligence, Edinburgh University Press,1969.

[Turing, 1950] Turing, A. (1950). Computing machinery and intelligence. Mind, 59:433–460.

[Twain, 1935] Twain, M. (1935). The aweful German language. In The family Mark Twain. Harper and Row Pub. Inc,New York.

[van Fraassen, 1968] van Fraassen, B. C. (1968). Presupposition, implication, and self-reference. The Journal ofPhilosophy, 65:136–152.

[van Heijenoort, 1967] van Heijenoort, J., editor (1967). From Frege to Godel: A source book in mathematical logic1879–1931. Harvard University Press, Cambridge (MA).

[Vapnik, 1995] Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag, Berlin.

[Vapnik and Chervonenkis, 1971] Vapnik, V. and Chervonenkis, A. (1971). On the uniform convergence of relativefrequencies of events to their probabilities. Theory of Probability and Its Applications, 16:264–280.

[Vapnik, 1999] Vapnik, V. N. (1999). An overview of statistical learning theory. IEEE Transactions on NeuralNetworks, 24:11–17.

[Vassallo, 1995] Vassallo, N. (1995). La depsicologizzazione della logica, un confronto tra Boole e Frege.FrancoAngeli, Milano, (IT).

[Violi, 1991] Violi, P. (1991). Linguaggio, percezione, esperienza: il caso della spazialita. Versus, 59/60:59–105.

[Violi, 1997] Violi, P. (1997). Significato ed esperienza. Bompiani, Milano (IT). Tr. by Carden, J. in Meaning andExperience, Indiana University Press, 2001.

[Volkow et al., 2000] Volkow, N. D., Wang, G. J., Fischman, M. W., Foltin, R., Fowler, J. S., Franceschi, D., France-schi, M., Logan, J., Gatley, S. J., Wong, C., Ding, Y. S., Hitzemann, R., and Pappas, N. (2000). Effects of route ofadministration on cocaine induced dopamine transporter blockade in the human brain. Life Science, 67:1507–1515.

[von der Malsburg, 1973] von der Malsburg, C. (1973). Self-organization of orientation sensitive cells in the striatecortex. Kibernetic, 14:85–100.

[von der Malsburg, 1995a] von der Malsburg, C. (1995a). Binding in models of perception and brain function. CurrentOpinion in Neurobiology, 5:520–526.

[von der Malsburg, 1995b] von der Malsburg, C. (1995b). Network self-organization in the ontogenesis of the mam-malian visual system. In Zornetzer, S. F., Davis, J., Lau, C., and McKenna, T., editors, An Introduction to Neuraland Electronic Networks, pages 447–462. Academic Press, New York. (Second Edition).

[von der Malsburg, 1999] von der Malsburg, C. (1999). The what and why of binding: The modeler’s perspective.Neuron, 24:11–17.

[von der Malsburg and Schneider, 1986] von der Malsburg, C. and Schneider, W. (1986). A neural cocktail-partyprocessor. Biological Cybernetics, 54:29–40.

[von Neumann, 1958] von Neumann, J. (1958). The Computer and the Brain. Yale University Press, New Haven (CO).

[von Neumann, 1966] von Neumann, J. (1966). Theory of Self-Reproducing Automata. University of Illinois Press,Urbana (IL).

[von Neumann and Morgenstern, 1947] von Neumann, J. and Morgenstern, O. (1947). Theory of Games and EconomicBehavior. Princeton University Press, Princeton (NJ).

Le Matematiche del Linguaggio 213

[von Wright and Ascombe, 1961] von Wright, G. H. and Ascombe, G. E., editors (1961). Notebooks 1914–1916. BasilBlackwell, Oxford (UK).

[Wallis, 1653] Wallis, J. (1653). Grammatica linguae anglicanae. Oxford.

[Wallis, 1657] Wallis, J. (1657). Mathesis universalis sive arithmeticum opus integrum. Oxford.

[Weizenbaum, 1965] Weizenbaum, J. (1965). Eliza - a computer program for the study of natural languagecommunication between man and machine. Communications of the Association for Computing Machinery, 9:36–45.

[Wexler and Culicover, 1980] Wexler, K. and Culicover, P. (1980). Formal Principles of Language Acquisition. MITPress, Cambridge (MA).

[Weyl, 1918] Weyl, H. (1918). Das Kontinuum: Kritische Untersuchungen uber die Grundlagen der Analysis. Veit,Leipzig. Trad. it. di B. Veit, Bibliopolis, Napoli, 1977.

[Whately, 1826] Whately, R. (1826). Elements of Logic. London.

[Whitehead and Russell, 1913] Whitehead, A. N. and Russell, B. (1910,1912,1913). Principia Mathematica. ChicagoUniversity Press, Chicago (IL). 3 vols, Second edition, 1925 (Vol. 1), 1927 (Vols 2, 3).

[Whitney, 1935] Whitney, H. (1935). On the abstract properties of linear dependence. American Journal ofMathematics, 57:509–533.

[Wilde and Beightler, 1967] Wilde, D. and Beightler, C. (1967). Foundations of Optimization. Prentice Hall,Englewood Cliffs (NJ).

[Willems, 1970] Willems, J. (1970). Stability theory of dynamical systems. Nelson.

[Willshaw and von der Malsburg, 1976] Willshaw, D. J. and von der Malsburg, C. (1976). How patterned neuralconnections can be set up by self-organization. Proceedings of the Royal Society of London, B194:431–445.

[Winston, 1975] Winston, P., editor (1975). The Psychology of Computer Vision. Mc Graw Hill, New York.

[Wittgenstein, 1939] Wittgenstein, C. (1939). Lectures on the foundations of mathematics. Collected in[Diamond, 1975].

[Wittgenstein, 1913] Wittgenstein, L. (1913). Notes on logic. Published in [von Wright and Ascombe, 1961].

[Wittgenstein, 1922] Wittgenstein, L. (1922). Tractatus Logico-Philosophicus. Trench, Trubner & Co., London. Trad.it. di Amedeo G. Conte 1964.

[Wittgenstein, 1953] Wittgenstein, L. (1953). Philosophische Untersuchung. Basil Blackwell, Oxford (UK). Trad. it.di Mario Trinchero Ricerche Filosofiche, Einaudi, 1967, nuova edizione 1999.

[Wittgenstein, 1964] Wittgenstein, L. (1964). Philosophische Bemerkungen. Basil Blackwell, Oxford (UK).

[Wolfe and Cave, 1999] Wolfe, J. and Cave, K. (1999). The psychophysical evidence for a binding problem in humanvision. Neuron, 24:11–17.

[Wolfram, 1994] Wolfram, S. (1994). Cellular automata and complexity. Addison Wesley, Reading (MA).

[Woods, 1975] Woods, W. A. (1975). What’s in a link: Foundations for semantic networks. In Bobrow, D. G. andCollins, A. M., editors, Representation and Understanding: Studies in Cognitive Science. Academic Press, NewYork.

[Younger, 1967] Younger, D. H. (1967). Recognition and parsing of context-free languages in time O(n3). Informationand Control, 10:447–474.

[Zadeh, 1965] Zadeh, L. (1965). Fuzzy sets. Information Control, 8:338–353.

[Zahler and Sussman, 1977] Zahler, R. and Sussman, H. J. (1977). Claims and accomplishments of applied catastrophetheory. Nature, 269:759–763.

[Zeeman, 1977] Zeeman, E. C. (1977). Catastrophe Theory. Selected papers. Addison Wesley, Reading (MA).


Recommended