Articoli
6 minuti
Tech & Innovazione
Tech & Innovazione

Come il machine learning viene usato per tradurre le lingue scomparse

11 maggio 2020
autore:

La lingua olmeca nel Messico precolombiano, il rongorongo dell’Isola di Pasqua, il proto elamite comparso nell’attuale Iran 5mila anni fa e il Lineare A dell’isola di Creta sono linguaggi molto distanti nello spazio e nel tempo, ma hanno tutti una caratteristica comune: nessuno è mai stato decifrato, nonostante lo sforzo di generazioni di linguisti. Quella che ha attirato i maggiori sforzi è il Lineare A, scoperto sull’isola di Creta dall’archeologo britannico Arthur Evans nel 1886. Su molte delle tavolette e steli ritrovate da Evans durante i suoi scavi il Lineare A veniva utilizzato insieme a un altro linguaggio conosciuto come Lineare B.

Evans è morto nel 1941 e non ha fatto in tempo a vedere decifrata nessuna delle due lingue: il Lineare B, infatti, è stato svelato solo tra il 1952 e il 1953 dai due linguisti britannici Michael Ventris e John Chadwick, basandosi sull’intuizione che “le tavolette di Cnosso e di Pilo debbono, malgrado tutto, essere scritte in greco; un greco arcaico e difficile, quale può essere quello scritto cinquecento anni prima di Omero, e per di più in una forma alquanto abbreviata; ma comunque greco”. Purtroppo, per il Lineare A questo non vale e la lingua risalente al 1900 a.C. è rimasta un mistero. Almeno fino a oggi.

I ricercatori Jiaming Luo e Regina Barzilay del Massachusetts Institute of Technology di Boston, in collaborazione con Yuan Cao del laboratorio di intelligenza artificiale di Google in California, hanno sfruttato il potenziale del machine learning – branca dell’intelligenza artificiale che permette alle macchine di “imparare” in autonomia nuove funzionalità e conoscenze grazie all’esperienza e all’accumulo di dati –per creare un sistema di apprendimento automatico in grado di decodificare le lingue morte. Per metterlo alla prova hanno deciso di testarlo proprio con il Lineare B nel luglio del 2019. Il risultato è stata la traduzione automatica del 67,3% di questo idioma.

Il concetto di fondo di questo risultato è che in tutte le lingue le parole sviluppano legami che finiscono per seguire le stesse regole di base. All’interno di una frase le parole occupano statisticamente le stesse posizioni, rendendo più facile decifrare una lingua se si ha modo di confrontarla con un’altra di cui conosciamo già le regole e il significato, proprio come avvenuto con il Lineare B e il greco antico usato come sua chiave di lettura. In pratica, le lingue si evolvono sempre secondo un numero limitato di variabili. I simboli nelle lingue correlate, per esempio, vengono visualizzati con distribuzioni simili, le parole correlate hanno lo stesso ordine di caratteri e così via. A questo punto si deve procedere con un processo di ricerca di queste coincidenze, un lavoro che nel caso di una macchina è svolto in automatico e richiede uno sforzo decisamente minore di quello che hanno dovuto affrontare 70 anni fa Chadwick e Ventris.

In particolare, una macchina ricerca le interazioni tra vocaboli che ricorrono più spesso all’interno del testo, in modo da mappare in maniera progressiva la rete di relazioni linguistiche spesso basata su semplici regole matematiche. Per fare un esempio pratico, in ogni lingua lingua ritorna l’assioma che “contadino - uomo + donna = contadina”, o “re - uomo + donna = regina”. Basandosi su questo tipo di analisi algoritmiche e statistiche una macchina intelligente può procedere a oltranza, arrivando a decifrare una lingua ancora sconosciuta. Per farlo dovrà affidarsi a un algoritmo creato a partire da una lingua già conosciuta, in modo da avere una base di partenza per costruire a ampliare mano a mano il suo database operativo.

Ed è proprio questo il limite che per il momento devono affrontare Luo, Barzilay e Cao nel risolvere uno dei misteri linguistici più longevi degli ultimi 150 anni. Nessuno, infatti, ha ancora capito in quale idioma si sia poi evoluto il Lineare A. Forse si è semplicemente estinto quando i conquistatori micenei hanno raggiunto l’isola di Creta e gli hanno preferito il Lineare B per mettere le basi della lingua che poi è diventata il greco antico. Ma i ricercatori non si sono fatti scoraggiare da questa ipotesi, grazie alle prospettive offerte dal machine learning. Oggi possono fare in pochi giorni quello che fino a poco tempo fa avrebbe richiesto decenni agli studiosi: confrontare il Lineare A in modo sistematico con tutto le lingue per cui è già disponibile la traduzione automatica. Sembra ormai solo una questione di tempo prima che uno dei più appassionanti enigmi linguistici della storia venga risolto una volta per tutte.

Articolo di Flaminio Spinetti

Vuoi informazioni sulla nostra consulenza e sui nostri servizi?

Naviga il sito e vedi tutti i contenuti di tuo interesse