ci-sono-ancora-migliaia-di-lingue-che-i-traduttori-automatici-non-conoscono

Ci sono ancora migliaia di lingue che i traduttori automatici non conoscono

Degli oltre settemila idiomi che si parlano nel mondo, solo un centinaio è coperto dai sistemi di machine translation di Google o Microsoft. Cosa fare con gli altri, per studiarli e salvarli?

Pieter Bruegel il vecchio, la torre di Babele (Wikipedia)
Pieter Bruegel il vecchio, la torre di Babele (Wikipedia)

A quasi 80 anni di storia dalla sua nascita, la traduzione automatica ha fatto passi da gigante. Ormai la utilizziamo quotidianamente senza rendercene conto. In realtà, però, questi sistemi – che sono strettamente collegati con il machine learning, il deep learning e l’elaborazione del linguaggio naturale – coprono solo una piccola parte delle lingue che si parlano nel mondo. Google Translate attualmente offre la possibilità di comunicare in circa 108 lingue diverse, mentre Bing Translator di Microsoft ne copre 70. Una goccia nel mare se si pensa che al mondo ci sono più di settemila lingue parlate e almeno quattromila hanno anche un sistema di scrittura.

Per capire lo stato dell’arte di oggi, bisogna riavvolgere i nastri della storia della traduzione automatica. In un primo momento, si basava su regole specifiche che permettevano una traduzione molto limitata. Solo a partire dagli anni Novanta si comincia a diffondere l’uso di sistemi statistici che hanno cominciato a dare una certa affidabilità al risultato del processo traduttivo.

Questi sistemi si basano sull’uso di una certa quantità di dati di una lingua che consentono il match fra due lingue in base alla quantità e alle coppie di frasi allineate. La vera svolta, di recente, è stata con l’applicazione delle reti neurali. “Si tratta di sistemi predittivi che ricostruiscono la maniera in cui il cervello funziona e ragiona prevedendo le relazioni tra parole, non limitandosi alla loro concatenazione lineare”, spiega a Wired Carlo Eugeni, ricercatore e professore di traduzione audiovisiva all’Università di Leeds.

Over a billion people now use #GoogleTranslate! Congratulations to the team on their historic technical advances that have dramatically improved translation quality. Breaking down language barriers is a big step as we work to address global challenges. https://t.co/IhztgOBL0q

— Kent Walker (@Kent_Walker) April 28, 2021

Questione di dati

Sia i sistemi statistici sia quelli neurali funzionano fra due lingue, con la differenza che le reti neurali migliorano la qualità sulla base dei dati e della loro variabilità. Tradotto: più dati di vario genere ci sono, meglio funzionerà la traduzione automatica. Il cuore del problema per le tantissime lingue che non vengono ancora tradotte da questi sistemi sta proprio qui: la mancanza di dati e fonti. “Si ha difficoltà con le lingue con meno dati, che non sono però quelle meno parlate”, continua Eugeni: “Si pensi, ad esempio, alla lingua Tamil (parlata in diversi paesi asiatici, ndr): è più parlata dell’italiano, ma non si ha una quantità di dati sufficiente da garantire una traduzione di qualità.”

Il fatto di avere pochi dati è dovuto a molte cause. “Molte lingue ad esempio hanno solo la versione orale, si pensi alle lingue tribali, e non ci sono tracce scritte. Inoltre, per le lingue che hanno lo scritto è necessario comunque avere il cosiddetto testo parallelo, ovvero la traduzione in un’altra lingua, come l’inglese”, prosegue il docente. Ma non è l’unico problema. “Per creare una rete neurale non serve avere solo una traduzione, ma avere tantissimi testi paralleli di diversi tipi in modo da alimentare il sistema di traduzione”, aggiunge Eugeni. L’esempio del Tamil ritorna anche in questo caso: c’è molto materiale, ma non le traduzioni.

Il testo parallelo, quindi, è fondamentale per le reti neurali insieme all’affidabilità delle fonti e alla qualità dei dati. Interessante è il caso inverso. Esempio: irlandese e maltese, lingue parlate molto poco rispetto a tante altre, che però hanno una quantità di dati maggiore e di buona qualità in virtù del fatto che molta documentazione relativa all’Unione Europea è tradotta anche in queste lingue. “Per quanto i risultati non siano paragonabili a quelli di lingue come inglese, spagnolo, francese o italiano, la rete neurale per queste lingue europee funziona molto meglio di lingue molto più parlate proprio perché il sistema predittivo è alimentato da fonti buone”, spiega Eugeni. Basti pensare infatti che, nell’arco di un decennio, il solo Parlamento europeo produce una raccolta di dati di circa 1,37 miliardi di parole in 23 lingue. Lo stesso vale per altre istituzioni come, per esempio, il parlamento canadese o le Nazioni Unite.

Here’s a dash of regional flavour for a happy new beginning with #MicrosoftTranslator. Translate in over 13 Indian languages now. #NewYear #NewBeginnings #Ugadi #Vishu #GudiPadwa #PoilaBaisakh #PanaSankranti #Vaisakhi pic.twitter.com/SBCMq7Fqhf

— Microsoft India R & D (@microsoftidc) April 14, 2021

Nuovi orizzonti

Davanti a questa situazione – moltissime lingue parlate, ma con dati scarsi e senza testi paralleli – la ricerca non si ferma e non si arrende. L’ultima frontiera si chiama massive multilingual neural machine translation. “Si prende il sistema predittivo applicato fra due lingue con molti dati e si trasferisce – sempre in maniera predittiva – a una o più lingue dette low resource, cioè con pochi dati e di scarsa qualità”, spiega Eugeni. Un esempio per spiegare come funziona questa rete neurale multilingue è il lussemburghese, parlato poco e con fortissime varianti dialettali. “Pur essendo parlato da pochissimi – spiega il professore – deriva dal tedesco e il sistema traduttivo funziona proprio perché la rete neurale che viene applicata alla traduzione tra inglese e lussemburghese arriva da una lingua simile”.

Nell’ottica di superare la logica di lavorare con coppie di lingue, ci sono anche altri progetti. Come racconta la Bbc, Iarpa, il braccio di ricerca dei servizi di intelligence statunitensi, sta finanziando la ricerca per sviluppare un sistema in grado di trovare, tradurre e riassumere le informazioni da qualsiasi lingua low resource, sia essa in testo o vocale. Gli sviluppatori hanno l’obiettivo di arrivare a un sistema “English-in, English-out” che, data una query in inglese sensibile al dominio, recupererà i dati rilevanti da un grande archivio multilingue e li visualizzerà tradotti.

Tutti questi progetti sono utili nel momento in cui si debba tradurre velocemente un testo o un’informazione – purché non di vitale importanza – da una lingua con pochi dati a una consolidata nei sistemi di traduzione automatica. Non solo: includere le lingue minori in questi processi significa anche proteggerle e salvarle. Ci sono progetti in America e in India per lo sviluppo software di traduzione automatica proprio rivolti alle lingue di questo tipo con l’obiettivo di farle sopravvivere, banalmente anche creando materiali scritti di lingue solo orali. “A livello di gestione del patrimonio linguistico, l’unica strada è la digitalizzazione della cultura – sottolinea Eugeni – anche se non tutti concordano”. Come ci ricorda il caso dei Maori che, racconta Wired Uk, vogliono impedire l’accesso ai dati linguistici alle big tech.

Verso la lingua universale?

Se è vero che i team di ricerca stanno utilizzando la tecnologia delle reti neurali per affrontare il problema, è altrettanto vero che modelli di rete neurale hanno rivoluzionato l’elaborazione del linguaggio negli ultimi anni. Invece di limitarsi a memorizzare parole e frasi, possono – semplificando – imparare il loro significato, aiutando gli utenti nel quotidiano.

A livello concettuale è una vera e propria rivoluzione”, conclude Eugeni: “Il sogno di molti linguisti è stato per molti anni – e forse lo è ancora – quello di trovare un sistema linguistico universale, che permetta a chiunque nel mondo di capirsi, riportando gli orologi a prima di Babele. Con le reti neurali applicate alla traduzione multilingue (massive multilingual neural machine translation) si potrebbe un giorno tradurre da una lingua verso una qualsiasi altra lingua”.

Dell’argomento dell’universalità del linguaggio ne parlava già il noto linguista Noam Chomsky nel 1957. La teoria sosteneva che, come uomini, abbiamo un’innata capacità di interagire con i nostri simili. Fra chi è più scettico e chi più ottimista, rincorrere la chimera dell’universalismo per consentire una maggiore accessibilità dei sistemi di traduzione potrebbe essere la chiave per un domani senza barriere linguistiche.

%d bloggers like this: