Rosette hi-tech, AI e server nazionali: chi lavora per preservare lingue in via d’estinzione
Immagine in evidenza da Wikimedia
“ll dialetto di Milano? Direi che è un misto di italiano e inglese”. La battuta
sintetizza bene l’onnipresenza del caricaturale vernacolo meneghino, versione
anni Duemila. Alberto lavora nel dipartimento comunicazione di una società
fintech. Trasferito dal sud Italia in Lombardia, diverse esperienze all’estero
alle spalle, racconta a cena che in tre anni non gli è mai capitato di sentire
una conversazione in milanese. Non ne conosce vocaboli e cadenza se non nelle
imitazioni di qualche comico.
In Meridione il dialetto è parlato comunemente accanto all’italiano: persino gli
immigrati lo imparano facilmente, per necessità. Nel capoluogo lombardo la
realtà è diversa. Ascoltare la lingua di Carlo Porta è raro: probabilmente la
perdita è stata favorita dall’arrivo di abitanti provenienti da ogni parte
d’Italia, dalla vocazione commerciale della città e dal fatto che parlare solo
italiano era sintomo di avvenuta scalata sociale.
Non è una domanda peregrina, dunque, chiedersi quanto a lungo resisterà senza
parlanti. Diventerà una lingua morta, da filologi, un po’ come il latino?
7MILA LINGUE, QUASI LA METÀ A RISCHIO
Le premesse sembrano esserci. Questo esempio così vicino al nostro vissuto
quotidiano è però la spia di una questione più ampia. Il problema non riguarda
solo i dialetti. In totale sono infatti oltre settemila, stima lo Undp (il
programma delle Nazioni unite per lo sviluppo), le lingue parlate nel globo,
alcune da poche centinaia di individui. Il 44% sarebbe in pericolo di
estinzione.
Con la globalizzazione, il problema di preservare la biodiversità linguistica –
portatrice non solo di cultura, ma di un modo di vedere il mondo – ha
cominciato a porsi con maggiore insistenza. Non mancano iniziative di tutela
locali, come corsi serali per appassionati e nostalgici, ma con tutta
probabilità si tratta di palliativi.
Un supporto fino a poco tempo fa impensabile può arrivare, però, per linguisti e
antropologi dalla tecnologia. Probabilmente non è la panacea di tutti i mali.
Ma, come vedremo, può aiutare.
IL ROSETTA PROJECT
Tra i primi programmi digitali al mondo per la tutela delle lingue in via di
estinzione c’è il Rosetta project, che da oltre due decenni raccoglie
specialisti e parlanti nativi allo scopo di costruire un database pubblico e
liberamente accessibile di tutte le lingue umane. Il Rosetta project fa capo a
un ente molto particolare: la Long Now foundation (Lnf, tra i membri fondatori
c’è il musicista Brian Eno). La Lnf parte da un presupposto: è necessario
pensare seriamente al futuro remoto, per non farsi trovare impreparati dallo
scorrere del tempo.
Il ragionamento è tutt’altro che banale. “Si prevede che dal cinquanta al
novanta per cento delle lingue parlate spariranno nel prossimo secolo”, spiegano
gli organizzatori sul sito, “molte con poca o nessuna documentazione”. Come
preservarle?
Lo sguardo torna all’Antico Egitto: così è nato il Rosetta Disk, un disco di
nichel del diametro di tre pollici su cui sono incise microscopicamente
quattordicimila pagine che traducono lo stesso testo in oltre mille lingue. Il
modello è la stele di Rosetta, che due secoli fa consentì di interpretare i
geroglifici, di cui si era persa la conoscenza. Una lezione che gli studiosi non
hanno dimenticato.
Il principio è più o meno lo stesso delle vecchie microfiches universitarie: per
visualizzare il contenuto basta una lente di ingrandimento. Non si tratta,
insomma, di una sequenza di 0 e 1, quindi non è necessario un programma di
decodifica. Il rischio – in Silicon Valley lo sanno bene – sarebbe che il
software vada perso nel giro di qualche decennio per via di un cambiamento
tecnologico; o (e sarebbe anche peggio) che qualche società privata che ne
detiene i diritti decida di mettere tutto sotto chiave, come peraltro avviene
per molte applicazioni con la politica del cosiddetto “vendor lock in” (Guerre
di Rete ne ha parlato in questo pezzo). Qui, invece, la faccenda è semplice:
basta ingrandire la superficie di cinquecento volte con una lente e il gioco è
fatto.
Il prezioso supporto è acquistabile per qualche centinaio di dollari, ed è stato
spedito anche nello spazio con la sonda spaziale Rosetta dell’Agenzia spaziale
europea (nonostante l’omonimia, non si tratta dello stesso progetto). Il disco è
collocato in una sfera dove resta a contatto con l’aria, ma che serve a
proteggerlo da graffi e abrasioni. Con una manutenzione minima, recitano le note
di spiegazione, “può facilmente durare ed essere letto per centinaia di anni”.
Resiste, ovviamente, anche alla smagnetizzazione (sarebbe basato su test
condotti al Los Alamos National Laboratory, lo stesso del progetto Manhattan di
Oppenheimer dove fu concepita la bomba atomica).
UNA SCELTA DIFFICILE
Porsi in una prospettiva di lungo periodo pone interessanti domande. Che tipo di
informazioni conservare per un futuro nell’ipotesi – speriamo remota – che tutto
il nostro sapere, sempre più digitalizzato, vada perso? Meglio preservare la
letteratura, le tecniche ingegneristiche, o le cure per le malattie? Un criterio
è evidentemente necessario.
La scelta della Long now foundation è stata quella di lasciare ai posteri una
chiave di interpretazione utile a tradurre tutto ciò che è destinato a
sopravvivere. Ma il progetto comprende anche una sezione digitale, cresciuta nel
corso degli anni fino a raggiungere oltre centomila pagine di documenti testuali
e registrazioni in oltre 2.500 lingue. I contenuti, si legge sul sito, sono
disponibili a chiunque per il download e il riutilizzo secondo i principi
dell’open access; anche il pubblico può contribuire alla raccolta inviando
materiale di vario tipo. Fondamentale per raccapezzarsi è il ruolo dei metadati
(data, luogo, formato e altri elementi dei dati in questione) – ci torneremo più
avanti.
IL PROGETTO FRANCESE PANGLOSS
Anche in Europa ci sono progetti di tutela del patrimonio linguistico in piena
attività. Per esempio in Francia – non dimentichiamo che la stele di Rosetta
(conservata al British Musem di Londra) fu rinvenuta nell’ambito delle
spedizioni napoleoniche – esiste il progetto Pangloss, che si propone di
realizzare un archivio aperto di tutte le lingue in pericolo o poco parlate e
contiene documenti sonori di idiomi rari o poco studiati, raccolti grazie al
lavoro di linguisti professionisti su una piattaforma moderna e funzionale
battezzata Cocoon.
Attualmente la collezione comprende un corpus di 258 tra lingue e dialetti di 46
paesi, per un totale di più di 1200 ore d’ascolto. I documenti presentati
contengono per lo più discorsi spontanei, registrati sul campo. Circa la metà
sono trascritti e annotati.
C’è anche un po’ di Italia: il dialetto slavo molisano (parlato nei tre villaggi
di San Felice del Molise, Acquaviva Collecroce e Montemitro, in provincia di
Campobasso, a 35 chilometri dal mare Adriatico) e il Valoc, un dialetto
valtellinese lombardo.
Pangloss è open, sia in modalità “base” sia in quella “pro”. La politica è di
apertura totale: per consultare il sito web non è necessario accettare
specifiche condizioni d’uso né identificarsi. Non si utilizzano cookie di
profilazione, come orgogliosamente dichiarato.
“Il progetto Pangloss è nato negli anni ‘90 e da allora si è evoluto
considerevolmente”, dice a Guerre di Rete Severine Guillaume, che ne è la
responsabile. “Si tratta di una collezione orale, il che significa che
raccogliamo contenuti video e audio che possono anche essere accompagnati da
annotazioni: trascrizioni, traduzioni, glosse. Ogni risorsa depositata
dev’essere fornita di metadati: titolo, lingua studiata, nome di chi la carica,
persone che hanno contribuito alla creazione, data della registrazione,
descrizione del contenuto”.
COME ANALIZZARE I DATI: L’IMPIEGO DELL’AI
L’intelligenza artificiale ha cominciato a farsi strada anche tra questi archivi
digitali. “Abbiamo condotto degli esperimenti sui nostri dati con l’obiettivo di
aiutare i ricercatori ad arricchirli”, conferma Guillaume. “Sono stati diversi i
test di trascrizione automatica, e due di loro l’hanno già impiegata: per ogni
minuto di audio si possono risparmiare fino a quaranta minuti di lavoro,
lasciando agli studiosi il tempo di dedicarsi a compiti più importanti. Al
momento, insomma, direi che stiamo sperimentando”.
Non è detto che funzioni in ogni situazione, ma “la risposta iniziale è
affermativa quando la trascrizione riguarda un solo parlante”, prosegue
Guillaume. Il problema sta “nella cosiddetta diarization, che consiste nel
riconoscere chi sta parlando in un dato momento, separare le voci, e attribuire
ogni segmento audio al partecipante corretto”.
Le prospettive, tutto sommato, sembrano incoraggianti. “Abbiamo cominciato a
cercare somiglianze tra due idiomi o famiglie linguistiche: ciò potrebbe
rivelare correlazioni che ci sono sfuggite”, afferma la dirigente. Siamo, per
capirci, nella direzione della grammatica universale teorizzata da Noam Chomsky,
e immaginata da Voltaire nel suo Candido (il dottor Pangloss, ispirandosi a
Leibniz, si poneva lo scopo di scovare gli elementi comuni a tutte le lingue del
mondo).
COME CONSERVARE I DATI: IL RUOLO DELLE INFRASTRUTTURE PUBBLICHE
Il problema di preservare il corpus di conoscenze è stato affrontato? “Sì”,
risponde Guillaume. “La piattaforma Cocoon, su cui è basata la collezione
Pangloss, impiega l’infrastruttura nazionale francese per assicurare la
longevità dei dati. Per esempio, tutte le informazioni sono conservate sui
server dell’infrastruttura di ricerca Huma-Num, dedicata ad arti, studi
umanistici e scienze sociali, finanziata e implementata dal ministero
dell’Istruzione superiore e della Ricerca. Vengono poi mandate al Cines, il
centro informatico nazionale per l’insegnamento superiore, che ne assicura
l’archiviazione per almeno quindici anni. Infine, i dati sono trasferiti agli
archivi nazionali francesi. Insomma, di norma tutto è pensato per durare per
l’eternità”.
Altro progetto dalla connotazione fortemente digitale è Ethnologue. Nato in seno
alla SIL (Summer Institute of Linguistics, una ong di ispirazione
cristiano-evangelica con sede a Dallas) copre circa settemila lingue, offrendo
anche informazioni sul numero di parlanti, mappe, storia, demografia e altri
fattori sociolinguistici. Il progetto, nato nel 1951, coinvolge quattromila
persone, e nasce dall’idea di diffondere le Scritture. Negli anni si è
strutturato in maniera importante: la piattaforma è ricca di strumenti, e molti
contenuti sono liberamente fruibili. Sebbene la classificazione fornita dal sito
(per esempio la distinzione tra lingua e dialetto) sia stata messa in
discussione, resta un punto di riferimento importante.
I progetti italiani
Non manca qualche spunto italiano. Come, per esempio, Alpilink. Si tratta di un
progetto collaborativo per la documentazione, analisi e promozione dei dialetti
e delle lingue minoritarie germaniche, romanze e slave dell’arco alpino
nazionale. Dietro le quinte ci sono le università di Verona, Trento, Bolzano,
Torino e Valle d’Aosta. A maggio 2025 erano stati raccolti 47.699 file audio,
che si aggiungono ad altri 65.415 file collezionati nel precedente progetto
Vinko. Le frasi pronunciate dai parlanti locali con varie inflessioni possono
essere trovate e ascoltate grazie a una mappa interattiva, ma esiste anche un
corpus per specialisti che propone gli stessi documenti con funzioni di ricerca
avanzate. Il crowdsourcing (cioè la raccolta di contenuti) si è conclusa solo
qualche mese fa, a fine giugno. La difficoltà per gli anziani di utilizzare la
tecnologia digitale è stata aggirata coinvolgendo gli studenti del triennio
delle superiori.
Altro progetto interessante è Devulgare. In questo caso mancano gli strumenti
più potenti che sono propri dell’università; ma l’idea di due studenti, Niccolò
e Guglielmo, è riuscita ugualmente a concretizzarsi in un’associazione di
promozione sociale e in un’audioteca che raccoglie campioni vocali dal Trentino
alla Calabria. Anche in questo caso, chiunque può partecipare inviando le
proprie registrazioni. Dietro le quinte, c’è una squadra di giovani volontari –
con cui peraltro è possibile collaborare – interessati alla conservazione del
patrimonio linguistico nazionale. Un progetto nato dal basso ma molto
interessante, soprattutto perché dimostra la capacità di sfruttare strumenti
informatici a disposizione di tutti in modo creativo: Devulgare si basa,
infatti, sulla piattaforma Wix, simile a WordPress e che consente di creare siti
senza la necessità di essere maestri del codice. Una vivace pagina Instagram con
10.300 follower – non pochi, trattandosi di linguistica – contribuisce alla
disseminazione dei contenuti.
RICOSTRUIRE LA VOCE CON LA AI
Raccogliere campioni audio ha anche un’altra utilità: sulla base delle
informazioni raccolte e digitalizzate oggi, sarà possibile domani, grazie
all’intelligenza artificiale, ascoltare le lingue scomparse. L’idea viene da una
ricerca applicata alla medicina, che attraverso un campione di soli otto
secondi, registrato su un vecchio VHS, ha permesso di ricostruire con l’AI la
voce di una persona che l’aveva persa.
È accaduto in Inghilterra, e recuperare il materiale non è stato una
passeggiata: le uniche prove della voce di una donna affetta da Sla risalivano
agli anni Novanta ed erano conservate su una vecchia videocassetta. Nascere
molti anni prima dell’avvento degli smartphone ovviamente non ha aiutato. A
centrare l’obiettivo sono stati i ricercatori dell’università di Sheffield. Oggi
la donna può parlare, ovviamente con delle limitazioni: deve fare ricorso a un
puntatore oculare per comporre parole e frasi. Ma la voce sintetizzata è molto
simile a quella che aveva una volta. E questo apre prospettive insperate per i
filologi.
Come spesso accade, il marketing ha naso per le innovazioni dotate di
potenziale. E così, oggi c’è chi pensa di sfruttare l’inflessione dialettale per
conquistare la fiducia dei consumatori. È quello che pensano i due ricercatori
Andre Martin (Università di Notre Dame, Usa) e Khalia Jenkins (American
University, Washington), che nella presentazione del loro studio citano
addirittura Nelson Mandela: “Se parli a un uomo in una lingua che capisce,
raggiungerai la sua testa. Ma se gli parli nella sua lingua, raggiungerai il suo
cuore”.
“I sondaggi dell’industria hanno fotografato il sentiment sempre più negativo
verso l’AI”, scrivono gli studiosi, che lavorano in due business school.
“Immergendosi a fondo nel potenziale dei dialetti personalizzati, creati con
l’AI al fine di aumentare la percezione di calore, competenza e autenticità da
parte dell’utente, l’articolo sottolinea [come in questo modo si possa]
rafforzare la fiducia, la soddisfazione e la lealtà nei confronti dei sistemi di
intelligenza artificiale”. Insomma, addestrando gli agenti virtuali a parlare
con una cadenza amica si può vendere di più. C’è sempre un risvolto business, e
qui siamo decisamente lontani dagli intenti di conservazione della biodiversità
linguistica. Ma anche questo fa parte del gioco.
L'articolo Rosette hi-tech, AI e server nazionali: chi lavora per preservare
lingue in via d’estinzione proviene da Guerre di Rete.