Aziende

Il cervello informatico che apre le porte del Bundestag a tutti

14 Febbraio 2024

Alla Keep In Mind i software basati sull'intelligenza artificiale sono una consuetudine. Come quello che impara le lingue e che ha conquistato il Parlamento tedesco.

Insegnare all’intelligenza artificiale a capire una lingua – in questo caso il tedesco – e a trasformarla in sottotitoli per rendere il dibattito al Bundestag, il Parlamento tedesco, comprensibile a tutti. Detta così sembra semplice. Ma dietro la realizzazione di un software basato sullo studio delle reti neurali e della sua trasformazione in un sistema fruibile e affidabile c’è tanto lavoro e tanta ricerca. Due elementi che non mancano di certo alla Keep In Mind di Bolzano Sud. Nella sede di via Buozzi il Ceo Andreas Unterhuber e Daniel Morandini, ingegnere informatico a capo del settore Ricerca&Sviluppo dell’impresa spiegano come una realtà di dimensioni ridotte ha potuto sbaragliare la concorrenza di competitors mondiali in un campo come quello dell’intelligenza artificiale applicata al riconoscimento vocale.

Come è nata l’idea di sviluppare un software per il riconoscimento vocale?

Un nostro cliente che si occupa di trasmissione in streaming di eventi doveva partecipare alla gara per trasmettere le sedute del Bundestag, il Parlamento tedesco. Ed era necessario garantire anche la trascrizione dei dibattiti attraverso sottotitoli, in modo tale che anche i non udenti potessero seguire la seduta. Ma ovviamente il servizio è utile anche per tutti coloro che seguono le trasmissioni da Pc o telefonino.

Quale tecnologia avete usato per il software?

In primis, l’audio viene trascritto in testo usando le tecniche più rapide ed accurate sul mercato. Essendo generiche, seppur di alta qualità, producono del testo non privo di errori ed inaccuratezze. Abbiamo quindi iniziato a cercare delle soluzioni al problema. Lo spunto è scaturito 6 anni fa circa, dopo che Google Brain aveva pubblicato un documento di ricerca sulle reti neurali artificiali applicate alla traduzione, dal titolo Attention is all you Need. A sorpresa dei ricercatori stessi, l’architettura delle rete neurale proposta si è rivelata molto versatile: è infatti diventato possible sfruttare una rete neurale di base che per esempio riesce a “comprendere” il linguaggio naturale (i cosiddetti “foundation models” o “modelli di base”) ed estenderla verso una funzionalità specifica.

Alla Keep in Mind l’applicazione dell’intelligenza artificiale al riconoscimento vocale è realtà da tanti anni

E poi?

Sono stati pubblicati successivamente, per utilizzo pubblico, dei modelli di base per la lingua tedesca che noi abbiamo potuto sfruttare come base per il nostro modello. Senza di essi, non sarebbe possible per piccole imprese creare tecnologie all’ avanguardia, a causa degli enormi costi legati all’ allenamento di reti neurali di queste dimensioni. E così dal 2019 in poi abbiamo dato inizio al progetto. L’architettura del software che usiamo è di fatto simile a quella che usa OpenAi per ChatGpt: una base che comprende la lingua e da un significato numerico semantico ad ogni parola, ed una estensione che suggerisce delle correzioni da applicare. Ma per fare la differenza tra successo e fallimento in un tale progetto manca ancora un ingrediente.

Quale?

La qualità e quantità della base di dati che viene utilizzata per insegnare alla rete neurale artificiale, una sorta di cervello informatico capace di apprendere, a migliorare e ad acquisire competenze. Noi avevamo già tutta una serie di dati e di esperienze basate sulle trascrizioni dei dibattiti al Bundestag. E questo ci ha consentito di allenare – per così dire – la rete neurale artificiale e di renderla sempre più brava a trasformare il tedesco standard, non privo di errori, riconosciuto in automatico durante la trascrizione dell’ audio originale, alla lingua tedesca usata nel Parlamento. Questo tipo di terminologia infatti è propria di quel contesto: si tratta di un tedesco burocratico che ha vocaboli specifici e costruzioni sintattiche e grammaticali particolari. Ma grazie a milioni di frasi in archivio e a decine di ore di training siamo riusciti nel nostro intento.

E che risultato avete ottenuto?

Abbiamo potuto ottenere un software che riconosce quanto viene detto lo trascrive e, nel caso di dubbi, propone una serie di suggerimenti. Indica la parola che secondo lui non c’entra e andrebbe sostituita, propone alternative per i vocaboli, la grammatica e la sintassi. Gli editor, cioè gli addetti alla supervisione dei sottotitoli, hanno circa 30 secondi di tempo per poter correggere e poi rilasciare il testo. Che a quel punto viene associato alle immagini della seduta del Bundestag, trasmessa con un minuto di differita sulla diretta, in modo che i sottotitoli siano precisi. La richiesta del committente in questo caso è spostata più sulla precisione del testo che sulla velocità della trascrizione. Essa infatti, grazie alla sua qualità, viene poi tradotta in oltre 20 lingue.

Un esempio della trascrizione in tempo reale dei dibattiti al Bundestag

Voi competete nel settore con gruppi molto più grandi e forti. Come riuscite a batterli?

Andreas Unterhuber e, a destra, Daniel Morandini

Il segreto nel nostro caso riguarda le nostre dimensioni. Siamo meno grandi, ma proprio per questo siamo più rapidi nell’adattarci ai cambiamenti tecnologici e informatici. Siamo più agili nel rapporto con il cliente. Riusciamo a seguirlo in modo sartoriale, monitorando le richieste e gli effetti delle modifiche al software che proponiamo. Inoltre, garantiamo anche una interfaccia di utilizzo molto friendly grazie al fatto che sia la programmazione sia la realizzazione della User Interface viene gestita da risorse interne.

Quale è stata la seduta del Bundestag che vi ha dato maggior lavoro?

Diciamo che quella più seguita è stata due anni fa circa, quando il Parlamento tedesco si è riunito per discutere dell’atteggiamento da tenere nei confronti della Guerra in Ucraina che era scoppiata da poco. Al di fuori del Bundestag, la giornata più particolare è stata quella in cui abbiamo fornito la nostra tecnica per la trasmissione in streaming del funerale del fratello di Papa Ratzinger. A seguirla a distanza sui loro schermi erano due Papi, Benedetto XVI, appunto, e Francesco. Un caso più unico che raro.

 

La sede del Bundestag a Berlino