Skip to main content

L’azienda deep-tech iGenius ha di recente presentato “Italia”, il primo Foundational Large Language Model (LLM) completamente open source in italiano. Questo modello, addestrato con fonti native in italiano e rilasciato con licenza MIT, segna un punto di svolta nel panorama dell’Intelligenza Artificiale generativa, ponendo le basi per un nuovo “rinascimento digitale”.

La licenza MIT, dal Massachusetts Institute of Technology dove è stata originariamente sviluppata, è una licenza di software libero che permette una grande libertà d’uso del software licenziato. Essendo molto permissiva, la MIT è largamente accettata e utilizzata in comunità open source, aziende e istituzioni accademiche.

Facciamo un passo indietro e definiamo cos’è un LLM.

Cos’è un Large Language Model (LLM)?

Un Large Language Model (LLM) è un modello avanzato di Intelligenza Artificiale progettato per comprendere e generare testo in linguaggio naturale. Gli LLM sono basati su tecniche di apprendimento automatico e di apprendimento profondo e, in particolare, utilizzano architetture di reti neurali chiamate Transformers.

Italiano e open source: cosa significa?

Il fatto che “Italia”, il Large Language Model (LLM) sviluppato da iGenius, sia open source e completamente italiano presenta diversi punti di interesse, sia dal punto di vista tecnologico che culturale ed economico. 

Open Source significa che il modello è accessibile a tutti. Ricercatori, sviluppatori e aziende possono scaricare, utilizzare e modificare il modello senza costi aggiuntivi, promuovendo l’innovazione e la sperimentazione in una vasta gamma di applicazioni.

Inoltre, l’essere open source permette a chiunque di esaminare il codice e il processo di addestramento del modello. Significa che le metodologie utilizzate sono verificabili e in continua evoluzione.

Essendo addestrato esclusivamente su dati in italiano, l’LLM Italia è in grado di comprendere e generare testo con una precisione e una sensibilità alle sfumature linguistiche e culturali che modelli multilingua o tradotti dall’inglese non possono offrire. 

Significa che Italia sarà particolarmente utile per applicazioni che richiedono un’elevata accuratezza linguistica, come la scrittura di documenti legali o tecnici, l’assistenza clienti e la traduzione automatica.

Italia può anche essere utilizzato per progetti educativi, traduzioni letterarie, e altri ambiti dove la sensibilità culturale risulta essenziale.

Conformità normativa e applicazioni in settori regolamentati

L’LLM Italia è sviluppato in conformità con le normative europee sull’intelligenza artificiale, come l’AI Act. Offre, quindi, alle aziende un’alternativa sicura e conforme per l’adozione dell’AI, riducendo i rischi legati alla privacy e alla protezione dei dati.

Inoltre, la specializzazione in italiano del modello lo rende particolarmente utile per aziende che operano in settori altamente regolamentati, come i servizi finanziari e la pubblica amministrazione, dove la precisione e la sicurezza dei dati sono fondamentali.

Tokenizer proprietario: cos’è e perché è importante

Grazie al suo design ottimizzato per l’italiano e al Tokenizer proprietario, il Large Language Model Italia offre prestazioni superiori in termini di efficienza computazionale e costi operativi, rendendolo una scelta vantaggiosa per le imprese.

Ma cos’è di fatto un tokenizer proprietario?

Un tokenizer è un componente essenziale dei modelli di elaborazione del linguaggio naturale (NLP). La sua funzione principale è quella di dividere un testo in unità minime di significato, chiamate token. I token possono essere parole, parti di parole, caratteri o simboli, a seconda dell’approccio utilizzato. Il processo di tokenizzazione è determinante perché i modelli di linguaggio, come i Transformer, operano su queste unità per comprendere e generare testo.

Tokenizer proprietario: cosa significa

Un tokenizer proprietario è un tokenizer sviluppato internamente da una specifica organizzazione per soddisfare esigenze particolari. In questo contesto, “proprietario” indica che il tokenizer è stato creato su misura per un determinato modello o applicazione e non è necessariamente disponibile come standard o comune in altre applicazioni. Nel caso del modello Italia, il tokenizer proprietario è ottimizzato specificamente per la lingua italiana. Questo significa che è stato progettato per gestire le peculiarità e le complessità della lingua in modo più efficace rispetto ai tokenizer generici.

Il tokenizer proprietario di Italia aumenta del 60% l’efficienza nel processare e generare token in italiano. Questo si traduce in notevoli vantaggi in termini di costo e risorse per le aziende che integrano Italia nei loro processi aziendali.

Rivoluzione sociale e tecnologica

L’addestramento di Italia è stato condotto in soli 5 mesi dal team iGenius, utilizzando il supercomputer Leonardo gestito da Cineca, una delle infrastrutture di calcolo più potenti al mondo. La collaborazione con Editoriale Nazionale ha arricchito il modello con un vasto archivio di articoli storici, contribuendo a migliorare la sua comprensione e accuratezza linguistica.

Oltre a continuare l’addestramento e il miglioramento di Italia, iGenius sta sviluppando una versione multilingua del modello per ampliare ulteriormente il suo impatto globale. Il modello è già disponibile per il download sul sito di iGenius e presto sarà accessibile anche su piattaforme come Hugging Face e AI Model Catalog.

Con Italia, iGenius si conferma leader nell’innovazione dell’Intelligenza Artificiale, preparando il terreno per una nuova era di soluzioni linguistiche avanzate e eticamente responsabili.

[fonte iGenius]