Workshop Italian Visual and Language models: challenges and activities

5 Febbraio 2024

Si è svolto a Modena il 5 Febbraio 2024 il Workshop “Italian Visual and Language models: Challenges and Activities“, organizzato dal Centro Interdipartimentale AI Research and Innovation (AIRI) e dal Laboratorio AImagleab del Dipartimento di Ingegneria “Enzo Ferrari” dell’Università di Modena e Reggio Emilia, in collaborazione con la Fondazione FAIR.

Il workshop ha presentato i risultati del Progetto Trasversale di FAIR “Vision, Language, and Multimodal Challenges” coordinato dai Proff. Rita Cucchiara (Università di Modena e Reggio Emilia, CNR) e Roberto Navigli (Sapienza Università di Roma), concentrandosi sulle future realizzazioni degli LMM, i modelli fondazionali di Intelligenza Artificiale che si occupano di integrare Large Language Models ed elaborazione di immagini, video, audio e dati multimodali, e che rappresentano la frontiera della ricerca in AI.

L’aspetto più importante del Workshop, poi, ha riguardato la presentazione dei risultati sui modelli fondazionali in lingua italiana e la possibilità di interrogare e recuperare dati visuali interagendo nella nostra lingua con archivi multimodali. Sono stati presentati il primo language model in italiano, “LLaMAantino“, sviluppato in FAIR dall’Università di Bari; il grande sforzo di raccolta di dati multimodali e video “egocentrici” fatto dall’Università di Catania, e il modello “MORE” – Multimodal mOdel and REtrieval, sviluppato da UNIMORE per la interazione multilingue tra immagini e testo e il recupero di dati multimodali. Il modello MORE è stato addestrato grazie ad un grant ISCRA-B sul supercalcolatore Leonardo di CINECA e impiegando dati pubblici, tra cui quelli di LAION.

Secondo Lorenzo Baraldi, ricercatore del Dipartimento di ingegneria “Enzo Ferrari”, Vicedirettore del Centro DHMORE e ideatore di MORE: “Il modello MORE integrerà capacità di dialogo, analisi di dati multimodali, tecniche di retrieval e validazione per ottenere un modello capace di interagire in italiano su contenuti visuali, recuperare conoscenza accurata da fonti di dati esterne e giustificare le proprie risposte indicandone le fonti”.

L’obiettivo dell’evento è avviare una discussione all’interno della comunità italiana sulle sfide future della progettazione, sviluppo, e valutazione di grandi modelli linguistici, sui grandi modelli visivi e la loro combinazione e i diversi settori applicativi come la salute o l’industria manifatturiera. Nel corso della sessione finale di discussione tra i partecipanti, è stata affrontata anche la definizione delle prossime attività del progetto FAIR assieme al centro di supercalcolo Leonardo del CINECA, grazie alla convenzione siglata tra CINECA e FAIR a supporto di tutta la accademia italiana nella ricerca fondazionale in AI.