TP2: Vision, Language and Multimodal Challenges

PIs:

  • PIs: Rita Cucchiara (CNR – Università di Modena e Reggio)
  • Roberto Navigli (La Sapienza Università di Roma)

Spoke 2: Integrative AI
Spoke 3: Resilient AI
Spoke 4: Adaptive AI
Spoke 5: High quality AI
Spoke 6: Symbiotic AI
Spoke 8: Pervasive AI
Spoke 10: Bio-socio-cognitive AI

La Computer Vision, il Natural Language Processing e il Multimodal data processing sono discipline chiave nell’intelligenza artificiale, che stanno diventando sempre più strettamente collegate tra loro dall’introduzione dei cosiddetti modelli fondazionali, sotto forma di potenti modelli solo linguistici e di visione linguistica che integrano informazioni visive sia come input che come output, fornendo al contempo un’interfaccia basata sul dialogo e capacità di seguire le istruzioni.
In questo contesto, il Progetto Trasversale FAIR su “Visione, Linguaggio e Sfide Multimodali” mira a riunire la comunità scientifica e industriale italiana e raggiungere importanti progressi sul piano teorico e applicativo. In definitiva, l’obiettivo del TP è lo sviluppo di una famiglia di modelli linguistici che abbiano la lingua italiana come base, oltre a supportare input e output multimodali. Il TP si occupa anche della creazione di benchmark solo linguistici e multimodali curati da esperti italiani e specificatamente adattati alla lingua italiana. Nel complesso, il TP fornirà alla comunità scientifica italiana le competenze fondamentali necessarie per formare e valutare modelli su larga scala sia da un punto di vista teorico che pratico. Per questo motivo le attività sono svolte in collaborazione con le infrastrutture HPC nazionali, e in particolare con il CINECA, che sta fornendo supporto computazionale alla comunità attraverso progetti ISCRA-B e budget dedicati sull’infrastruttura Leonardo.