TP7: Data Centric AI and Infrastructures

PIs:

  • Donato Malerba (Università di Bari)
  • Antonella Poggi (La Sapienza Università di Roma)

Spoke 3: Resilient AI
Spoke 5: High quality AI
Spoke 6: Symbiotic AI
Spoke 9: Green-aware AI

 

Il recente successo dell’IA è certamente dovuto alla possibilità di utilizzare enormi quantità di dati. Allo stesso tempo, gli algoritmi di apprendimento sempre più potenti utilizzati al giorno d’oggi sono molto più affamati di dati, il che rende necessario, da un lato, un approccio incentrato sui dati, in cui l’attenzione si concentra sull’etichettatura, la gestione, l’affettamento, l’aumento e la cura dei dati e, dall’altro, infrastrutture di dati in grado di supportare la scalabilità dello storage al crescere del volume di dati, garantendo la capacità di storage, gli IOPS e l’affidabilità adeguati. L’idea chiave è che i dati sono l’arbitro principale del successo o del fallimento e sono quindi il fulcro critico dello sviluppo iterativo, che richiede risorse di calcolo sufficienti, comprese le GPU, oltre alle CPU, per ottenere efficienza energetica.

L’obiettivo principale del TP7 è quello di coordinare gli aspetti relativi ai dati nei processi di IA che vengono affrontati in FAIR. In particolare, questo obiettivo sarà raggiunto sostenendo lo scambio e l’interazione tra gli Spokes coinvolti nel TP, incoraggiando così le sinergie verso un duplice obiettivo comune, ovvero lo sviluppo di principi e metodologie per uno sviluppo dell’IA incentrato sui dati, in cui la ricerca si concentrerà sulla parte relativa alla cura dei dati, e lo sviluppo di strumenti e soluzioni per una gestione efficiente e sicura di grandi insiemi di dati come input dei processi di IA.