EuropeMedQA Study Protocol

Un benchmark multilingue e multimodale per valutare gli LLM sugli esami medici di Italia, Francia, Spagna e Portogallo.

Leggi il paper su arXiv →

Cos'è EuropeMedQA

I Large Language Models brillano sui benchmark medici in inglese. Fuori dall'inglese, le performance crollano — e quasi nessun benchmark esiste per misurare di quanto.

EuropeMedQA è la risposta: un dataset costruito a partire dagli esami medici regolatori ufficiali di quattro paesi europei (Italia, Francia, Spagna, Portogallo), che integra testo e immagini diagnostiche per testare i modelli multimodali sul terreno reale della clinica europea. Lo studio segue i principi FAIR e le linee guida SPIRIT-AI, e usa prompt rigidamente vincolati in zero-shot per misurare in modo comparabile le capacità linguistiche e visive dei modelli su quattro lingue.

L'obiettivo strategico è duplice: creare una risorsa resistente alla contaminazione dei dataset di training, e spingere lo sviluppo di un'AI medica davvero adattabile ai contesti clinici non anglofoni.

Il mio contributo

Sul lato tecnico mi sono occupato di:

  • Manipolazione e normalizzazione dei dati — costruzione del formato unificato che lega domande, opzioni di risposta e immagini diagnostiche attraverso le quattro lingue, garantendo che le metriche fossero comparabili senza introdurre bias di formato.
  • Inferenza con i modelli di frontiera — pipeline di valutazione zero-shot su più LLM/VLM, gestione delle API keys e dei rate limit per ottenere risultati riproducibili sul dataset completo.

Perché conta

Un modello che vince in inglese ma fallisce in italiano, francese, spagnolo o portoghese non è un sistema medico utilizzabile in Europa — è un giocattolo accademico. EuropeMedQA è il primo passo per spostare la conversazione dalla performance media alla equità linguistica dei sistemi di AI medica.