Evals: Come capire se il tuo software AI funziona davvero

Luca Marturana - Road to Coderful - 20/5/2026

Il problema

  1. Sviluppiamo il nostro software
  2. Testiamo, rilasciamo
  3. Il cliente segnala inesattezze
Luca Marturana - Road to Coderful - 20/5/2026

Software "classico"

Deterministico

Dato un input si ottiene sempre lo stesso output.

2 + 2 -> 4
Luca Marturana - Road to Coderful - 20/5/2026

Software AI

Probabilistico

Dato un input possiamo ottenere output diversi o parzialmente corretti.

"Dato il testo seguente, individua i luoghi citati [...]"
-> Catania, CT | Misterbianco, CT
Luca Marturana - Road to Coderful - 20/5/2026

Cosa sono le evals

Un modo strutturato per misurare la qualità di un sistema AI su casi rappresentativi.

Luca Marturana - Road to Coderful - 20/5/2026

Cosa non sono

  • non garantiscono che il sistema sia perfetto
  • non sostituiscono review, logging e monitoraggio
  • aiutano a prendere decisioni migliori
Luca Marturana - Road to Coderful - 20/5/2026

Come funzionano

  1. si definisce un dataset di casi rappresentativi
  2. si aggiunge la risposta attesa (golden)
  3. si esegue il software su quei casi
  4. si confronta l'output con la risposta attesa
Luca Marturana - Road to Coderful - 20/5/2026

Esempio: intent classification

input expected
Vorrei annullare il mio abbonamento cancel_subscription
Non riesco ad accedere al mio account login_issue
Quanto costa il piano pro? pricing_question
Luca Marturana - Road to Coderful - 20/5/2026

Esempio: risultato

input predicted
Vorrei annullare il mio abbonamento cancel_subscription
Non riesco ad accedere al mio account login_issue
Quanto costa il piano pro? refund_request

Accuracy: 2 / 3 = 66%

Luca Marturana - Road to Coderful - 20/5/2026

Rendere misurabile la qualità

  • Misurare lo stato attuale
  • Decidere una soglia accettabile
  • Confrontare prompt, modelli e modifiche
Luca Marturana - Road to Coderful - 20/5/2026

Cosa valutare

  • Accuracy: quanti casi corretti sul totale
  • Precision: quando il sistema dice "sì", quanto spesso ha ragione
  • Recall: quanti dei casi importanti riesce a trovare
Luca Marturana - Road to Coderful - 20/5/2026

Come valutare

  • exact match -> risultato == <valore atteso>
  • fuzzy match -> tollera piccole differenze testuali
  • vector similarity -> misura somiglianza semantica
  • LLM-as-judge -> valuta equivalenza o altro con un LLM
Luca Marturana - Road to Coderful - 20/5/2026

Comporre il golden dataset

  • Si può partire con 100/300 casi rappresentativi
  • Si può costruire a mano: spesso è il modo migliore per iniziare
  • Includere casi facili, ambigui e casi che non vogliamo rompere
Luca Marturana - Road to Coderful - 20/5/2026

Quando usare le eval?

  • Parti più importanti dell'applicazione
  • Dati usati come contesto per altri prompt
  • Workflow dove un errore costa tempo, fiducia o denaro
Luca Marturana - Road to Coderful - 20/5/2026

Takeaway

  • Eval permettono di rilasciare avendo metriche di qualità
  • Confrontare modelli, prompt e modifiche
  • Individuare regressioni prima degli utenti
Luca Marturana - Road to Coderful - 20/5/2026

Da dove partire

  • Non servono librerie particolari
  • Uno script è abbastanza per iniziare
  • L'obiettivo è testare il comportamento del software, non solo il prompt
Luca Marturana - Road to Coderful - 20/5/2026

Fine

Luca Marturana - Road to Coderful - 20/5/2026