I modelli di apprendimento automatico possono fornire previsioni errate, quindi i ricercatori li dotano della capacità di comunicare il livello di sicurezza delle loro decisioni. Questo è particolarmente importante in contesti ad alto rischio, come quando i modelli vengono utilizzati per aiutare a identificare le malattie nelle immagini mediche o per filtrare le domande di lavoro.
Ma le quantificazioni dell’incertezza di un modello sono utili solo se sono accurate. Se un modello dichiara di essere sicuro al 49% che un’immagine medica mostri un versamento pleurico, allora dovrebbe essere corretto nel 49% dei casi.
Nuovo Approccio del MIT
I ricercatori del MIT hanno introdotto un nuovo approccio che può migliorare le stime di incertezza nei modelli di apprendimento automatico. Il loro metodo non solo genera stime di incertezza più accurate rispetto ad altre tecniche, ma lo fa in modo più efficiente.
Inoltre, poiché la tecnica è scalabile, può essere applicata a enormi modelli di deep-learning che vengono sempre più utilizzati nel settore sanitario e in altre situazioni critiche per la sicurezza.
Benefici per gli utenti finali
Questa tecnica potrebbe fornire agli utenti finali, spesso non esperti in apprendimento automatico, informazioni più affidabili per valutare la fiducia nelle previsioni di un modello.
“È facile vedere che questi modelli funzionano molto bene in scenari in cui sono molto validi, e poi presumere che saranno altrettanto validi in altri scenari. Per questo è particolarmente importante portare avanti questo tipo di lavoro che cerca di calibrare meglio l’incertezza di questi modelli per assicurarsi che siano in linea con le nozioni umane di incertezza”, spiega l’autore principale Nathan Ng, studente laureato presso l’Università di Toronto e in visita al MIT.
Ng ha scritto l’articolo insieme a Roger Grosse, professore assistente di informatica all’Università di Toronto, e all’autore senior Marzyeh Ghassemi, professore associato presso il Dipartimento di ingegneria elettrica e informatica e membro dell’Institute of Medical Engineering Sciences e del Laboratory for Information and Decision Systems. La ricerca sarà presentata alla Conferenza internazionale sull’apprendimento automatico.
Quantificare l’incertezza nei modelli di apprendimento automatico
I metodi di quantificazione dell’incertezza spesso richiedono complessi calcoli statistici che non sono adatti a modelli di apprendimento automatico con milioni di parametri. Questi metodi richiedono inoltre che gli utenti facciano delle ipotesi sul modello e sui dati utilizzati per addestrarlo.
I ricercatori del MIT hanno adottato un approccio diverso. Utilizzano il cosiddetto principio della lunghezza minima di descrizione (MDL), che non richiede le ipotesi che possono ostacolare l’accuratezza di altri metodi. L’MDL viene utilizzato per quantificare e calibrare meglio l’incertezza per i punti di prova che il modello deve etichettare.
La tecnica sviluppata dai ricercatori, nota come IF-COMP, rende l’MDL sufficientemente veloce da poter essere utilizzata con i modelli di deep-learning di grandi dimensioni utilizzati in molti contesti del mondo reale.
Come funziona l’MDL
L’MDL consiste nel considerare tutte le possibili etichette che un modello potrebbe assegnare a un punto di test. Se ci sono molte etichette alternative per questo punto che si adattano bene, la fiducia nell’etichetta scelta dovrebbe diminuire di conseguenza.
“Un modo per capire quanto sia fiducioso un modello sarebbe quello di fornirgli alcune informazioni controfattuali e vedere quanto è probabile che vi creda”, spiega Ng.
Per esempio, consideriamo un modello che dice che un’immagine medica mostra un versamento pleurico. Se i ricercatori dicono al modello che l’immagine mostra un edema, e il modello è disposto ad aggiornare la sua convinzione, dovrebbe essere meno sicuro della sua decisione originale.
Con l’MDL, se un modello è sicuro quando etichetta un datapoint, dovrebbe usare un codice molto breve per descrivere quel punto. Se è incerto sulla sua decisione perché il punto potrebbe avere molte altre etichette, utilizza un codice più lungo per catturare queste possibilità.
La quantità di codice utilizzata per etichettare un datapoint è nota come complessità stocastica dei dati. Se i ricercatori chiedono al modello quanto è disposto ad aggiornare le sue convinzioni su un datapoint in presenza di prove contrarie, la complessità stocastica dei dati dovrebbe diminuire se il modello è fiducioso.
Ma testare ogni datapoint usando l’MDL richiederebbe un’enorme quantità di calcoli.
Accelerare il processo
Con IF-COMP, i ricercatori hanno sviluppato una tecnica di approssimazione in grado di stimare con precisione la complessità dei dati stocastici utilizzando una funzione speciale, nota come funzione di influenza. Hanno inoltre impiegato una tecnica statistica chiamata temperature-scaling, che migliora la calibrazione degli output del modello. Questa combinazione di funzioni di influenza e temperature-scaling consente di ottenere approssimazioni di alta qualità della complessità dei dati stocastici.
Alla fine, IF-COMP è in grado di produrre in modo efficiente quantificazioni dell’incertezza ben calibrate che riflettono la vera fiducia del modello. La tecnica può anche determinare se il modello ha etichettato in modo errato alcuni punti di dati o rivelare quali punti di dati sono outlier.
I ricercatori hanno testato il loro sistema su questi tre compiti e hanno scoperto che era più veloce e più preciso di altri metodi.
“È molto importante avere la certezza che un modello sia ben calibrato, e c’è una crescente necessità di rilevare quando una specifica previsione non è del tutto corretta. Gli strumenti di verifica stanno diventando sempre più necessari nei problemi di apprendimento automatico, poiché utilizziamo grandi quantità di dati non esaminati per creare modelli che saranno applicati a problemi umani”, afferma Ghassemi.
Prospettive future
IF-COMP è indipendente dal modello, quindi può fornire quantificazioni accurate dell’incertezza per molti tipi di modelli di apprendimento automatico. Ciò potrebbe consentirne l’impiego in una gamma più ampia di contesti reali, aiutando in ultima analisi un maggior numero di professionisti a prendere decisioni migliori.
“Le persone devono capire che questi sistemi sono molto fallibili e possono inventarsi qualcosa. Un modello può sembrare altamente fiducioso, ma ci sono un sacco di cose diverse a cui è disposto a credere in presenza di prove contrarie”, spiega Ng.
In futuro, i ricercatori sono interessati ad applicare il loro approccio a modelli linguistici di grandi dimensioni e a studiare altri potenziali casi d’uso del principio della lunghezza minima della descrizione.
- 🔥 15 gadget tecnologici per fare il regalo perfetto
- 😱 Scoprire la password di Facebook: metodo infallibile al 100%
- 🔓 La guida definitiva all’uso di Gestore Password Google
- 🤖 I 15 migliori tool gratuiti di Intelligenza Artificiale online
- 😎 VPN: le 9 migliori per navigare con la massima privacy garantita nel 2024
- 🔥 15 gadget tecnologici per fare il regalo perfetto
- 😱 Scoprire la password di Facebook: metodo infallibile al 100%
- 🔓 La guida definitiva all’uso di Gestore Password Google
- 🤖 I 15 migliori tool gratuiti di Intelligenza Artificiale online
- 😎 VPN: le 9 migliori per navigare con la massima privacy garantita nel 2024