Progettata per distinguere le voci, questa IA ha comunque commesso gli stessi errori delle orecchie umane

Anche l’IA più sveglia confonde le voci come il tuo cervello

Un’IA del MIT progettata per distinguere voci in ambienti affollati replica gli stessi errori degli ascoltatori umani
Confusione maggiore quando due voci hanno tono simile o stessa qualità vocale
L’IA e gli umani migliorano con voci di sesso opposto o lingue diverse, mostrando schemi simili di attenzione
Gli errori non indicano distrazione ma limiti intrinseci nella separazione dei suoni
Risultati utili per progettare migliori apparecchi acustici e impianti cocleari

Alzi il volume a una festa e provi a seguire una conversazione tra mille chiacchiere: capita di confondere le parole e attribuirle alla persona sbagliata. Un team del MIT ha creato un’IA per il cocktail party problem, progettata per seguire un solo interlocutore in mezzo al rumore, e il risultato è sorprendente: anche senza istruzioni, commette gli stessi errori degli esseri umani. L’analisi mostra come confusione e selezione vocale siano influenzate da fattori fisici e acustici più che da distrazione o stanchezza.

L’IA ha imparato da quasi quattro milioni di clip audio in stanze simulate con echi realistici, sviluppando una “strategia” simile al cervello umano. Quando due voci hanno caratteristiche simili, la separazione diventa quasi impossibile, generando errori. Al contrario, voci di sesso opposto o lingue differenti sono più facili da distinguere, confermando schemi già osservati negli esseri umani.

Errori inevitabili e attenzione distribuita

Il modello ha anche mostrato come gli inganni spaziali dell’udito colpiscono sia umani sia IA. Effetti come il precedence effect, dove i suoni sembrano provenire da direzioni sbagliate, hanno truffato il sistema in modo identico a quanto succede nelle nostre orecchie. La soluzione ottimale non si concentra su uno stadio specifico dell’elaborazione, ma distribuisce l’attenzione lungo tutto il percorso, proprio come fa il cervello umano. Questa scoperta implica che alcune difficoltà uditive non siano difetti cognitivi ma limiti naturali della percezione sonora.

L’IA dimostra che il cervello umano applica strategie quasi ottimali per risolvere un problema complesso, cercando di filtrare voci sovrapposte, e conferma che anche le tecnologie più avanzate sono vincolate dalle stesse regole fisiche e percettive. Per chi lavora con apparecchi acustici e impianti cocleari, la ricerca offre uno strumento predittivo potente: capire dove le persone incontrano difficoltà consente di migliorare design e algoritmi. Inoltre, offre una prospettiva affascinante su come il cervello umano, con tutte le sue limitazioni, rimanga uno dei sistemi più efficienti e ingegnosi per selezionare la voce giusta nel caos di un ambiente affollato.