Fonte: Pexels
Alzi il volume a una festa e provi a seguire una conversazione tra mille chiacchiere: capita di confondere le parole e attribuirle alla persona sbagliata. Un team del MIT ha creato un’IA per il cocktail party problem, progettata per seguire un solo interlocutore in mezzo al rumore, e il risultato è sorprendente: anche senza istruzioni, commette gli stessi errori degli esseri umani. L’analisi mostra come confusione e selezione vocale siano influenzate da fattori fisici e acustici più che da distrazione o stanchezza.
L’IA ha imparato da quasi quattro milioni di clip audio in stanze simulate con echi realistici, sviluppando una “strategia” simile al cervello umano. Quando due voci hanno caratteristiche simili, la separazione diventa quasi impossibile, generando errori. Al contrario, voci di sesso opposto o lingue differenti sono più facili da distinguere, confermando schemi già osservati negli esseri umani.
Il modello ha anche mostrato come gli inganni spaziali dell’udito colpiscono sia umani sia IA. Effetti come il precedence effect, dove i suoni sembrano provenire da direzioni sbagliate, hanno truffato il sistema in modo identico a quanto succede nelle nostre orecchie. La soluzione ottimale non si concentra su uno stadio specifico dell’elaborazione, ma distribuisce l’attenzione lungo tutto il percorso, proprio come fa il cervello umano. Questa scoperta implica che alcune difficoltà uditive non siano difetti cognitivi ma limiti naturali della percezione sonora.
Leggi anche: Perché il nome “intelligenza artificiale” è un errore, secondo gli esperti
L’IA dimostra che il cervello umano applica strategie quasi ottimali per risolvere un problema complesso, cercando di filtrare voci sovrapposte, e conferma che anche le tecnologie più avanzate sono vincolate dalle stesse regole fisiche e percettive. Per chi lavora con apparecchi acustici e impianti cocleari, la ricerca offre uno strumento predittivo potente: capire dove le persone incontrano difficoltà consente di migliorare design e algoritmi. Inoltre, offre una prospettiva affascinante su come il cervello umano, con tutte le sue limitazioni, rimanga uno dei sistemi più efficienti e ingegnosi per selezionare la voce giusta nel caos di un ambiente affollato.
Share