Google Assistente parla piu' naturale grazie a WaveNet

Google Assistente parla piu’ naturale grazie a WaveNet

I miglioramenti di Google Assistant sono il risultato dell'acquisizione nel 2014 della società britannica DeepMind, specializzata nell'intelligenza artificiale che ha sviluppato e migliorato la rete neurale denominata WaveNet.

Scritto da

Simone Ziggiotto

15 Novembre 2017

Da un paio di anni a questa parte Google ad ogni evento che organizza per presentarci nuovi prodotti ci tiene a precisare di quanto la sua tecnologia di apprendimento automatico migliora, e oggi la società di Mountain View ha annunciato un importante miglioramento delle funzionalità di sintesi vocale del suo Assistente, sempre piu’ in grado di conversare in maniera naturale con gli utenti. I miglioramenti di Google Assistant sono il risultato dell’acquisizione nel 2014 da parte di Alphabet – che fa capo a Google – della società britannica DeepMind, specializzata nell’intelligenza artificiale. Negli ultimi anni, quest’ultima ha sviluppato una rete neurale denominata WaveNet, ora parte di Assistant.

Nei due file audio qui sotto potete ascoltare una frase registrata prima e dopo l’integrazione di WaveNet in Google Assistant. Si noteranno differenze minime, ma la voce dopo l’integrazione di WaveNet appare piu’ naturale e meno ‘meccanica’, con una naturalezza e giusta intonazione che non si direbbe essere generata da un computer. L’obiettivo è di dare all’utente la sensazione di conversare con una persona reale e non con un computer quando parla con Assistant.

standard

"Poco più di un anno fa abbiamo presentato WaveNet, una nuova rete neurale profonda per la generazione di forme d’onda audio raw che è in grado di produrre un discorso migliore e più realistico rispetto alle tecniche esistenti. A quel tempo, il modello era un prototipo di ricerca ed era troppo computazionale per lavorare nei prodotti di consumo" si legge nel blog di DeepMind. "Ma negli ultimi 12 mesi abbiamo lavorato duramente per migliorare significativamente sia la velocità che la qualità del nostro modello e oggi siamo orgogliosi di annunciare che una versione aggiornata di WaveNet viene utilizzata per generare le voci di Google Assistant, l’inglese degli Stati Uniti e il giapponese in tutti piattaforme".

Per comprendere il motivo per cui WaveNet migliora la capacità di un computer di parlare in modo naturale, è utile capire come funzionano oggi i sistemi TTS (Text to Speech) o sistemi di sintesi vocale. Come spiegato da DeepMind nel suo blog, la maggior parte dei sistemi si basa sul cosiddetto TTS concatenativo, che utilizza un ampio database di registrazioni vocali in alta qualità lette in studio di registrazione da un singolo attore. Queste registrazioni sono poi suddivise in piccoli frammenti che possono essere combinati – o concatenati – per formare frasi complete se necessario. Tuttavia, questi sistemi possono portare a voci sonore innaturali e che sono difficili da modificare perché un intero database deve essere registrato ogni volta che sono necessarie una serie di modifiche, come nuove emozioni o intonazioni. Per superare alcuni di questi problemi, viene utilizzato talvolta un modello alternativo noto come TTS parametrico, il quale evita la necessità di concatenare i suoni attraverso l’uso di una serie di regole e parametri relativi ai movimenti di grammatica e della bocca per guidare una voce generata dal computer. Anche se più economico e più veloce, questo metodo crea voci sonore meno naturali. WaveNet ha un approccio totalmente diverso.

Inizialmente, DeepMind ha basato WaveNet su un modello generativo automatico in grado di creare singole forme d’onda da zero, un campione alla volta, con 16.000 campioni al secondo e transizioni senza soluzione di continuità tra i singoli suoni. La prima forma di WaveNet è stata costruita utilizzando una rete neuronale convoluzionale, che è stata addestrata usando un grande insieme di campioni di discorsi. Durante questa fase di addestramento, la rete ha determinato la struttura alla base del discorso, ad esempio quali toni seguivano altri toni e quali forme d’onda erano realistiche (e quali no), quindi la rete addestrata sintetizzava una voce un campione alla volta, con ogni campione generato in grado di tenere conto delle proprietà del campione precedente. La voce risultante conteneva una intonazione naturale e altre caratteristiche con un proprio "accento" dipendente dalle voci da cui aveva imparato in precedenza, aprendo la possibilità di creare un numero di voci uniche da insiemi di dati miscelati. Come per tutti i sistemi di text-to-speech, WaveNet ha utilizzato input di tipo testo per indicare quali parole generare in risposta ad una query. Tuttavia, DeepMind è giunta alla conclusione che costruire le onde sonore ad una tale altissima fedeltà era costoso, il che significava che WaveNet era promettente ma non qualcosa da poter distribuire nel mondo reale. Negli ultimi 12 mesi, il team di DeepMind ha lavorato per sviluppare un nuovo modello capace di generare rapidamente forme d’onda.

Il team di WaveNet ora si concentrerà sulla preparazione di una pubblicazione dettagliata della ricerca dietro il nuovo modello, ma secondo i ricercatori "i risultati parlano da soli – il nuovo, migliorato modello WaveNet genera ancora forme d’onda grezze ma a velocità 1000 volte più veloce rispetto al modello originale, il che significa che richiede solo 50 millisecondi per creare un secondo di discorso. Infatti, il modello non è solo più veloce, ma anche più fedele, in grado di creare forme d’onda con 24.000 campioni al secondo. DeepMind ha anche aumentato la risoluzione di ciascun campione da 8 bit a 16 bit, la stessa risoluzione utilizzata nei compact disc.

Secondo il team di DeepMind, il nuovo modello offre un suono più naturale, come provato dal fatto che la nuova voce inglese ottiene un punteggio mean-opinion-score (MOS) di 4.347 su una scala 1-5, dove il discorso umano ha un punteggio di 4.667 punti. [Mean Opinion Score (MOS) è una misura della chiarezza di una trasmissione telefonica; la procedura per ottenere la misura della chiarezza di un segnale ricevuto tramite una statistica di ‘opinioni’ di ascolto: un gruppo di persone esprimono un parere tramite un punteggio su tre diversi aspetti dell’ascolto].