La Ricerca Vocale di Google entra in una nuova fase

Se si stava aspettando un motivo piu' solido per usare la ricerca vocale di Google, si sappia che l'attesa e' terminata. Il motore di riconoscimento dei suoi entra in una nuova era, integrandosi al meglio con le reti neurali ricorrenti. Il parlato verra' riconosciuto con maggior velocita' e precisione, anche nel caso in cui ci si trovi in ambienti rumorosi.

Scritto da

maurix

25 Settembre 2015

Per la ricerca vocale, dal 2012 Google aveva cominciato a usare la Deep Neural Networks (DNN), una tecnologia per il riconoscimento del linguaggio che ha sostituito il vecchio standard dell’industria, ormai vecchio di 30 anni: il Gaussian Mixture Model (GMM). Rispetto al passato, il DNN era in grado di valutare meglio che suono producesse una persona in ogni istante; il passo in avanti è stato notevole.

Ebbene, Google ha annunciato sul suo blog che il motore di ricerca vocale diventerà più veloce, preciso e "resistente al rumore". A partire dalle ultime ore infatti sono stati annunciati dei nuovi modelli acustici che integreranno ancor meglio la rete neurale.

Stiamo parlando della Connectionist Temporal Classification (CTC) e delle tecniche di sequenza discriminativa (sequence discriminative training techniques). Queste due sono delle estensioni "speciali" delle reti neurali ricorrenti (RNN). Riescono a distinguere con maggior precisione i suoni, specialmente negli ambienti rumorosi, e sono decisamente più veloci.

Nel modello tradizionale, il parlato di una persona viene suddiviso in porzioni da 10 millisecondi ciascuna. Di ciascuna viene analizzata la frequenza; il vettore risultante viene poi elaborato dal DNN (per esempio) che produce una distribuzione di probabilità dei fonemi. Altre tecnologie poi aiutano a dare una struttura temporale e a collegare le sequenze dei suoni in parole con un significato.

Con i nuovi modelli acustici si introduce il concetto di dipendenza temporale tra i fonemi. Il risultato è che le informazioni vengono memorizzate meglio in termini di qualità. Inoltre il riconoscimento dei fonemi viene fatto senza una previsione istante per istante: si preferisce riconoscere solo la sequenza dei picchi delle onde sonore.

"Abbiamo ridotto drasticamente il numero dei calcoli e abbiamo reso il riconoscimento più veloce", si legge sul blog.

Il risultato è che, dopo molte prove e perfezionamenti, gli ingegneri di Google sono riusciti a ottenere dei modelli più efficienti, precisi e "resistenti al rumore".

I nuovi modelli acustici sono già in uso sulle applicazioni Ricerca Google per Android e iOS e per la dettatura sui dispositivi Android.