Google Duplex, sistema di IA per conversazioni naturali reali con i computer tramite telefono

Google Duplex rende le conversazioni naturali con i computer una realtà  in scenari specifici per migliorare l'esperienza delle persone nelle interazioni con i sistemi vocali automatizzati.

Scritto da

Simone Ziggiotto

il

Permettere alle persone di interagire con la tecnologia con la naturalezza con cui interagiscono tra loro è una sfida in essere da quanto c’è l’interazione tra uomo e computer. Google è da anni scesa in campo per consentire alle persone di avere una conversazione naturale con i computer allo stesso modo di come accadrebbe tra due persone ‘umane’. Il nuovo progetto Google Duplex fa un passo in questa direzione, rendendo l’interazione con la tecnologia tramite conversazioni naturali una realtà in scenari specifici per migliorare in modo significativo l’esperienza delle persone nelle interazioni quotidiane con i computer.

Negli ultimi anni sono diventati piu’ accessibili per gli utenti comuni gli ‘assistenti digitali’ come Google Assistente, Alexa di Amazon o Cortana di Microsoft e le varie aziende dietro il loro sviluppo si stanno sfidando per riuscire ad offrire il migliore digital assistant per offrire un prodotto – perchè di questo si tratta – che risulti essere quanto piu’ possibile simile ad una persona ‘reale’ per soddisfare i bisogni delle persone. I computer oggi sono in grado di comprendere e generare discorsi naturali in particolare grazie all’applicazione di reti neurali profonde (come WaveNet usata da Google nel suo Assistente). Tuttavia, anche con i moderni sistemi di ultima generazione, gli utenti che usano Google Assistant, Apple Siri, Amazon Alexa, Microsoft Cortana o altri assistenti si trovano a doversi rapportare con voci computerizzate che non comprendono ancora pienamente il linguaggio naturale. Ci sono poi i sistemi telefonici automatizzati che, secondo Google, ancora hanno delle difficoltà nel riconoscere parole e comandi semplici. Proprio questi ultimi sistemi telefonici, secondo gli ingegneri Yaniv Leviathan e Yossi Matias di Google, "non si impegnano in un flusso di conversazione e costringono il chiamante ad adattarsi al sistema anziché essere il sistema ad adeguarsi al chiamante". Da qui nasce Google Duplex.

Google Duplex come funziona

Google Duplex: di cosa stiamo parlando

Google Duplex è la nuova tecnologia sviluppata dalla società di Mountain View per far condurre a computer con persone reali conversazioni naturali al telefono. La tecnologia è diretta al completamento di compiti specifici, come la pianificazione di determinati tipi di appuntamenti. Per tali compiti, il sistema è nato per rendere l’esperienza della conversazione il più naturale possibile, consentendo alle persone di parlare normalmente, come farebbero con un’altra persona, senza doversi adattare ad una macchina. Uno dei punti chiave della ricerca è stato quello di vincolare Duplex ad ambiti chiusi, che sono abbastanza ristretti in modo da poter essere esplorati in modo approfondito. Grazie alla tecnologia Duplex è quindi possibile attivare sistemi in grado di effettuare conversazioni naturali solo dopo essere stati profondamente addestrati per gli scopi per cui vengono creati. Di conseguenza, un sistema telefonico sviluppato con Duplex non può condurre conversazioni generali come potrebbe fare invece l’Assistente Google, il quale ricordiamo viene alimentato da un’altra tecnologia – presumibilmente ben piu’ avanzata – chiamata WaveNet.

La tecnologia Google Duplex è costruita per far sembrare le conversazioni naturali perchè "per noi è importante che utenti e aziende abbiano una buona esperienza con questo servizio, e la trasparenza è una parte fondamentale di questo" hanno spiegato Leviathan e Matias in un post sul blog Google AI, secondo cui ci sono diverse sfide nel condurre conversazioni naturali: "il linguaggio naturale è difficile da capire, il comportamento naturale è difficile da modellare, le aspettative di latenza [tempi di risposta] richiedono un’elaborazione veloce e la generazione di un discorso dal suono naturale, con le intonazioni appropriate, è difficile".

Quando le persone parlano tra loro usano frasi più complesse di quando parlano ai computer. Spesso si correggono a metà frase, sono più prolisse del necessario o omettono parole e si affidano invece al contesto; esprimono anche una vasta gamma di intenti, a volte nella stessa frase, ad esempio, "Quindi… umm…da Martedì a Giovedi siamo aperti dalle 11 alle 2, e poi riapriamo dalle 4 alle 9, e poi Venerdì, Sabato, Domenica noi… anzi Venerdì e Sabato siamo aperti dalle 11 alle 9 e poi domenica siamo aperti dall’1 alle 9". Una persona umana puo’ capire questa frase ma un computer forse solo dopo parecchio tempo trascorso ad elaborare ogni singolo aspetto della frase.

Come notato dagli ingegneri di Google nel blog, nel linguaggio spontaneo naturale le persone parlano più velocemente e meno chiaramente rispetto a quando parlano con una macchina, quindi il riconoscimento vocale è più difficile e sono presenti tassi di errore più elevati. Il problema si fa piu’ grave durante le telefonate, che spesso hanno rumori di sottofondo e problemi di qualità del suono. Nelle conversazioni più lunghe la stessa frase può avere significati molto diversi a seconda del contesto. Inoltre, nelle conversazioni naturali ci possono essere elaborazioni di concetti, momenti di sincronizzazione ("riesci ancora a sentirmi?"), interruzioni ("il mio numero è 12345"->"scusa puoi ricominciare?"), pause piu’ o meno lunghe e altro ancora. Al centro di Duplex c’è una rete neurale ricorrente (RNN) progettata per far fronte a questo tipo di sfide ed è stata costruita utilizzando TensorFlow Extended (TFX). Per ottenere la sua elevata precisione Google ha addestrato l’RNN di Duplex usando gruppi di dati di conversazioni telefoniche anonimizzate e la rete utilizza un modello di comprensione diverso per ogni attività crata.

Per controllare l’intonazione a seconda delle circostanze Google Duplex utilizza una combinazione di un motore di sintesi vocale concatenativo (TTS) e un motore TTS di sintesi (utilizzando Tacotron e WaveNet). Inoltre, è importante che la latenza corrisponda alle aspettative della gente. Ad esempio, dopo che le persone dicono qualcosa di semplice, ad esempio "ciao?" si aspettano una risposta immediata. Quando il sistema rileva che è necessaria una bassa latenza Duplex utilizza modelli più veloci e con bassa affidabilità usando approssimazioni più rapide (come farebbe una persona se non capisce appieno la controparte). Questo permette di avere meno di 100ms di latenza di risposta in queste situazioni. Gli ingegneri notano che in alcune situazioni si è scoperto che introdurre più latenza rendere la conversazione più naturale.

Google garantisce che il suo sistema Duplex è in grado di effettuare conversazioni sofisticate e complete per la maggior parte dei casi in modo completamente autonomo, senza coinvolgimento umano. Il sistema ha una capacità di autocontrollo che gli consente di riconoscere le attività che non è in grado di completare in modo autonomo e, in questi casi, rimanda ad un operatore umano, che può completare l’operazione.

GOOGLE DUPLEX PER LE AZIENDE

Secondo Google, le aziende che fanno affidamento su prenotazioni di appuntamenti supportate da Duplex e che non sono ancora supportate da sistemi online possono trarre vantaggio dalla tecnologia per consentire ai clienti di prenotare tramite l’Assistente Google senza dover gestire pratiche quotidiane o formare dipendenti. L’utilizzo di Duplex potrebbe anche ridurre la mancata presentazione agli appuntamenti, ricordando ai clienti i loro appuntamenti imminenti in modo da consentire una facile cancellazione o riprogrammazione di esso.

GOOGLE DUPLEX PER GLI UTENTI
Invece di fare una telefonata all’assistenza di un’azienda l’utente puo’ interagire semplicemente con l’Assistente Google, il quale puo’ collegarsi al sistema automatizzato di un’azienda e basato sulla tecnologia di Duplex per soddisfare le richieste. Duplex puo’ anche consentire la comunicazione delegata con i fornitori di servizi in modo asincrono, ad esempio richiedendo prenotazioni durante le ore di chiusura dell’attività. Può anche aiutare ad affrontare l’accessibilità e le barriere linguistiche, ad esempio consentendo agli utenti con problemi di udito o utenti che non parlano la lingua locale di eseguire attività telefoniche.

QUANDO I PRIMI SERVIZI ALIMENTATI DA GOOGLE DUPLEX?
Google prevede quest’estate di iniziare a testare la tecnologia Duplex all’interno dell’Assistente Google, per aiutare gli utenti a prenotare ristoranti o pianificare appuntamenti da parrucchieri.

Vuoi saperne di piu’ su Google Duplex?

Fonte: Google AI Blog – Qui è possibile approfondire Google Duplex e ascoltare degli esempi di sistemi vocali creati con questa tecnologia.

Impostazioni privacy