Společnost Digiteq Automotive se zabývá vývojem a testováním softwaru a elektroniky pro mobilitu budoucnosti. Prostřednictvím jedné ze svých dceřiných firem ji vlastní koncern Volkswagen. Tým Martina Severy se věnuje všemu, co souvisí s infotainmentem a uživatelským rozhraním, Martin Vostatek má na starosti veškeré projekty spojené s hlasovým ovládáním a virtuálními asistenty. Společně jsme je vyzpovídali - jak jinak než na téma hlasové ovládání.
Jaké kroky jsou nutné k tomu, aby technika porozuměla lidské řeči?
Základem je lidskou mluvu převést na text a tomu pak dát význam. Je potřeba identifikovat klíčová slova a pomocí nich spustit tu správnou akci. Namístě je rovněž dát uživateli zpětnou vazbu, že stroj příkaz pochopil, případně nepochopil. Hlas přes mikrofon putuje do rozpoznávače. Ten podle natrénovaného jazykového modelu, který se kupuje od specializovaných firem, dokáže rozpoznat jednotlivé fonémy i celá slova. Ty se snaží sestavit do smysluplných sdělení a ta rozklíčovat. Problém může mít s podobně znějícími slovy jako pět a zpět. Ta jsou izolovaně často problémová i pro člověka, ale máme-li kontext, většinou si poradíme.
I stroje tedy pracují s kontextem?
Ano, moderní technologie to umí. Dříve se nahrávka porovnávala s už dříve pořízenými uloženými nahrávkami, později se to vyvinulo do statických pravidel a rozpoznávala se izolovaná slova. Plynulou řeč však technika nepoznala. Dnes už výpočetní výkon a algoritmy pokročily natolik, že se systém za běhu učí. My mu doručujeme bázi slov a audiosouborů a on se z toho naučí kontext. Na základě těchto naučených dat je pak schopný identifikovat i kontext, podobně jako se učí děti. Například tedy ví, že člověk diktuje číslo, takže říká pět, a nikoli zpět.
Při řízení člověk často vypustí z úst slátaniny. I s tím si však auto musí poradit.
Analýza probíhá jen ve vozu, nebo se posílá na servery?
U aut starších zhruba tří let vše probíhá na palubě - auto má statický set toho, co vše může rozpoznat, a víc nedokáže. Dnešní auta kombinují oba přístupy, základem je databáze auta, takže můžete auto ovládat hlasem i mimo mobilní signál, ale nahrávka se rovněž posílá vzduchem k analýze na server. Ten má samozřejmě mnohem větší výkon i databázi a je nesrovnatelně snadnější ho pravidelně aktualizovat a přidávat nové a nové promluvy. Navíc používá i prvky umělé inteligence. Server tedy vrátí výsledek a auto porovná, který je relevantnější pro danou situaci nebo třeba lokalitu, pokud uživatel zadává něco do navigace.
Jak si auto poradí s různými formulacemi?
Porozumění řeči strojem se věnuje celý obor zvaný NLU (Natural Language Understanding), jehož cílem je identifikovat, co měl uživatel na mysli. K tomu je potřeba posbírat určité množství statisticky pravděpodobných způsobů, jak člověk může funkce ovládat. Ty pak lingvisté přepisují do tzv. BNF gramatik. Stroj pak porozumí, když řeknete volat manželce, volej manželku a podobně. Tyto rozpoznávací systémy je nutné předem natrénovat. Jsou k tomu potřeba desítky, spíš stovky tisíc hodin záznamů od rodilých i nerodilých mluvčích v každém jazyce. My jich dnes pro evropské verze infotainmentu máme ve Volkswagenech osmnáct.
Jak se rozklíčované řeči přiřazuje správný význam?
To je práce odborníků, lingvistických programátorů. Ti pro techniku vytvářejí pravidla a jednotlivým promluvám přiřazují význam, tedy tomu, jak na sebe jednotlivá slova navazují. Jde například o pozici záporu: v češtině je "ne" součástí slovesa, v němčině může stát na různých místech, může tam být i "kein" a podobně. A ten význam potom je, že když řeknete, "nechci, aby mi foukalo na nohy", auto pozná, že má upravit nastavení ventilace. Tohle je jádro digitálního asistenta, to, jak s instrukcí naloží. Jde o logiku. Hodně důležitý je tu uživatelský výzkum - získat promluvy stovek uživatelů, abychom byli schopni vytvořit přívětivé hlasové ovládání, na které člověk může mluvit přirozeně, a ne jen strojově vyslovovat izolované příkazy. Podstatné je rovněž to, aby asistent komunikoval s vámi, aby potvrdil, že rozumí, nebo se doptal, když tápe.
Učí se asistent v autě podobně jako ten domácí?
Zatím se za běhu učit neumí, ale pracujeme na tom.
Poradí si i s různými akcenty?
Záleží, o který jde jazyk. Vývoj je velice nákladný, a tak mají automobilky vytipované jazyky, do nichž investují. Začínalo se s angličtinou a němčinou, dnes se zabýváme švédštinou a norštinou, máme bulharštinu a připravujeme arabštinu a holandštinu. Věnujeme se i mutacím, jako je mexická španělština nebo kanadská francouzština. Ze třiceti jazyků, které si můžete vybrat pro text infotainmentu, lze auto hlasově ovládat osmnácti.
Jak je na tom čeština?
Z lingvistického pohledu to je velice náročný jazyk. Sedm pádů, volný slovosled. Co se češtiny týká, je na tom koncern Volkswagen na světě určitě nejlépe. Právě lingvističtí programátoři se musejí postarat o to, aby všechno fungovalo i při skloňování příkazů, ale i když vyslovíte zdánlivě nesmyslný požadavek. Člověk se při řízení soustředí na jiné věci a často z úst vypustí slátaniny, použije špatný pád a podobně. S tím si musí auto poradit. Jsou jazyky na rozpoznání snadné - italština nebo i angličtina, ta má pevný pořádek slov ve větě. Náročné jsou slovanské nebo ugrofinské jazyky. V češtině jsme my vývojáři velice dobří, dosahujeme přes devadesát procent úspěšnosti; u jiných může maximem být třeba jen osmdesát. Pro představu, člověk je schopen rozpoznat význam toho, co protějšek říká, asi v 95 procentech.
Už se začíná řešit i to, aby auta rozpoznala různé uživatele podle barvy hlasu
Je digitální asistent v autě stejný jako Siri nebo Alexa?
Jsou úplně jiní. Je to jiný produkt na jiném zařízení určený k řešení odlišných úkolů. Společné mají například ovládání hudby, ale jinak jsou účely odlišné. Siri máte na ovládání chytré domácnosti, zapíše vám poznámku do kalendáře a přečte něco z Wikipedie. Prostřednictvím Idy ve Volkswagenu ovládáte věci relevantní pro auto. I když pomalu se tyto dva světy začínají prolínat.
Co všechno dnes v autě lze ovládat hlasem?
Kompletní infotainment, tedy rádio, média, telefon, navigaci. A ventilační soustavu nebo například roletu střešního okna. V budoucnu se počítá třeba i s ambientním osvětlením nebo asistenčními systémy; tam je hodně citlivá otázka bezpečnosti. Představte si, že by šlo hlasem ovládat rychlost: řeknete třeba, že chcete zvýšit hlasitost o třicet procent, auto však špatně porozumí a prudce sešlápne plynový pedál. To nikdo nechce.
Rozpozná auto různé uživatele?
Dnes ještě ne, ale už se to řeší v prototypech. Existují však směrové mikrofony, vlastně mikrofonní pole, které dokážou identifikovat místo, odkud zvuk přichází. Už dnes auto pozná, zda na něj mluvíte ze sedadla řidiče, či spolujezdce, a třeba teplotu upraví pouze na příslušné straně. V budoucnu se to jistě rozšíří i na další pozice v autě.
Umí auto i odlehčená konverzační témata?
Omezeně, ale rozvíjí se to. Tato témata vytváříme spolu s dalšími dodavateli od začátku na míru automobilce, protože odpovědi jsou specificky naladěné na motoristické prostředí. Zatím to je dostupné v osmi "největších" jazycích. Zrovna tak se neustále rozvíjí to, co umějí domácí asistenti, tedy sečíst či vynásobit čísla, převést jednotky a měny, přečíst definici z encyklopedie nebo předpověď počasí, přeložit větu do jiného jazyka.
Na čem dalším pracujete, čeho se v této oblasti dočkáme?
Nahrávky pro učení systému se dnes pořizují ve studiu. My pracujeme na tom, že se budou promluvy nahrávat v reálném prostředí, při řízení, ve skutečných situacích. Tehdy člověk mluví jinak než v klidu u stolu. Obecně jde hlavně o personalizaci a učení. Digitální asistent vás tedy bude pozorovat a pamatovat si, které funkce používáte často nebo v konkrétních případech či na konkrétních místech. Sleduje, učí se, a když si bude dostatečně jistý, nabídne, že sám určitý úkon budě dělat automaticky. Například se zeptá: přejete si, abych pokaždé, když budete dvě stě metrů od domu, otevřel vrata garáže?