Překladač Googlu si sám vyvinul univerzální sémantiku

Google na podzim loňského roku oznámil rozšíření svého překladače o technologie strojového učení a neuronových sítí. Poprvé v historii strojových překladů je tak nyní možné překládat i mezi jazyky, jejichž páry nejsou přímo vloženy do systému a ten na ně ani nebyl trénován.
Překladač Googlu existuje už asi 10 let a neustále se rozšiřuje. Nyní podle Googlu podporuje 103 jazyků a každý den se prostřednictvím systému překládá přes 140 miliard slov. Kvalita se do určité míry zlepšuje prostě samospádem, jak přibývá „párových“ dokumentů, přesto však statistický přístup k překladu už začal narážet na své limity. Tak například systém podporující 103 jazyků potřebuje subsystémy pro jejich každý pár, což s sebou nese mj. i náklady na výpočetní výkon a další „počítačové“ prostředky stejně jako nutnost spravovat všechna tato prostředí vedle sebe.

Google proto na podzim loňského roku začal svůj překladač rozšiřovat o nové technologie, především neuronové sítě/strojové učení. Výsledkem byl systém Google Neural Machine Translation (GNMT). Mike Schuster, Melvin Johnson a Nikhil Thorat z Googlu nyní vysvětlují, že pro překlad v tomto systému není třeba neuronovou síť trénovat na všechny dvojice jazyků, ale zvládne i kombinace, které při tréninku do systému vůbec nebyly zadávány; autoři tomu říkají „zero-shot“. Vstupní text se prostě už jen označuje tokenem, který specifikuje, do jakého jazyka se má překládat. Je to údajně vůbec poprvé, co strojové překladače zvládnou něco podobného.

Samozřejmě se tím nemyslí, že by se překlad prováděl přes nějaký jazyk třetí (např. metodou „vše přes angličtinu“), i když… V průběhu učení sítě se totiž v systému vytváří abstraktní vrstva, reprezentace jednotlivých sdělení, kterou můžeme chápat právě jako univerzální jazyk („interlingua“), přes který pak prochází překlad. Tato vrstva má především podobu sémantiky (významu), neomezuje se na analýzu gramatických vztahů ve zpracovávaných textech.

Systém je díky tomu univerzální, přidávání dalších jazyků nevyžaduje žádnou změnu jeho architektury. Příslušnou vnitřní sémantickou reprezentaci si překladač vytváří automaticky, není to tak, že by v Googlu za tímto účelem navrhovali nějaký vlastní přemosťující jazyk typu esperanta. Programátoři Googlu tuto sémantiku v systému dokáží pouze zpětně najít, když zjistí, že odpovídajícím větám v různých jazycích systém postupně přiřazuje stejné či podobné atributy, které jsou mnohem propracovanější, než by odpovídalo pouze párování odpovídajících si frází.
Tyto výsledky jsou samozřejmě zajímavé i z obecnějšího pohledu – mají vztah k otázkám o povaze lidského jazyka, jeho zpracování v mozku (máme také nějaké vnitřní reprezentace nezávislé na konkrétních jazycích?) apod.

Zdroj: Google Blog a další

Překladač Googlu si sám vyvinul univerzální sémantiku

Související příspěvky

7 z 10 českých firem nepoužívá umělou inteligenci

Altair: stavebnice, která před 50 lety odstartovala vlnu „lidových počítačů“

Trendy pro rok 2025: Co čekat od automatizace a využití IT?

Soukromý cloud versus on-premise systémy

Zprávičky

Přehled hrozeb pro Android: Adware doplnil v listopadu dropper v podobě falešné modifikace pro Roblox

Spor o možný zákaz TikToku jde k Nejvyššímu soudu USA, strany vyslechne v lednu

Severokorejští hackeři mají letos na krádežích kryptoměn podíl 60 %

Sněmovna schválila návrh koalice na odklad digitalizace státu o dva roky

Salvador kvůli dohodě s MMF omezí používání bitcoinu jako oficiální měny

Radiokomunikace získaly rozhodnutí pro stavbu největšího datového centra v ČR

Rusko provedlo kybernetický útok na ukrajinské registry, uvedla vicepremiérka

Správa železnic odkoupila od ČD za 280,1 mil. Kč část firmy ČD-Telematika

Tiskové zprávy

Společnosti Vendavo a Experis Pricing Solutions představují výsledky výzkumu o tvorbě cen v roce 2025

Poslanecká sněmovna schválila novelu zákona o elektronických komunikacích

Spolupráce společností Pure Storage a Kioxia přinese zvýšení škálovatelnosti, efektivity a výkonu v hyperškálových datových centrech

E-shopy jedou naplno, vánoční prodeje potvrzují meziroční růst české e-commerce

Česká obchodní inspekce uskutečnila ve třetím čtvrtletí 148 kontrol internetových obchodů

Huawei přichází s převratnými produkty. Skládací technologie, zvuk a design nabídne v novém světle

Zpráva dne

Jen jednou za rok můžete u na Black Friday získat u Goodoffer24 doživotní lecenci na Windows 11 za €20 a Office za €24!

Videa ITBiz.cz

Komentujeme

Patří datová centra do vesmíru?

Odebírat newsletter

Slovník

WAN

LHA

Tax adviser

Kategorie

Píšeme jinde

ScienceMag RSS

AbcLinuxu RSS

Newsletter