Bible byla přeložena do řady jazyků, takže představuje ideální sadu dat pro učení počítačových překladačů. Ale nejen to. Taktéž lze na jejím základě trénovat systémy pro úkoly subtilnější: převody mezi více formami téhož jazyka. A to jak mezi formami jazyka používanými v různých dobách, tak i mezi různými styly – však existují třeba Bible určené dětem nebo lidem, pro něž angličtina není rodným jazykem.
Systémy pro převody stylů téhož jazyka zatím vývojáře lákaly méně než automatické překladače, výzkumníci z Dartmouth College to ve studii publikované v Royal Society Open Science chtěli napravit.
Výzkum vychází z různých Biblí v angličtině, ale něco podobného by se samozřejmě dalo provádět i v češtině, překladů máme také dost. Důležité je zde i to, že Bible je rozdělena do „veršů“ a takto indexována, vše je očíslováno, text zorganizován a je jasné, co čemu odpovídá. Kdybychom vzali různé verze jiného rozšířeného díla, mohlo by se snadno stát, že by při učení došlo ke zmatkům – vynechané pasáže, spojené/rozdělené odstavce i jiné celky. Bylo by třeba před spárováním texty kontrolovat a pro algoritmy speciálně připravovat.
Styl bývá v rámci automatizovaných systémů definován např. použitou slovní zásobou (moderní vs. archaická, ale zejména formálnější vs. hovorovější), délkou vět, množstvím přímé řeči, šíří slovní zásoby a mírou osobnosti, s níž autor komunikuje se čtenářem.
Pro učení systému (frameworku) neuronových sítí Seq2Seq bylo na Dartmouth College použito 34 verzí Biblí v angličtině. Výsledně si program vytvořil vlastní definice stylů a metod převodů mezi nimi, které může využívat pro libovolné texty. Finálně pak dokázal přepsat Bílou velrybu do formy pro mládež nebo do zjednodušené angličtiny určené těm, kdo nejsou rodilými mluvčími. Nicméně při převodu nemusí jít jen o zjednodušení, knihu by v principu šlo převést třeba i do lehce šroubovaného stylu obchodní korespondence (v našem případě – pokud by se tedy takový styl podařilo vytvořit/extrahovat z různých Biblí).
Zdroj: Dartmouth College