Jako jedna z prvních v České republice se společnost Ximilar zabývá vyhledáváním v obrazových datech, typicky fotografiích, podle jejich vzájemné podobnosti. Umí kategorizovat fotky podle jejich obsahu nebo rozpoznat objekty v obraze. Všechny tyto služby, které provozuje v prostředí IBM Cloud, zpřístupňuje firmám, lidem, říká zakladatel společnosti Ximilar David Novák.
V čem se liší vaše pojetí rozpoznání obrazu od jiných?
Pro člověka je zcela přirozené vnímat obrazovou informaci. Pro počítače jsou ale vizuální data, tj. fotky a videa, prostě binární soubory a je na nás, abychom software naučili vnímat je jinak. Dříve počítače dokázaly analyzovat vizuální data pouze podle doplňkových, popisných informací, tzv. metadat. V posledních letech se počítačové techniky zpracování obrazu výrazně posunuly. V některých oblastech už fungují delší dobu a velmi spolehlivě, dnešní fotoaparáty třeba běžně vyhledávají ve scéně lidský obličej podle typických markantů, jakými jsou oči, nos apod. My se zabýváme zejména dvěma oblastmi – rozpoznáním obsahu a podobnostním vyhledáváním v obrazových datech.
Můžete lépe vysvětlit, jaký je mezi tím rozdíl?
O rozpoznávání mluvíme, když chceme automatizovaně získávat informace z vizuálního obsahu obrázku nebo videa. Může jít o kategorizaci fotek do různých tříd, popsání videa pomocí štítků nebo detekci vybraných objektů v reálné scéně. V dnešní době se tyto úlohy řeší pomocí technik strojového učení s využitím velkého množství tzv. trénovacích dat, tedy obrazového materiálu spolu se „správnou odpovědí“. Podobnostní vyhledávání funguje trochu jinak. Základem je kolekce dat, ve které chceme vyhledávat – domácí foto archiv, databáze produktových fotografií e-shopu s módou nebo třeba kolekce všech rentgenů plic pořízených v rámci jedné nemocnice. V těchto kolekcích pak vyhledáváme tak, že zadáme příklad (snímek z dovolené, fotku sukně, která se nám líbí, nebo RTG snímek nového pacienta) a hledáme fotky, které jsou mu nejpodobnější.
Takže učíte počítač poznat, které fotky jsou podobné a které ne?
Ano. Opět se to často řeší pomocí strojového učení, konkrétně pomocí umělých neuronových sítí, které se inspirují fungováním lidského mozku. Člověk totiž s podobností pracuje zcela přirozeně nesčetněkrát denně – mozek automaticky porovnává věci, scény, ale třeba také události, pomocí podobnosti. Když poprvé v životě uvidíme třeba nový Samsung Galaxy, hned víme, že je to telefon, protože jsme už viděli spoustu podobných věcí. Podobnostní vyhledávání je obecně poměrně těžká úloha i kvůli tomu, že často chceme vyhledávat co nejrychleji v obrovských objemech dat, a klasické databáze nám s tímto problémem příliš nepomohou.
Jak jste se k tomuto druhu podnikání dostali a kde jste s ním dnes?
Problematice podobnostního vyhledávání jsem se věnoval v rámci svého doktorského studia a výzkumné práce na Masarykově univerzitě v Brně. Zjistili jsme, že by o praktická řešení v této oblasti mohl být komerční zájem, a já jsem se rozhodl z akademické půdy postupně odejít. S firmou Ximilar jsme vloni prošli programem pro startupy v Jihomoravském inovačním centru. Nabízíme platformu pro vyhledávání podle vizuální podobnosti v kolekcích standardních nebo produktových fotografií. I se zákazníky jsme navíc přebrali zaběhlou službu Vize.ai, která klasifikuje obrázky do kategorií určených odběratelem. Poskytujeme jak standardní služby, tak zákaznická řešení na míru.
Na jaké typy zákazníků cílíte?
Našimi zákazníky jsou komerční subjekty. Podobnostní vyhledávání využívají profesionální fotobanky, u nás například Profimedia. Potřebuje-li novinář ilustrační obrázek podle zadaného vzoru, s naší službou to i ve velkém objemu fotek jde velmi rychle. Časem jsme se přeorientovali na e-commerce a vyhledávání v produktových fotkách – zejména v segmentu módy je vizuální složka produktu minimálně stejně důležitá jako jeho parametry, podle kterých se standardně vyhledává. Naše další služby ulehčují manuální práci operátorům, kteří plní katalogy výrobků. Umíme zařazovat produkty do správných kategorií, párovat je podle fotek nebo automaticky zjišťovat různé atributy.
V jakém prostředí služba Ximilar běží?
Díky Jihomoravskému inovačnímu centru jsme dostali nabídku a podporu od IBM, která nám poskytla hardware v cloudu. Platforma IBM Cloud je skvělá – jako jediná poskytuje fyzické servery bez virtualizace a s velmi silnými grafickými kartami (GPU), které umožňují náročné paralelní výpočty.
Když už IBM Cloud, proč už ne také IBM Watson?
Watson sice poskytuje některé služby pro strojové učení, ale tyto nástroje jsou pro nás příliš úzce zaměřené. My však potřebujeme mít nad našimi algoritmy i trénovacími daty kontrolu. Troufám si tvrdit, že naše techniky strojového učení, vyhledávání i celkově poskytované služby jsou dál než ty od platformy IBM Watson.
Jaký je váš nejbližší cíl?
Zlatým grálem, za kterým momentálně jdeme, je aplikace, která vám umožní vyfotit třeba kus oblečení a nalézt v katalogu e-shopu co nejpodobnější produkty. Nejen my totiž sledujeme, že nákupy na e-shopech se postupně přesouvají z internetu na mobilní telefony. Průběžně zlepšované demo je k vidění zde.