Data quality, data reliability, data monitoring, nebo jednoduše datová kvalita. Klíčová slova, charakterizující dramaticky se rozvíjející byznys, do kterého firmy investují obrovské peníze. Objem dat v každé firmě giganticky roste a nároky na jejich zpracování se neustále zvyšují. A přesně do této doby přichází unikátní software Manta, který je schopen zmapovat veškeré toky dat ve firmě. „Takový nástroj ve světě dosud chyběl, mimo jiné i proto, že jde o vývojářsky mimořádně složitý software, který však poskytuje firmám nedocenitelnou službu,“ říká Tomáš Krátký, zakladatel a ředitel společnosti Manta.
K čemu se vaše řešení Manta hodí, čemu pomáhá?
Pro firmy, které používají Mantu, je hlavní pomocí to, že skrze detailní zmapování datových toků porozumí vlastnímu prostředí. Datová infrastruktura ve větších společnostech zahrnuje stovky i tisíce komponent a je nesmírně komplikovaná. Pokud jsem vývojář a chci v takovém prostředí udělat změnu, hrozí velké riziko, že jinou část prostředí poškodím. Bez detailní mapy všech závislostí mohu strávit dny, týdny až měsíce pátráním, co všechno a jak spolu souvisí a jestli je bezpečné danou změnu udělat. Tento primitivní use-case je jednoduchou ale názornou ukázkou toho, jak Manta pomáhá. Když mám jako vývojář k dispozici Mantu, používám ji při zavádění změn na denní bázi, a díky tomu předcházím incidentům v datovém prostředí.
Sám jsem asi deset let nazpět trávil většinu času zbytečným procházením systémů a dohledáváním chyb. De-facto jsem dělal analýzu datových toků, jen to bylo manuální a hrozně pracné. Přitom datový inženýr je dnes velmi cenný a nedostatkový zdroj. Například ve Spojených státech platíte datovým inženýrům často 300 až 400 tisíc dolarů ročně a ti přitom polovinu svého času tráví zbytečnou manuální práci při dopadových analýzách, dohledávání chyb a řešení datových incidentů. Navíc, pokud je celý proces z velké části manuální, riziko, že dojde k přehlédnutí nějaké důležité závislosti, je obrovské. Pokud ale mají datoví inženýři k dispozici Mantu, mohou svůj čas věnovat daleko produktivnějším činnostem jako např. dodat novou funkcionalitu nebo vytvořit novou analýzu pro podporu obchodu či marketingu.
Před několika týdny jsme se setkali s extrémním příkladem velké finanční instituce ze Spojených států. Datový inženýr měl za úkol upravit jeden z konsolidačních algoritmů pro rizikové a finanční ukazatele. Bohužel se mu podařilo rozbít nejen centrální datový sklad, ale zároveň narušil i data, která se posílají do všech poboček této společnosti. Vzpamatovávali se z toho asi šest měsíců a škoda, kterou společnost utrpěla, je interně odhadovaná na 70 milionů dolarů. Toto je opravdu extrémní příklad, ale k podobným situacím dochází všude na světě každý den, jen se o nich moc nemluví. Tohle je věc, kterou Manta mění: poskytuje datovou mapu, díky níž se vývojáři mohou ve svém prostředí bezpečně pohybovat a ušetřit spoustu času a miliony dolarů.
Jak si mapování datových toků máme představit?
Nejjednodušší způsob je představit si něco jako klasickou mapu Google, akorát vašeho technického prostředí. U mapy vidíte, odkud kam vedou cesty, jestli se jedná o velké dálnice nebo malé „okresky“, či jak se nejlépe dostanete například z Prahy do Brna. A totéž vám ukáže Manta pro vaše IT prostředí: odkud kam tečou data a co se s nimi po cestě děje. To znamená, že vidíte, jakým způsobem jsou data zpracovávána, transformována, jak a z čeho se počítají čísla v reportech. To vše a mnohem víc je součástí „mapy“.
A co s ní lze dělat?
To je naprosto klíčová otázka, která mě vlastně přivedla k tomu, že jsem Mantu v letech 2016 nastartoval. V každém podnikovém prostředí se investují ohromné peníze na zpracování a využití dat. Zaměstnáváme desítky, stovky či tisíce inženýrů, kteří mají udržovat a rozvíjet naši datovou infrastrukturu. Ti se ale prakticky trvale nachází v módu hašení požáru, kdy se většinu času zabývají detekcí a řešením vzniklých incidentů, místo toho abychom investovali do robustního systému pro jejich předcházení. Výsledkem je jen frustrace a nespokojenost na všech stranách. V reálném životě chápeme, že se nelze spoléhat pouze a jenom na nemocniční péči a pro naše zdraví je klíčová prevence, ve světě dat tento koncept naprosto chyběl. A to se v Mantě snažíme změnit.
Klíčovou otázkou je: Jak můžeme zajistit, aby v našem datovém prostředí nevznikaly incidenty a jak jim máme předcházet? Jak upozorňovat a následně varovat lidi, než se s jejich daty stane nějaká problematická událost? To je náš cíl – implementovat pro data koncept preventivní péče.
Jak si máme preventivní péči o data představit?
Každé prostředí je složité a skládá se z řady dílčích částí. Většina z nás vidí z hlediska zpracování dat jen koncový report, datovou sestavu s čísly, grafy a obrázky. Aby se ale firma dostala ze stavu, že má data v ERP nebo CRM systému až do výjezdu reportů a mohla je zpracovávat pomocí algoritmů umělé inteligence do analytických výstupů, které jí něco řeknou o jejích zákaznících, tj. ze zdrojových dat do požadovaných výstupů, k tomu je cesta strašně dlouhá. Je na ní velké množství kroků, transformací, výpočtů a úprav. To, čemu říkáme datový tok, je vlastně reprezentací této dlouhé cesty. U většiny našich zákazníků jde o desítky až stovky tisíc kroků, než se dostanete například ze záznamu „Tomáš Krátký“ v CRM systému až do sestavy v reportu, která hodnotí míru rizika u mě jako potenciálního zákazníka pro bankovní úvěr, vyšší limit na pojistce nebo kreditní kartu. Pro většinu firem je tato datová cesta zahalená tajemstvím a mlhou. Přitom to není způsobeno nepořádkem v jejich datech, ale složitostí té cesty. Za posledních deset let dramaticky vzrostl počet zdrojů dat, stejně jako počet nástrojů a způsobů, jakými se zpracovávají. Data jsou on-premise, v cloudu, strukturovaná, nestrukturovaná, streamovaná, zpracovávaná dávkově i v reálném čase, máme nástroje jako BI, umělá inteligence či strojové učení.
V takto složitém prostředí je pak při jakýchkoli změnách velmi snadné udělat chybu. Stačí přehlédnout drobnou závislost a celý systém se může zhroutit jako domeček z karet. Klíčem prevence je v první řadě pomoci datovému inženýrovi pochopit složitý systém závislostí v okamžiku, kdy navrhuje, jak danou změnu nejlépe implementovat. Tím lze předejít většině problémů. K tomu pak Manta přidává automatická upozornění na problematické části datových toků, např. takové které se často mění, jsou příliš složité, kde jsou nepropojená rozhraní nebo které nikam nevedou. Díky tomu lze zabránit vzniku celé řady dalších incidentů.
Co všechno zákazníkům nabízíte?
Pro zjednodušení lze uvést dva základní komponenty.
První je skenování, kdy se Manta připojí k prostředí zákazníka a naskenuje vše, co v prostředí existuje. Veškeré zpracování dat, jeho logiku, použité algoritmy a vytvoří mapu, která ukazuje, odkud kam data tečou. S trochou nadsázky řečeno jde o reverzní inženýring.
Druhá část něco zákazníkům na základě získaných informací nabízí. Lze se podívat, odkud přitekla data, která dnes používám pro svoje rozhodování. Nebo jak bezpečně implementovat nejnovější změnový požadavek od marketingové oddělení. To jsou nejjednodušší příklady, jak lze s mapou od Manty pracovat. Nadstavbou jsou pak automatické procesy zmíněné v předchozí otázce, které předvídají možné problémy v datovém prostředí zákazníka a umožňují včasnou reakci. Například na základě toho, že došlo někde uprostřed systému k narušení datového toku, jako když vám ve stoupačce v domě praskne trubka.
Funguje vaše řešení i pro cloudová prostředí?
V tom jsme naprosto univerzální.
První úhel pohledu je, kde Manta běží. Odpověď je: Všude.
Druhý úhel pohledu je, co Manta umí naskenovat. Zde je množina technologií, kterým rozumíme, určitým způsobem omezena. Podporujeme velké desítky různých technologií a programovacích jazyků od výpočtů v Excelu přes databázové dotazovací jazyky SQL, Javu, Python a další. Podpora musí být dostatečně detailní, aby nám umožnila plně automatizované porozumění algoritmům, které data zpracovávají.
Máte řadu partnerů, dodavatelů databází, včetně IBM, Teradata, výrobce ERP systémů SAP a apod. Oslovili jste i Microsoft, Oracle, případně české výrobce ERP systémů jako například Asseco Solutions, Abra a další?
Máme několik úrovní technologického partnerství.
První je, že danou technologii skenujeme, takže k ní potřebujeme přístup. Jde o všechny výrobce, které jste vyjmenoval a řadu dalších. Potřebujeme mít jejich technologii k dispozici a na základě reverzního inženýringu vytvoříme mapu, která umožňuje systému porozumět. Z toho důvodu jsme se zaměřili na nejrozšířenější celosvětové technologie. Z ryze českých nepodporujeme žádnou, náš dominantní trh je ve Spojených státech.
Druhou úrovní partnerství je, když třetí straně poskytujeme výstupy z Manty nebo tyto výstupy přímo integrujeme do jejich řešení. Tato množina už je užší a jedná se typicky o společnosti poskytující datový katalog, řešení datové kvality nebo ochrany dat.
S některými výrobci jako Microsoft, SAP nebo IBM máme oboustranné partnerství, kdy na jednu stranu jejich systémy čteme, na druhé straně jim něco nazpět poskytujeme. Tato partnerství jsou pak pro nás nejzajímavější.