O fenoménu zvaném Big Data se v posledních měsících sice mluví všude, ale ne vždy je chápán úplně správně. Zdaleka totiž nejde jen o to, že roste množství dat, které musejí firmy ukládat a zpracovávat. Co tedy skutečně Big Data znamenají a v čem jsou pro firmy přínosná?
Digitální svět v posledních letech čelí jedné zásadní výzvě: Každoročně rostoucímu objemu dat, který vytváří digitální vesmír Kupříkladu loňská studie IDC Digital Universe, sponzorovaná společností EMC, odhadovala, že za rok 2011 celkový objem informací vytvořených a replikovaných na celém světě překročí hranici 1,8 zettabajtů (1,8 bilionů gigabajtů) a během následujících pěti let vzroste devětkrát.
Přitom podle průzkumu společnosti EMC si pouze 38 % Business Intelligence (BI) analytiků a datových odborníků myslí, že jejich společnosti využívají dostupná data k tomu, aby získaly více informací o svých zákaznících – a to navzdory tomu, že investice do digitálního prostoru (hardware, software, služby a personál pro správu dat) vzrostla o 50 % na čtyři biliony dolarů.
Velká část dat, která procházejí firmou nebo se nacházející v úložištích či v externím prostředí, může mít nezanedbatelnou obchodní hodnotu – mohou být nositeli informací, které pomohou při rozhodování a získání konkurenční výhody. Pouze firma, která dokáže identifikovat, jaká data jsou užitečná, bude schopna udržet krok se svými konkurenty a s vývojem trhu. Samotná data totiž mohou poskytnout zejména cenný pohled na požadavky zákazníků a jejich vztah s firmou. Za předpokladu, že budou správně extrahována a zpracována, dokud jsou aktuální, mohou dokonce generovat nové zdroje příjmů.
Co jsou Big Data?
Pojem Big Data ovšem neznamená pouze fakt, že si firmy musejí poradit s obrovskými objemy dat, které je s využitím existujících IT zdrojů a technologií (potažmo při rozumně velkých investicích do dalších kapacit) prakticky nemožné zpracovat dostatečně rychle, aby byly výsledky stále ještě relevantní. Jde také zároveň o to, že jsou data velmi různorodá – pocházejí z několika odlišných zdrojů, některá jsou strukturovaná, jiná ne, vyskytují se v odlišných formátech a velmi rychle se mění.
Typickým příkladem jsou data ze sociálních sítí, která mohou být užitečná pro zkoumání budoucích preferencí zákazníků nebo zkoumání vztahů mezi uživateli ve velmi rozsáhlých seznamech čítajících třeba i stovky milionů záznamů.
Technologie z kategorie Big Data mají za úkol si poradit se všemi těmito aspekty a to při zachování rozumné výše investic. Při využití tradičních metod a nástrojů Business Intelligence by totiž byly investice (do nových serverů, storage kapacit, komunikačních kapacit atp.) neúměrně vysoké, pokud by se měly navýšit dostupné zdroje tak, aby bylo možné provádět ad hoc analýzy například v řádu sekund či minut.
Analýza dat musí být agilní, mělo by být možné provádět ji samoobslužně takřka v reálném čase a měla by při ní být podporována spolupráce. Právě na takové požadavky reagují společnosti jako EMC s řešením Greenplum či Hadoop, které si kladou za cíl vyvíjet unifikované analytické platformy. Tyto technologie pak zpravidla běží na škálovatelné infrastruktuře, jako je třeba EMC Isilon, a díky své vyspělé funkcionalitě umožní shromažďovat a integrovat širokou škálu datových zdrojů a vytvářejí prostředí, v němž mohou spolupracovat týmy datových odborníků.
Technologie Big Data mají svůj původ v principech zpracování dat, které byly vyvinuty ve společnostech jako Google či Facebook, jenž stály před stejným problémem: provádět rychlé a agilní zpracování enormních objemů dat bez astronomických investic do nových serverových farem.
Ke klíčovým vlastnostem technologií Big Data tak patří například paralelní zpracování výpočtů, kdy se každá úloha rozloží na tisíce nebo i miliony dílčích úloh, jejichž zpracování probíhá distribuovaně a z dílčích výsledků je poté složen souhrnný výsledek.
Efektivní využití Big Dat
Základní vlastnosti technologií pro Big Data jsme si již stručně nastínili, jak se ale jejich využití promítne do praxe? Abychom si ilustrovali, jaký přínos Big Data mohou mít pro byznys, je užitečné zmínit několik příkladů.
Typickými obory, které z těchto technologií mohou těžit, jsou telekomunikace či bankovnictví. Jestliže například zákazník zavolá na zákaznickou linku, potřebuje o něm operátor během několika (desítek) sekund co nejpřesnější informace, aby věděl, jak mu vyjít vstříc – u telekomunikací je potřeba co nejpřesněji vyčíslit škodu, která vznikne jeho přechodem ke konkurenci, v případě bankovnictví je potřeba co nejpřesněji určit, jaký produkt je momentálně nejprofitabilnější, nakolik je zákazník pro banku rizikový a především jaká nabídka zákazníka pravděpodobně zaujme.
Ve zdravotnictví je možné například lépe odhadovat výsledné interakce předepsaných léků, analyzovat individuální historická zdravotní data atd., u on-line retailu je možné využít dostupná data ke zvýšení míry konverzí URL. Samozřejmě nelze opomenout možnosti využití na burze či v oblasti kapitálových trhů, kde jsou včasné a aktuální informace základní podmínkou úspěchu.
Samozřejmě mnohé z těchto analýz by se daly provádět i pomocí technologií BI, nicméně zde není možné očekávat prakticky okamžité výsledky. U tradičního BI se reporty a analýzy vzhledem ke své náročnosti s běžně dostupnými výpočetními zdroji a technologiemi provádějí většinou jen jednou týdně či měsíčně, takže aktuálnost dat a informací nemusí být zdaleka dostačující. Analýzy individuálních dat zákazníků, které by skutečně vypovídaly o jejich hodnotě pro firmu či preferencích, nejsou nijak triviální a prakticky tak nelze uvažovat, že by byla předem analyzována data pro všechny zákazníky.
Příležitost pro IT
Pro IT oddělení je oblast Big Data mimo jiné i příležitostí, jak zlepšit své postavení v rámci firmy: Může totiž nabídnout reálné a hmatatelné přínosy pro obchodní oddělení. Předpokladem samozřejmě je, že buďto CIO nebo pracovník IT, který se pohybuje na pomezí IT a obchodu, dokáže odhadnout hodnotu určitého typu dat pro samotný byznys.
Zde dokonce vzniká nemalý prostor pro nový typ odborníka – takzvaný Data Scientist je přímo zaměřený na vyhledávání dat cenných pro firmu a na hledání způsobů jejich analýzy tak, aby mohla sloužit k získávání cenných informací o zákaznících či podpořila rozhodování.
Podle průzkumů společnosti EMC se 64 % profesionálů z oblasti Data Science shoduje, že poptávka po expertech z tohoto oboru v příštích pěti letech přesáhne jejich nabídku na trhu práce.
Nejméně třetina dotazovaných společností si je jistá, že by dokázala přijímat obchodní rozhodnutí na základě nových dat. Tyto názory naznačují, že v datech, která vznikají a proudí kolem nás, rozhodně lze nalézt nemalou hodnotu. Je potřeba ji pouze pomocí vhodných technologií a přístupů s přijatelnými náklady najít a extrahovat.