Po datových skladech přišla datová jezera, následují datové proudy a datové oceány. Tyto technologie alespoň představuje Mary E. Shacklett, prezidentka firmy Transworld Data, na InformationWeek. Měl by snad být datovým specialista dnes také hydrologem?
Nově zaváděná terminologie mnohdy působí směšně („zase si musí něco vymyslet, aby přiměli zákazníky něco nového koupit/aby to vypadalo jako inovace/aby se firma mohla odlišit“), ale pokud se ujme, za pár let se stane zcela běžnou a udivovat přestane. Naopak se spíš divíme, že nám takové slovo kdy vadilo.
Takže – co se odehrává z hlediska terminologie v dnešní éře zettabajtových dat (zetta je 10 na 21; hierarchie: tera, peta, exa, zeta)? S nárůstem nestrukturovaných velkých dat, která nyní tvoří zhruba 80 % všech v dat podnicích, se začala využívat úložiště založená často na jiných principech, než je datový sklad. M. Shacklett uvádí v první řadě datové proudy. Ty navazují na koncept datových jezer. Datové jezero je uzavřené úložiště dat různého typu a původu. Data mohou pocházet z hierarchické databáze nebo z externího zdroje, jako jsou sociální média, nebo z interního nestrukturovaného zdroje dat (obrázky, video…). Datové jezero je třeba řídit tak, aby data v něm byla aktuální, tedy obnovovat je.
Skoro opakem datového jezera, respektive tím, co do něj ústí (a co ho aktualizuje), jsou datové proudy, tedy data v pohybu. Příkladem jsou data z Internetu věcí, bezpečnostních kamer, průmyslových systémů, robotů nebo dronů. Trvale se jich ukládá jen malá část, ale i ta pomíjivá data často ovlivňují další operace, takže se přenášejí mezi různými body, pokud možno co nejrychleji.
A na závěr tu máme datové oceány. Jde o rezervoáry rozsáhlých, nezmapovaných (zásadní rozdíl od datového jezera) a nezpracovaných dat, která proudí z celého podniku a do něj. Podniky tato data ukládají, protože se domnívají, že by pro ně mohly mít v budoucnu využití. Většina z nich samozřejmě nebude k ničemu (respektive nikdo nezjistí, že/zda by mohly k něčemu být).
Vzhledem k tomu, že data z datového oceánu nebyla nikdy vyčištěna ani zpracována, jsou plná šumu a není pravděpodobné, že by se z nich daly získat kvalitní analytické informace. S tím, jak datový oceán neustále bobtná, stojí jeho ukládání stále více peněz a jeho správa je obtížnější. Je třeba zavést zásady likvidace těchto dat (mohlo by se tomu říkat vypouštění), minimálně v podobě nastavené doby jejich uchovávání. Ideální je ovšem omezovat datový oceán rovnou u jeho zdroje – tedy u datových proudů.
Tolik tedy stručné představení datové hydrologie. Ještě by se mohlo provázat s termínem vodopád (metodika pro vývoj softwaru i dalších projektů)…
Zdroj: InformationWeek a další