Po big data zde máme další termíny, které na první pohled působí rozhodně podivněji: malá a široká data. Podle prognózy Gartneru se z velkých dat na malá a široká přeorientuje do roku 2025 až 70 % všech společností. Tento typ dat má poskytovat lepší kontext pro analytiku a také umožnit, aby umělá inteligence dokázala účinně pracovat i na základě menšího množství dat.
Co vlastně výše uvedené tvrzení znamená? Gartner ve své studii uvádí, že disruptivní události typu pandemie a vůbec rychlé změny způsobují, že historika data rychle ztrácejí svoji relevantnost. Proto je efektivnější spoléhat se na menší objem dat, ideálně na ta (téměř) současná. Navíc je třeba odlehčit i modely umělé inteligence a strojového (hlubokého) učení, které jsou při „datovém hladu“ velmi náročné a nákladné na provoz – a možná paradoxně nedávají pak ani tak dobré výsledky (poznámka: možná souvisí s takovými věcmi, jako že neuronová síť se může „přeučit“?). Datová analytika by se podle Gartneru proto měla soustředit na nové přístupy/metody, kam patří právě „malá data“ a „široká data“. Tímto způsobem by se měla dát získat větší hodnota především z nestrukturovaných dat a z dat pocházejících ze zdrojů různého typu.
Protože s příslušnými termíny se budeme možná setkávat častěji, snad tedy přece jen pokus o definice. Malá data znamenají přístup, který zahrnuje určité techniky analýzy časových řad a učení na základě několika pokusů (few-shot learning), syntetická data nebo strojové učení pod dohledem.
Široká data se zaměřují na analýzu a synergii dat různého typu, kdy vedle sebe máme data o různých objemech (malá/velká) nebo třeba data strukturovaná a nestrukturovaná, respektive třeba data zcela různého typu (textová data, obrázky, audio, hlas, fyzikální veličiny typu teploty apod.). Jedním z cílů je zde hledání vazeb mezi těmito typy dat (například nějaká korelace mezi jejich zdroji).
Malá a široká data mají umožňovat robustnější analytiku a umělou inteligenci, přitom menší náročnost na zdroje, ať už jde o samotná data nebo jejich zpracování. Představují odpověď na problém s nedostatkem dat pro klasické strojové učení a také umožňují lepší využití „chaotických“ dat z různých zdrojů, což odpovídá situacím z reálného světa. Využití malých a širokých dat je podobně univerzální jako v případě big data a dosavadních aplikací založených na strojovém učení (předpovědi vývoje poptávky, personalizace/zákaznická zkušenost, detekce podvodů, automatizace procesů…).
Zdroj: Gartner