Většina podniků má již úložiště nějak optimalizovaná s ohledem na typ dat a způsob jejich využívání. Trénování (školení, učení) umělé inteligence však bývá výjimkou, protože řada organizací se začala věnovat generativní AI nebo vývoji vlastních modelů AI až v nedávné době; většině z nich proto chybí větší zkušenosti.
Výběr optimálního řešení úložiště pro tréninková data AI vyžaduje pečlivé posouzení. Na ITProToday přináší v této souvislosti několik tipů technologický analytik Christopher Tozzi. Jeho komentář doplňujeme o pohled Rajieva Rajavasireddyho, který je viceprezidentem pro produktový management společnosti Pure Storage a ředitelem výzkumného a vývojového centra Pure Storage v Praze.
Tréninková data pro umělou inteligenci se z čistě technického hlediska obvykle neliší od jiných běžných typů dat. Zahrnují informace, jako jsou e-maily, dokumenty a případně zvukové a video soubory. Tento typ dat je kompatibilní s celou řadou moderních úložných systémů, jako jsou databáze, souborová úložiště a bloková úložiště. Přesto jsou data, na kterých se modely umělé inteligence trénují, v určitých ohledech jedinečná, což s sebou nese speciální výzvy.
Problém objemu
Data pro trénování modelů AI mohou v první řadě vyžadovat obrovský objem úložného prostoru, což může znamenat také obrovské náklady na úložiště, zejména pokud není nákladově optimalizováno.
„Úzce spolupracujeme s našimi zákazníky a stále častěji od nich dostáváme požadavky na optimální řešení úložiště jak pro trénování, tak i pro provoz AI. Setkáváme se se třemi typy případů, o kterých zákazníci v souvislosti s AI hovoří: by fungovala jako úložný cloud, zjednodušila přístup k datům a jejich správu a odstranila datová sila, což umožní snazší přístup pro AI. Jednak je to trh vysoce výkonných datových úložišť pro velké veřejné nebo soukromé GPU farmy, jednak specializovaná úložiště pro prostředí Enterprise Inference Engine nebo RAG a do třetice modernizace všech podnikových úložišť tak, aby fungovala jako úložný cloud, zjednodušila přístup k datům a jejich správu a odstranila datová sila, což umožní snazší přístup pro AI.
Společným jmenovatelem těchto tří oblastí je infrastruktura. Stala se kritickým pilířem úspěšného nasazení AI. Naše rada zákazníkům zní: spolupracujte s dodavateli, kteří vám v rámci své infrastruktury mohou garantovat výkon, spolehlivost, flexibilitu, dostupnost a efektivitu.
Flexibilita je v oblasti umělé inteligence zásadní, protože tempo změn je ohromné. Organizace potřebují být schopné snížit riziko svých investic pomocí řešení, které umí podporovat více fází AI. Technologie by měla být schopna zvládnout trénink a interferenci a ve chvíli, kdy se shromáždí více dat, zase přepnout zpět na trénink,“ vysvětluje Rajiev Rajavasireddy.
Komprese, aktualizace a GPU
Modely umělé inteligence navíc obvykle přistupují k tréninkovým datům pouze při aktivním tréninku nebo přeškolování – a k těmto událostem může docházet nepravidelně a nepředvídatelně. V důsledku toho bývá těžké přesně předpovědět, jak často bude třeba data zpřístupnit. To může mít vliv na strategie ukládání, protože některá řešení ukládání (například studená cloudová úložiště) nepodporují okamžité zpřístupnění dat. Pokud se dopředu neví, kdy přesně budou data potřeba, představuje to problém.
V některých případech je možné tréninková data pro AI komprimovat, aby se ušetřilo místo. Zda to vůbec lze a jaký typ kompresního algoritmu použít, však závisí na schopnosti modelu pracovat s komprimovanými daty. Komprese bývá obvyklým prostředkem, jak snížit náklady na úložiště, ale pro AI to platit nemusí.
V úvahu je třeba vzít i aktualizaci dat. Udržování aktuálních dat je důležité pro zajištění toho, aby chování modelu odráželo všechny dostupné informace. To znamená, že schopnost aktualizovat tréninková data je důležitá – ale proveditelnost změn a efektivita aktualizací závisí na způsobu uložení dat.
„Umělá inteligence vyžaduje velký objem nestrukturovaných dat, a proto organizace potřebují řešení, které je dokáže zpracovávat rychle a ve velkém měřítku. Navíc GPU (grafické procesory) jsou jednou z nejdůležitějších a také nejdražších součástí nasazení AI. Pokud infrastruktura není dostatečně robustní, aby podporovala optimální výkon GPU, projekty AI nebudou tak úspěšné. Flashová úložiště jsou jediným řešením, které dokáže zajistit takovou úroveň dostupnosti pro nestrukturovaná data, která AI potřebuje ke svému úspěchu. Propojení modelů AI s daty totiž vyžaduje úložné řešení, které poskytuje spolehlivý a snadný přístup k datům napříč datovými sily a aplikacemi za všech okolností – to často není možné s úložným řešením typu HDD,“ říká Rajiev Rajavasireddy.
Kdy (ne)volit cloud?
Ch. Totzi dále nabízí několik tipů pro řešení výše popsaných problémů:
Obecně platí, že služby cloudových objektových úložišť, jako je Amazon S3 a Azure Blob Storage, jsou vhodnou volbou pro ukládání tréninkových dat v případě, že je potřeba uložit velmi velký objem. Tyto služby nabízejí prakticky nekonečnou úložnou kapacitu a podporují také verzování, takže jsou užitečné, je-li potřeba sledovat změny dat v průběhu času.
Lokální úložiště je ve většině případů méně škálovatelné než cloudové, takže pro opravdu velké objemy dat není ideální. Tento přístup může být ale z dlouhodobého hlediska nákladově efektivnější než cloudové úložiště.
„Cloudové úložiště je velmi užitečné pro testování algoritmů AI a jejich trénování,“ souhlasí Rajiev Rajavasireddy a dodává: „Udržovat program AI v chodu výhradně v cloudu však bude pravděpodobně nákladné. Organizace potřebují přesouvat data tam, kde jsou potřeba, a být schopny škálovat dle toho, jak se jejich potřeby zvyšují či snižují. My zde můžeme nabídnout unikátní architekturu Evergreen a as-a -service model (využití úložiště jako služby), který poskytuje nabídku podobnou cloudu i on-premise.“
Databáze podle Totziho obvykle nejsou ideálním způsobem ukládání tréninkových dat, protože jsou méně škálovatelné a flexibilní než jiné možnosti. Nicméně jsou-li tréninková data strukturovaná (například podnik má různé kategorie dat a chce ukládat každou z nich zvlášť), může být databáze efektivním prostředkem.
Souborové úložiště, které uchovává data uvnitř lokálních souborových systémů, také obvykle není vhodným způsobem. Struktura, kterou souborové systémy datům vnucují, může být nevhodná pro data postrádající ucelenou strukturu (častý případ dat pro trénování AI). Souborové úložiště je navíc obtížněji škálovatelné. Výjimku představují situace, když je k dispozici relativně malé množství trénovacích dat, která je třeba uložit, a kdy model AI je s daty umístěn na stejném počítači. V takovém případě může souborové úložiště vést k rychlejšímu trénování, protože data se nemusí přesouvat po síti.