Objem dat roste tempem 40 % ročně, avšak ceny datových úložišť klesají pouze o 25 % ročně. Jak nad tímto trendem vyhrát a uspořit až 60 % stávajících nákladů?
Ukládání dat je žhavé téma už od vzniku počítačů. Počítače potřebují z nějakého místa brát data a poté je zpracovaná zase někam ukládat. Na začátku k tomu sloužila hromada děrných štítků, postupně přicházely novější technologie, které umožňovaly uložit více dat a zároveň je poskytnou rychleji ke zpracování.
Výsledkem je dnešní široká škála různých datových úložišť od mnoha dodavatelů, poskytujících kapacity od gigabajtů po petabajty, a s tím spojenou i různou úroveň výkonu.
Problémem je vendor-lock
Každý si sice může vybrat dle svých potřeb (náročnost aplikace, objem dat, finanční rozpočet) odpovídající úložiště, problémem však je právě ona široká paleta proprietárních hardwarových úložišť, kdy je zákazník výběrem konkrétního datového úložiště zamknut napevno k tomuto úložišti, resp. jeho výrobci – „vendor-lock“. Možnosti jeho růstu jsou pak jasně dány omezeními, které daný typ úložiště má. Nemůže tak rozšiřovat kapacitu dle svých potřeb, ale dle podmínek, jaké jsou spjaté s konkrétním modelem/řadou datového úložiště.
Toto začíná být pro většinu podniků dosti svazující, neboť s narůstajícím objemem dat, dnes označované jako big data, není takovéto omezení vhodné a znemožňuje podniku volně růst. Stejně jako děrné štítky neposkytovaly dostatečně flexibilní možnost uložení dat pro rostoucí potřeby výpočetních úkolů, tak ani tradiční proprietární hardwarové úložiště není vhodnou platformou pro dnešní a budoucí úlohy, alespoň ne pro většinu z nich. Co je tedy vhodnou odpovědí?
Software defined storage
Odpovědí může být řešení na bázi Software Defined Storage (SDS). Stejně jako tomu je na úrovni aplikačních serverů, kdy řešením pro narůstající poptávku po aplikačních serverech nebylo nakupování většího množství hardwarových serverů. Společnosti začaly využívat virtualizaci, a tak dnes v serverové místnosti najdete desítky či stovky fyzických serverů, na kterých však běží tisíce virtuálních serverů poskytující různé služby/aplikace. Díky virtualizaci totiž nad fyzickou vrstvou došlo k vytvoření softwarové vrstvy, která umožnila vyšší flexibilitu a škálovatelnost.
Datová úložiště typu software defined storage využívají obdobný přístup, tj. nad fyzickými servery vytvářejí softwarovou vrstvu, která pak dále poskytuje stejné služby jako klasická proprietární hardwarová úložiště. Důležitou vlastností je využití komoditního hardwaru a tím pádem výrazně nižší náklady (až o 60 %) na pořízení a provoz a velmi vysoká škálovatelnost.
SDS SUSE Enterprise Storage
Jedním ze zástupcům SDS je i řešení SUSE Enterprise Storage , které je založeno na projektu open source Ceph. Jde o prověřené řešení podporované lídrem v oblasti open source, společností SUSE. Cluster vytvořený pomocí SUSE Enterprise Storage lze provozovat ve třech režimech zároveň.
Zaprvé jako klasické blokové zařízení, ať už skrze RDB, například jako logické disky v operačních systémech typu Linux, či využít přístup pomocí iSCSI (Windows, Unix). SUSE Enterprise Storage je přitom jediným řešením na bázi projektu Ceph s komerční podporou iSCSI. Druhou možností je využití objektového rozhraní kompatibilním s S3 (AWS) a SWIFT (OpenStack). Poslední možností je pomocí klasického souborového systému.
Obrázek 1 – Architektura SUSE Enterprise Storage
Jak SDS od SUSE vypadá
Jak lze vidět z výše uvedeného schématu, základem řešení jsou tzv. storage servery, které jsou spojeny v clusteru a poskytují vysokou dostupnost a spolehlivost celého řešení. Minimální počet těchto serverů jsou čtyři, přičemž je možné libovolně přidávat další a navyšovat tím tak kapacitu celého úložiště dle rostoucích potřeb podniku. Druhou částí řešení jsou monitorovací servery, pro produkční prostředí jsou minimem tři, které opět zajištují vysokou dostupnost celého řešení.
Kapacita úložiště je pak dána počtem disků v jednotlivých storage serverech a způsobem uložení dat. Pro zajištění vysoké dostupnosti a odolnosti vůči selhání hardwaru je možné data ukládat pomocí dvou metod – replikace dat, či erasure coding. V případě replikace dat se každý soubor uloží v definovaném počtu replik (defaultně 3) na další servery/disky.
Naopak u erasure coding se soubor rozdělí na menší bloky, dopočítají se k nim opravné bloky, a toto vše se následně uloží na různé servery/disky. Výhodou erasure codingu je, že poskytuje vyšší kapacitu, než replikace dat na stejném hardwaru. Naopak nevýhodou jsou pak zase vyšší nároky na výpočetní výkon.
Řešení software defined storage založené na projektu Ceph je ověřené zákazníky po celém světě, jednou z organizací využívající tento způsob ukládání dat je například Evropská organizace pro jaderný výzkum (CERN), která provozuje několikapetabajtové úložiště. Nicméně nemusí vždy jít o takto velké datové úložiště, SUSE Enterprise Storage lze úspěšně provozovat již při požadavku několik desítek TB dat.
Pro více informací se podívejte web SUSE o softwarově definovaném úložišti. Najdete zde i malou tipovací soutěž o ceny (jednou z cen je například Raspberry Pi 3 Model B).