Zdá se, že žijeme v „době datové. Objem generovaných dat totiž každý rok stoupá, v některých disciplínách pak přímo závratně. Setkali jsme se s doc. Ing. Robertem Perglem z Fakulty informačních technologií ČVUT, kde se věnují i této problematice, abychom mu položili pár otázek.
Proč k tak vysokému nárůstu dat dochází?
Obecně lze současný trend nárůstu produkce dat přisoudit rozšíření výpočetní techniky do všech oblastí lidského života a disciplín. Hodně k tomu přispívají samozřejmě chytré telefony a internet věcí (IoT, Internet of Things). Obzvláště významný nárůst dat pak je v oblasti „živých věd“ (life science). Například vyšší dostupnost zařízení pro sekvencování genomů mají za následek obrovskou produkci dat, kde se lze pohybovat snadno v řádech petabajtů (1 000 terabajtů), se kterými bioinformatika potřebuje pracovat.
Jaké společenské a technické úlohy představuje současný trend nárůstu produkce dat?
Problém je, že tato data není možné jednoduše zahazovat. Například v případě medicíny bychom tak mohli zahodit data skrývající odpověď na neléčitelné choroby. Řada dat je navíc unikátní a nelze je v případě potřeby vygenerovat znovu.
Co se týká jednotlivých úloh, tak samozřejmě v první řadě si každý asi dovede představit technické problémy spojené s ukládáním a přenosem tak velkých objemů dat. Je to ale mnohem složitější, protože data je též potřeba nějakým způsobem spravovat, starat se o ně, zpřístupňovat, což zahrnuje problematiku důvěrnosti, licencí apod. Lze tedy říci, že se bavíme o úlohách technických, organizačních, politických i etických.
Jakým způsobem jsou tyto úlohy řešeny?
Technické úlohy byly hlavní motivací pro vznik velkých infrastruktur, protože jednotlivé instituce nejsou schopny samy je řešit, a ani to není ekonomicky a organizačně výhodné. Pro disciplínu živých věd například vznikla celoevropská infrastruktura ELIXIR, která zahrnuje 23 evropských zemí. Má i český národní uzel ELIXIR-CZ, jenž je jedním z národních uzlů a sdružuje 14 institucí, mj. i ČVUT. ELIXIR funguje na bázi 5 platforem, a poté specializovaných komunit, jako jsou Human Data, Proteomics či Rare Diseases. Platformami jsou Data, Tools, Compute, Interoperability a Training. Z jejich názvů je i zřejmé, čemu všemu se infrastruktura věnuje.
Tak to by bylo jistě dlouhé povídání, pojďme se nyní vrátit k tématu tohoto rozhovoru, kterým je data stewardship. Co vlastně znamená?
Prof. Barend Mons, významný evangelizátor této oblasti, definuje ve své knize „Data Stewardship for Open Science: Implementing FAIR Principles“ pojem data stewardship jako „proces a postoj, který vede k zodpovědnému nakládání s vlastními i cizími daty během, po, i před vědeckou prací a obecně cyklem práce s daty“. Mluví se i o pojmu data management, který je ovšem užší. Zaměřuje se totiž pouze na práci s daty během projektu.
Zmínil jste v názvu knihy zkratku FAIR, co znamená?
Jde o zkratku iniciativy snažící se o to, aby data byla nalezitelná (Findable), přístupná (Accessible), interoperabilní (Interoperable) a znovupoužitelná (Reusable). Tato iniciativa vzešla z pracovní skupiny FORCE11, která definovala 15 technologicky nezávislých principů, jež data či metadata musejí splňovat, aby je bylo možno označit za FAIR. Pojem zazněl poprvé na workshopu v centru Lorentz v Holandsku v roce 2014 a principy byly publikovány v roce 2016. Jde tedy o relativně novou záležitost, která však v posledních letech získává právem obrovskou pozornost, a to právem. Snahy uvést tyto principy do praxe v různých disciplínách a komunitách je nyní náplní iniciativy GO FAIR – volného sdružení jednotlivců i institucí.
Jak souvisí iniciativa FAIR s pojmem data stewardship?
Velmi úzce, a sice aby data byla FAIR, musí se o ně někdo starat, a to v celém životním cyklu, jak data stewardship vyžaduje.
Jak to funguje v praxi?
Poměrně různorodě. Některé instituce jsou více, jiné méně „uvědomělé“. Na každý pád, plán pro data management je již vyžadován některými evropskými grantovými agenturami a další budou následovat. Tendence je jasná. Výzkum financovaný z veřejných zdrojů, jehož výsledkem jsou data, musí zodpovědně přistoupit ke správě a dlouhodobému zachování těchto dat. Bohužel není zdaleka výjimečný případ, kdy zůstanou data po skončení výzkumu pouze na osobním počítači určitého výzkumníka, a pak jsou zapomenuta a ztracena. To jsou situace, kterým je třeba zabránit, už jen z důvodu plýtvání prostředky i možných nenahraditelných ztrát.
Dovedu si ale představit, že pro výzkumníky to představuje další nepříjemné povinnosti?
Je to tak. Když například zalistujeme zmíněnou knihou prof. Monse, vidíme, že toho není opravdu málo. Z tohoto důvodu vznikla samostatná profese „data steward“, tedy „správce dat“. V Čechách zatím nevím, že by nějaká instituce měla na plný úvazek tuto pracovní pozici, ale v Evropě je to již běžné. Poptávka po této profesi roste a prof. Mons odhaduje, že během následujících let bude třeba ve světě 500 tisíc data stewardů, abychom se dokázali vyrovnat s přechodem do „doby datové“.
To je obrovské číslo, kde tolik data stewardů vzít?
Potřebné základy by měl mít každý absolvent informatického studijního programu na univerzitě – například u nás na Fakultě informačních technologií ČVUT studenti mohou získat jak technické znalosti, tak mohou též absolvovat předměty zaměřené na management, ekonomii, bezpečnost, právo v informatice apod.
Kromě toho GO FAIR i velké infrastruktury začínají vytvářet výukové materiály, kurzy i různé pomůcky specializované právě na data stewardship.
Jednu takovou pomůcku vyvíjíte na vašem pracovišti, jak to s ní vypadá?
Ano, jde o Data Stewardship Wizard, nástroj, jehož heslem je „from burden to benefit“, tedy od zátěže k výhodám, kterou data stewardship představuje. Tento nástroj vznikl na základě myšlenkové mapy Dr. Roba Hoofta pracujícího v holandském Dutch Techcentre for Life Sciences (DTL). Jeho mapa obsahuje okolo 600 otázek a po vytištění je to o čtyři metry dlouhá plachta. Spojením sil ELIXIR-NL jehož je DTL součástí A ELIXIR-CZ, jehož členy jsme díky ČVUT zase my, vznikl pracovní tým. Vyvinul aplikaci, která na principu hierarchického „inteligentního“ dotazníku provede výzkumníka všemi důležitými otázkami spadajícími do data stewardship. U nás na Fakultě informačních technologií se tomuto projektu věnuje Centrum pro konceptuální modelování a implementace (CCMi) ve spolupráci se skupinou Bioinformatika doc. Vondráška na Ústavu organické chemie a biochemie Akademie věd.
Jde tedy o tréninkový nástroj?
Nejenom. Nástroj má samozřejmě edukativní rovinu, zejména z hlediska objevování, co vše je třeba vzít v potaz pro dobrý data stewardship plan. Dr. Hooft to přirovnává k „checklistu pilota“. Krom toho lze k jednotlivým otázkám přiřadit i odkazy na výukové materiály, dokumenty, kurzy a jiné zdroje. U otázky též může být uveden expert, na kterého se lze obrátit. Tato edukativní rovina ale není zdaleka jedinou funkcí. Nástroj totiž slouží především jako „osobní data steward“, který klade otázky a též komentuje vaše odpovědi. Ve spolupráci s ním tak podobně jako je tomu v případě “fyzického data stewarda” vytvoříte data stewardship plan pro vlastní projekt. „Moudrost“ tohoto čaroděje zajišťuje, že to bude dobrý plán. Krom toho nástroj umí i indikovat pomocí metrik, nakolik budete „FAIR“, nakolik je váš plán „dobrý“, a nakolik je váš přístup k datům otevřený.
Ještě jedna zajímavost. Kniha prof. Barenda Monse vznikla na základě oné myšlenkové mapy Dr. Hoofta, kde prof. Mons kromě velmi zajímavého a strhujícího úvodu přináší cenné zkušenosti a rady k jednotlivým otázkám. V této knize jsou uvedeny i odkazy na otázky ve Wizardu a též díky vstřícnosti vydavatele jsme mohli do Wizarda přidat detaily z knihy k jednotlivým otázkám.
Jeden detail. Zmínil jste otevřený přístup k datům odděleně od FAIR. Neznamená právě FAIR otevřená data?
Právě že ne. Tohle se v praxi často plete. Principy FAIR ještě automaticky neimplikují, že data jsou otevřená a volně či zdarma k dispozici. Principy FAIR budou splněny i v případě, kdy budou k dispozici pouze metadata, tedy informace o datech samotných, která nejsou volně přístupná – to je důležité například pro medicínská data.
Dobrá, vraťme se ještě k nástroji samotnému. Je určitě skvělé, že dokáže alespoň do určité míry nahradit živého data stewarda, ale stále v data stewardship vidím pro výzkumníka spíše zátěž než výhody.
Máte pravdu, zatím je motivací nástroj používat spíše ten příslovečný „bič“ než „cukr“. Věřím však, že tento pohled se postupně změní a vytváření plánů data stewardshipu bude podobná samozřejmost a svým způsobem i prestiže, podobně jako třeba vytváření finančních plánů. Navíc už vzniká celý ekosystém FAIR nástrojů a jejich synergie přinese opravdu zajímavé možnosti, například zjednodušení komunikace a vykazování s grantovými agenturami. Takové snahy již existují, například jsme zapojeni v tzv. “FAIR Funders Pilot”, o kterém si čtenáři mohou více přečíst zde: https://arxiv.org/abs/1902.11162. Také pracujeme na tzv. data stewardship plan “assembleru”, tedy montážní jednotce, která dokáže vytvořit plán podle určitých standardních šablon vyžadovaných poskytovateli financí – jednou z nich je například šablona Science Europe, která je sice stručnější, než považujeme za skutečně dobrý data stewardship plan, ale zase je „upovídanější“. Náš assembler dokáže z odpovědí sestavit anglické věty, které vyplní do šablony na správné místo. Výzkumník tak vyplní DS plan jednou, a poté si bude moci vygenerovat různé reporty pro různé grantové agentury bez další práce.
Jaký je model poskytování služby?
Data Stewardship Wizard (DSW) je vyvíjen jako projekt open-source s otevřenou licencí MIT. Na stránkách provozujeme ukázkovou instanci, ve které si zájemci mohou vyzkoušet všechny funkce. Tato instance má všechny funkčnosti, ale je pouze „na hraní“, protože jsou všichni tak říkajíc „na jednom písečku“ a mohou si kvůli tomu navzájem nechtěně „rozbít své bábovičky“. Plánujeme i skutečnou cloudovou službu, ale zatím je cestou pro profesionální použití spustit si vlastní instanci DSW na svém serveru. Případně nás mohou zájemci kontaktovat a jsme schopni nabídnout i hostování na našich prostředcích. Toto oddělené nasazení umožňuje i vyšší konfigurovatelnost na míru určité organizace. Všechny tyto možnosti, včetně dokumentace, jsou k dispozici na stránkách https://ds-wizard.org.
Když jsme u té konfigurovatelnosti, jak flexibilní je Data Stewardship Wizard? Výzkumník v oblasti sociálních věd bude mít jistě jiné potřeby data stewardship než bioinformatik.
Ano, přesně s těmito úvahami jsme DSW koncipovali. Jednotlivé otázky, odpovědi, reakce, metriky, a odkazy tvoří tzv. Knowledge Model (KM). Ten je možné v DSW upravovat. Určitá instituce se díky tomu může rozhodnout určité otázky odebrat, jiné přidat či změnit odpovědi dle svých lokálních praktik. KM je možné exportovat a importovat, a navíc si i „pamatuje“, ze kterého vyšel. V případě aktualizací původního tak jste schopen svůj aktualizovat, tzv. migrovat na novou verzi. Je to celkem dost sofistikovaný systém, který umožňuje vytvářet libovolné hierarchie KM pro různé disciplíny, jejich varianty, instituce. Zatím tato funkčnost není našimi uživateli příliš využívána, ale věříme, že bude velmi klíčová, jakmile začne růst zájem o DSW i mimo komunitu life science.
Tím, že jsme systém sami vyvinuli, tak jsme schopni udělat i libovolné úpravy funkčnosti či nové funkce na míru, jako například v aktuálním projektu pro nizozemský výzkumný institut DSM. Upravovat a dále vyvíjet systém může díky otevřenému kódu kdokoliv. Používáme sice zcela běžné programovací jazyky, díky kterým jsme ale velmi produktivní a kód je kvalitní, ale spíše se vyplatí nás oslovit. Systém totiž není triviální.
Jaké jsou další plány?
Máme samozřejmě spoustu nápadů a ambic, které se budeme snažit postupně naplňovat dle možností a zájmu uživatelů. Data Stewardship je jedním z prioritních témat infrastruktury ELIXIR na roky 2019-2021 a zdá se, že jsme se zde dobře etablovali. Největší práce ale nebude na nás, jakožto technických řešitelích, ale na komunitě data stewardů, kteří by měli spravovat a rozšiřovat obsah, tedy Knowledge Model, a vytvářet Knowledge Modely pro své komunity.
Ukázalo se také, že samotné „srdce“ DSW, tedy evolvabilní dynamický hierarchický dotazníkový systém, je šikovnou technologií, o kterou je zájem i v jiných kontextech. Například nyní na této technologii budujeme dotazníkový systém pro mapování rozrůstající se komunity GO FAIR (tzv. GO FAIR Implementation Matrix).
To zní všechno skvěle, máte nějakou konkurenci?
Co se týká oblasti nástrojů pro vytváření data management plánů, tedy takového toho „uspokojení požadavků poskytovatelů financí“,jsou tam nástroje, které jsou daleko zavedenější než náš Wizard, například DMPOnline, který je velmi rozšířený zejména ve Spojených státech. Tento nástroj má obrovskou výhodu v dostupnosti řady předpřipravených šablon, takže rychlý data management plán lze udělat velmi snadno. Naší ambicí je však pomoci ke správnému plánování data stewardshipu, proto má na našich stránkách i podtitulek „For Serious Researchers and Data Stewards“. Náš přístup založený na vysoké granularitě typicky uzavřených typů otázek, a zejména jejich hierarchickému pojetí, poté umožňuje například zmíněné počítání metrik, které v jiných nástrojích založených na „psaní esejí“ nejsou jednoduše možné.
Ale je třeba zdůraznit, že naší ambicí není se zapojovat do konkurenčních bojů o ovládnutí trhu, jsme především akademici a snažíme se z naší pozice pomáhat společnosti tím nejlepším možným způsobem. Proto jsme i v úzkém kontaktu s ostatními autory nástrojů, které také většinou vznikají při akademických pracovištích. Nyní například společně píšeme článek do speciálního vydání časopisu Data Intelligence zaměřeného na FAIR a chceme úžeji koordinovat naše snahy, například z hlediska tzv. data-actionable DMPs, tedy strojově zpracovatelných plánů, kde je třeba jistý koncensus nad formáty.