Nechat si sekvenovat genom nebo jeho část má smysl z řady důvodů. Totéž platí pro uložení těchto dat v nějaké databázi, a to i pro anonymizované veřejné sdílení. A jaká jsou naopak rizika?
Důvody sdílení genetických dat mohou být různé. Člověk se chce třeba dozvědět o tom, zda netrpí nějakými geneticky podmíněnými chorobami. Nebo chce takto hledat vzdálené příbuzné, zkoumat svou vlastní genetickou minulost, pravděpodobný geografický původ ve vzdálenější minulosti apod. A nebo zastává prostě názor, že otevřená data umožňují další zajímavé aplikace, tak proč je v nějak anonymizované nedat k dispozici zcela volně.
Ochránci soukromí před lehkomyslným nakládáním s vlastními genetickými ovšem varovali, protože tato data lze zase zpět nějak zkoušet propojit s konkrétním člověkem, a to sice nejspíš podle fotografií („masový“ algoritmus by takto zkoušel pracovat primárně na sociálních sítích). Nakonec právě na základě takto jednoznačných charakteristik se genetika jako věda konstituovala (Mendel a barvy hrachových květů). Logicky se objevilo podezření, že už odeslání kousku genetických dat do veřejně sdílených databází může vést k přiřazení konkrétnímu profilu na sociálních sítích.
Rajagopal Venkatesaramani, Bradley Malin a Yevgeniy Vorobeychik (Washington University v St. Louis a Vanderbilt University) se ve studii publikované v Science Advances nyní pokusili ověřit, nakolik ale takové ztotožnění skutečně lze provést. Práce zahrnovala použití algoritmů hlubokého učení ke zjištění, jak by lidé mohli vypadat na základě jejich individuálních genetických rysů. Poté výzkumníci vytvořili datový soubor s podrobnostmi o genomech 126 lidí a jejich odpovídajícími fotografiemi a použili stejný algoritmus hlubokého učení, aby se je pokusili spojit dohromady. Výsledek zní, že to moc nejde.
U většího množství dat (jedinců) to pak není proveditelné už skoro vůbec, protože genetická data ze všeho nejvíc korespondují s barvou očí, ovšem těchto barev je jen omezený počet, takže data pak lze spojit pouze s množinou lidí. Navíc veřejně přístupné fotografie na sociálních sítích apod. mají různorodou kvalitu, což klade algoritmům další překážku (nemá pak ani smysl provádět strojové učení na kvalitnějších datech). A nakonec, i kdyby se tento problém ukázal reálnější, stačí prý vnést do fotografií trochu náhodnosti (např. nějaká automatická úprava před publikováním na sociálních sítích) a vazba na genetická data už bude úplně neidentifikovatelná.
Rajagopal Venkatesaramani et al, Re-identification of individuals in genomic datasets using public face images, Science Advances (2021). DOI: 10.1126/sciadv.abg3296
Zdroj: TechXplore.com a další
Poznámka PH: V souvislosti s genetickými daty je ale aktuální situace spíše opačná: hlavní problém nezní, jak zabránit jejich zneužití, ale jak je smysluplně využít. Například personalizovaná medicína nastupuje jen velmi pomalu – třeba ve srovnání s tím, co se očekávalo před 15 lety.
Naopak.
Párování s fotografiemi možná nejde spolehlivě provést nyní, ale to neznamená, že to nebude možné v budoucnosti.
Zrovna v genealogických databázích a dalších genetická data nejsou anonymní a třetí strany se k nim dostat nejen mohou, ale reálně dostávají. Představuje to zjevné riziko v oblasti komerčního zdravotního pojištění nebo kriminalistiky, ve které se dějí chyby, z dlouhodobého pohledu … co takhle státní eugenický program? Nevíte, kdo tu bude vládnout za pár desítek let.