Umělá inteligence se na něčem musí učit, marketingoví specialisté potřebují nějaká data a řada firem žije z toho, že anonymizovaná data prodává. To je v pořádku, výzkumníci z Imperial College London ovšem tvrdí, že pokud anonymizace znamená prostě odstranění citlivých osobních údajů, nemusí být ve skutečnosti dostatečná a konkrétního člověka lze i tak identifikovat s vysokou mírou přesnosti.
Jinak řečeno: V Praze žije x lidí, kteří jsou ženatí muži a mají dvě děti. Co ale pokud se tito lidé narodili v konkrétní datum, jezdí červeným sportovním autem a mají psa? Výzkumníci tvrdí, že pomocí strojového učení lze data zpětně přiřadit konkrétním lidem: stačí, aby sada obsahovala 15 charakteristik a pravděpodobnost přiřazení je 99,98 %, jak alespoň prý potvrdily pokusy prováděné v USA. Tímto způsobem má jít odhalit 1 člověka z miliardy. Samozřejmě není charakteristika jako charakteristika, některé přinášejí mnohem zacílenější informace než jiné.
K čemu konkrétně by se provádělo přiřazení, je další otázka, navíc ztotožnění více profilů ještě vůbec neznamená, že se tím došlo ke konkrétnímu člověku (nadále nemusí být vůbec známo jméno, e-mail, telefonní číslo…). I z anonymizovaných dat se nicméně podařilo např. získat daňová přiznání amerického prezidenta D. Trumpa z let 1985–94. Anonymizovaná data, jichž se zmocní útočník, nebo i data volně přístupná, třeba poskytovaná státní správou, se podle autorů článku v Nature dají stále používat proti konkrétním lidem.
Autoři každopádně tvrdí, že data s odstraněnými citlivými údaji, např. vyhovující GDPR, nejsou v pravém slova smyslu anonymní a nemělo by tedy s nimi být možné volně obchodovat. Zde by se skeptikovi chtělo podotknout: Jako by GDPR nezpůsobilo dost komplikací, máme snad očekávat další, přísnější regulaci nad tento rámec? (I když v tomto případě by nezasáhla běžné firmy, které s příslušnými údaji dále neobchodují, dalo by se namítnout. Jen aby. GDPR také začínalo s motivací mít kladivo na Facebook a následně toto kladivo dopadlo na obce, školy, malé firmy i zájmové organizace.) Do dat je např. možné úmyslně přidávat šum, ale jaký by taková data pak měla smysl a není to absurdní už z principu? Nebo se stanoví nějaké maximální množství položek v libovolném profilu?
Luc Rocher et al. Estimating the success of re-identifications in incomplete datasets using generative models, Nature Communications (2019). DOI: 10.1038/s41467-019-10933-3
Zdroj: Phys.org/ Imperial College London