Watsonx.ai je sada nástrojů od IBM pro umělou inteligenci a podnikové datové platformy nad ověřenými daty a IBM připravila pro AI některé základní modely. Tento článek se zabývá kvalitou dat a jejich filtrací.
Na kvalitě dat záleží. Model AI učený na předpojatých nebo toxických datech bude přirozeně dávat předpojaté (významově posunuté) nebo toxické výstupy. Tento problém je propojen s obdobím základních modelů, kde data použitá pro učení modelu typický přicházejí z mnoha zdrojů a je jich tolik, že je žádný člověk nedokáže protřídit.
Jelikož data jsou palivem které pohání základní modely, IBM se zaměřila na pečlivé pečování o všechno, co do modelů vstupuje. V IBM vyvinuli nástroje AI pro agresivní filtrování dat proti nenávisti a zneuctění, licenčním omezením a významovému posunu. Když jsou pak nežádoucí data identifikována, jsou odstraněna, model je znovu učen, a tak se vše opakuje.
Pečování o data je úkol, který není nikdy opravdu dokončen. V IBM pokračují ve vývoji a zdokonalování nových metod pro zlepšení kvality dat a kontrol, aby se naplnil rozvinutý soubor splňující právní požadavky. Postavili end-to-end framework pro sledování syrových dat která byla čištěna, metody které byly užity a modely kterých se každý datový problém dotknul.
V IBM pokračují v shromažďování vysoce kvalitních dat aby to pomohlo zvládnout některé nejpalčivější úkoly byznysu napříč všemi obory jakými jsou finance, právo, kybernetická bezpečnost a udržitelnost. V současné době dosahují vice než jednoho terabytu prověřeného textu pro učení jejich základního modelu, a zároveň přidávají prověřený softwarový kód, satelitní data a data z událostí v IT sítích a logů.
IBM Research také vyvíjí techniky pro naplnění pravdivého celku životního cyklu základního modelu, aby se utlumily posuny významu a zlepšil bezpečnostní model. Práce v této oblasti zahrnuje FairIJ, který identifikuje místa významových posunů v datech použitých k ladění modelu, aby mohly být editováním odstraněna. Jiné metody, jako férové přeprogramování (fairness reprogramming), umožňují utlumit významové posuny v modelu dokonce poté, když už je učen.