Syntetiske Data er generert av en maskinlæringsmodell som er trent opp på reelle data. De syntetiske dataene vil dermed oppføre seg som de originale dataene, men uten noen personlig identifiserende informasjon. Det er heller ikke mulig å re-identifisere personer, da dette er kunstig konstruerte data og ikke bare anonymiserte data.
Riktig håndtering av personvern er imidlertid bare den første av flere fordeler ved å ta i bruk Syntetiske Data.
Kartlegge: Vi kartlegger eksisterende system og finner syntetiseringsbehovet.
Anonymisere: Vi fjerner alle identifiserende felter. I tillegg fjernes sjeldne tilfeller som kan være gjenkjennelige og lette å knytte til person.
Syntetisere: Anonymiseringen er enkel å re-identifisere, så vi trener en maskinlæringsmodell som generer kunstige data basert på anonymisert data
Tilgjengeliggjøre: De syntetiske dataene tilgjengeliggjøres i systemene der de skal brukes
Oppdatere: Data endres fort, så statiske data utdateres fort. Derfor oppdateres de syntetiske dataene daglig, på en realistisk måte.
Syntetiske testdata handler om å tilby realistiske og omfattende testdata, uten å gå på akkord med personopplysningsloven. Å bruke produksjonsdata til testing er problematisk, spesielt etter implementering av GDPR. Dette gjelder også for NAV som er avhengig av gode testdata som ivaretar sikkerheten til kontaktene.
Vi har bygget et prisvinnende syntetisk testdatamiljø hos NAV.
Salgsdirektør, twoday
COO, twoday Avento
torstein.odegard@twoday.com
966 29 911