Overblik over de forskellige dokumenttyper hvori der kan indgå personidentificerbare data, som Data&More's klassifikations-søgning automatisk har identificeret.
Data & More: Dataklassifikationskategorier
Personligt Identificerbar Information (PII)
Hos Data & More har vi udviklet en omfattende og granulær tilgang til klassificering af Personligt Identificerbar Information (PII). Vores system er baseret på en dyb forståelse af GDPR og andre globale privatlivsbestemmelser, hvilket gør os i stand til præcist at analysere og kategorisere data på tværs af forskellige kontekster.
Vi har opdelt PII i hundredvis af distinkte, generiske typer, der hver repræsenterer en unik kategori af personoplysninger. Disse underkategorier muliggør detaljeret analyse og genkendelse af PII i forskellige lande og sprog. Da vi anerkender, at hvert land og sprog har sin egen specifikke kompleksitet – herunder nationale ID'er, specifikke officielle dokumenter, specifikke certifikater og landespecifikke enheder såsom kirker, politiske partier og fagforeninger – kortlægger og håndterer vores klassifikationssystem tusindvis af unikke lande- og sprogspecifikke PII-kategorier.
Vores klassifikationsmodeller er blevet omhyggeligt valideret gennem analysen af milliarder af filer, billeder og andre datatyper. Vigtigt er det, at vi har udviklet og trænet specialiserede sprogmodeller – forskellige fra store sprogmodeller (LLM'er) – til at identificere og kategorisere PII med præcision og i stor skala.
Derudover forbedres vores system løbende gennem feedback fra hundredtusindvis af brugere. Når brugere identificerer og rapporterer fejlklassifikationer, hjælper deres input os med at forfine og forbedre vores klassifikationsnøjagtighed over tid. (se en liste over de overordnede dokumentklasser nedenfor)
Kritisk sikkerheds-information
Hos Data & Mere har vi også udviklet et omfattende klassifikationssystem til identifikation af kritisk sikkerheds-information. Dette system er designet til at beskytte følsomme operationelle og tekniske data, som, hvis de kompromitteres, kan udgøre betydelige risici for organisationens sikkerhed. Det inkluderer kategorier såsom adgangskoder og hemmeligheder, som dækker brugeradgangs-oplysninger og krypteringsnøgler til både menneskelig og maskinel kommunikation; kildekode, der utilsigtet kan afsløre hemmeligheder eller sårbarheder; logfiler fra applikationer eller servere; og infrastrukturkonfigurationsfiler, herunder automatiseringsscripts som Ansible. Ydermere omfatter vores klassificering også sårbarhedsvurderinger, som dækker dokumenter, der beskriver sikkerhedsevalueringer, CVE-sårbarhedsanalyser og resultater af penetrationstest. Denne tilgang sikrer, at kritisk sikkerhedsinformation identificeres, kategoriseres og beskyttes med samme præcision som PII-data.
(se en liste over de overordnede kritiske sikkerhedsdokumentklasser nedenfor)
Her er en oversigt over alle de forskellige overordnede dokumentklasser:
Navn i DMCS | Beskrivelse af dokument-klasse |
Advarsel til medarbejder |
Data som omhandler interne advarsler til en eller flere personer, grundet handlinger, som er i strid med den enkelte organisations retningslinjer. |
Ansættelsesvilkår | Data for ansættelsesaftaler mellem arbejdstager og arbejdsgiver, hvad enten der er tale om vilkår, som er beskrevet i dokumenter eller i en skriftlig kommunikation. Der søges efter en stor samling af af ordkombinationer og sætninger, som er unikke for ansættelsesaftaler imellem en arbejdstager og en arbejdsgiver. Kontrakter, som ikke vedrører ansættelsesforhold, fx. erhvervslejekontrakter undtages. |
Etnisk orientering | Hvis der i det scannede data findes oplysninger om en eller flere personers etniske orientering. Der søges efter alle eksisterende etniske orienteringer, eller at man kommer fra et bestemt land |
Opsigelse af medarbejder | Data med informationer om at en medarbejders ansættelse hos en organisation ophører i form af opsigelser, fratrædelser, fritstillinger mm. Der søges efter titler på data, som indikerer, at der er tale om opsigelser, samt ord, der særligt gør sig gældende ifm. opsigelser. |
Helbredsoplysninger | Data, der oplyser om en eller flere personers helbred, såsom sygemeldinger. Der søges efter sætninger, der tydeligt indikerer sygemeldinger og en specifik diagnose, besøg hos en praktiserende læge eller lign, eller medicinske præparater. Kriterierne er, at der både skal være et data subjekt og specifikke helbreds informationer. I søgningen frasorteres bl.a. generelle corona-oplysninger, sikkerhedsdatablade, nyhedsbreve, interne håndbøger mm. |
Kørekort | Data for kørekort, der kan henføres til en eller flere personer. Til søgningen anvendes algoritmer for de unikke koder, som optræder på kørekort. Derudover søges efter de ord, der findes på kørekort, og om der findes et billede af en person. |
Løn/økonomisk info | Data der indeholder oplysninger om en persons lønforhold, eksempelvis lønsedler, honorarpapirer og bonusaftaler. For at finde data i denne kategori søges der efter kombinationer af ord, som kun gør sig gældende på lønsedler. Derudover søges der efter sætninger, som optræder, når der oplyses om en eller flere personers lønforhold, såsom hvad en persons månedlige gage er, samt informationer om en persons bonusordning. |
Fagforeningsmedlemsskab | Data, der indeholder oplysninger om en eller flere personers medlemskab af en fagforening. Der søges efter alle eksisterende fagforeninger i dit land. |
Pas | Når der i det scannede data findes pas. For at få denne kategorisering skal data indeholde et billede af en person, og der skal indgå de unikke landekoder, som optræder på pas. Der søges også efter de individuelle pasnumre, som f. eks. kan indgå i mailkorrespondancer mellem flere personer. |
National ID - CPR |
CPR numre, der optræder i det scannede data. Til søgningen anvendes algoritmer for 10-cifrede numre, som opfylder kriterier for at være et rigtigt CPR nummer, og der søges efter nøgleord såsom "personnummer" og "CPR-nr". Udover søgning i mails og chats, søges mange CPR numre frem vha. OCR scanning af bl.a. af billede og PDF-filer. Denne kategori indeholder også ID-numre for personer fra andre lande. |
Politisk orientering | Hvis der i det scannede data findes oplysninger om en eller flere personers medlemskab af et politisk parti eller politiske observans. Der søges efter alle eksisterende politiske partier i Danmark. |
Religiøs orientering | Hvis der i det scannede data findes oplysninger om en persons religiøse orientering. Der søges efter alle kendte religiøse orienteringer og medlemskab af statsanerkendte kirker |
Sexuel orientering | Data med oplysninger om en eller flere personers sexuelle orientering. Der søges efter alle eksisterende sexuelle orienteringer. |
Skatteoplysninger | Data, som indeholder oplysninger om en persons skatteoplysninger, især i form af årsopgørelser. Der søges specifikt efter pdf'er, idet f. eks. årsopgørelser optræder i dette filformat. |
Straffeattest | Straffeattester, der er personhenførbare. Der søges efter de specifikke sætninger, som kun optræder på straffeattester |
Rekruttering | Persondata, som optræder i opfordrede eller uopfordrede ansøgninger, samt i CV'er. Denne dokument-klasse indeholder ligeledes afslag på jobansøgninger. Der søges efter sætninger, som er unikke for jobansøgninger, hvad enten de er opfordrede eller uopfordrede. |
Nationalt ID-kort | Data for ID kort tilhørende personer fra andre lande end Danmark. |
Sundhedskort | Hvis der i det scannede data findes sundhedskort, såsom det gule sygesikringskort og det blå EU sygesikringskort. Krav for søgningen er bl.a. at der optræder et cpr nummer og at der er tale om en billed-fil. Sundhedskort findes primært frem vha. OCR-scanning. |
Diverse ID | Diverse data for personlig identifikation |
Rejseinformation | Data, som indeholder informationer om en persons rejser på specifikke tidspunkter, såsom bookinger hos hoteller, flyselskaber og restauranter. |
Betalingskort |
Data, der indeholder oplysninger om en persons kreditkort. Til søgningen anvendes algoritmer, der specifikt kigger efter de nummer-logikker, som kendetegner kreditkort. |
Uddannelsesinformationer |
Uddannelsesbeviser, eksamensbeviser, certifikater og andre data, som giver oplysninger om en eller flere personers uddannelse. |
Fondsansøgning |
Personhenførbar data, som optræder i ansøgninger til fonde om finansiel støtte. |
Testamenter | Personhenførbar data omhandlende testamenter. |
Personlige attester / tilladelse |
Hvert land udsteder en række officielle dokumenter til formål såsom navngivning, ægteskab, fødsel, partnerskaber og mere. Disse dokumenter er unikke både i deres type og navn og fungerer som vigtige juridiske optegnelser for enkeltpersoner i hver respektive nation. Disse dokumenter findes ved at søge efter indhold, der er unikt for disse certifikater. |
Arbejdsfravær |
Data vedrørende tilfælde, hvor en medarbejder ikke møder ind til arbejde, hvor det ellers var planlagt. |
Forsikringsoplysninger | Data for forsikringsdokumenter, som beskriver, hvordan en eller flere personer er forsikret, såsom policer for indbosforsikringer og ulykkesforsikringer. |
Personligt samtykke |
Data omhandlende personligt samtykke, hvor en person giver samtykke til, at vedkommendes personoplysninger må deles med en organisation el lign. |