Die Data More-Klassifizierung identifiziert automatisch verschiedene Arten von kritischen Daten.
Data & More: Kategorien der Datenklassifizierung
Personenbezogene Informationen (PII)
Bei Data & More haben wir eine umfassende und detaillierte Methode entwickelt, um personenbezogene Informationen (PII) zu klassifizieren. Unser System basiert auf einer fundierten Kenntnis der DSGVO und anderer internationaler Datenschutzbestimmungen. Dadurch können wir Daten präzise in unterschiedlichsten Kontexten analysieren und kategorisieren.
Wir haben personenbezogene Informationen in hunderte spezifische, allgemeingültige Datentypen unterteilt. Jede dieser Unterkategorien repräsentiert eine eindeutige Kategorie persönlicher Daten. Dadurch gelingt uns eine detaillierte Analyse und Erkennung von PII in verschiedenen Ländern und Sprachen. Da jedes Land und jede Sprache eigene spezifische Herausforderungen mit sich bringt – beispielsweise nationale Identifikationsnummern, offizielle Dokumente, Zertifikate oder spezifische nationale Einrichtungen wie Kirchen, politische Parteien oder Gewerkschaften – berücksichtigt und integriert unser Klassifizierungssystem tausende einzigartige länder- und sprachspezifische PII-Kategorien.
Unsere Klassifizierungsmodelle wurden umfassend durch die Analyse von Milliarden Dateien, Bildern und anderen Datentypen validiert. Dabei verwenden wir speziell entwickelte und trainierte Sprachmodelle – unabhängig von großen Sprachmodellen (LLMs) –, um personenbezogene Informationen präzise und skalierbar zu identifizieren und zu kategorisieren.
Außerdem verbessern wir unser System kontinuierlich durch Feedback von hunderttausenden Nutzern. Wenn Nutzer uns Fehlklassifizierungen melden, hilft uns ihr Feedback, die Genauigkeit unserer Klassifizierungen stetig weiter zu erhöhen.
(Eine Liste der übergeordneten Dokumentklassen findest Du unten.)
Kritische Sicherheitsinformationen
Auch im Bereich kritischer Sicherheitsinformationen verfügt Data & More über ein umfangreiches Klassifizierungssystem. Dieses System schützt sensible operative und technische Daten, deren Offenlegung erhebliche Risiken für die organisatorische Sicherheit darstellen könnte. Zu den Kategorien gehören Passwörter und Secrets, also Zugangsdaten und Verschlüsselungsschlüssel für die Kommunikation zwischen Menschen und Maschinen, Quellcode, der möglicherweise unbeabsichtigt sensible Informationen oder Schwachstellen preisgibt, Logdateien von Anwendungen und Servern sowie Konfigurationsdateien der Infrastruktur, einschließlich Automatisierungsskripts wie Ansible. Darüber hinaus umfasst unsere Klassifizierung auch Schwachstellenanalysen, einschließlich Berichte über Sicherheitsbewertungen, Analysen von CVE-Schwachstellen und Ergebnisse von Penetrationstests. Durch diesen Ansatz wird sichergestelllt, dass kritische Sicherheitsinformationen genauso präzise identifiziert, kategorisiert und geschützt werden wie personenbezogene Daten.
(Eine Liste der übergeordneten kritischen Sicherheits-Dokumentklassen findest Du unten.)
Hier ist ein Überblick über alle verschiedenen Dokumentklassen mit personenbezogenen Daten:
Name |
Beschreibung der Dokumentklassen |
Zahlungskarte |
Daten, die Informationen über die Zahlungskarte einer Person enthalten. Algorithmen werden für die Suche verwendet, um gezielt nach den Nummernlogiken suchen, die Kreditkarten kennzeichnen. |
Verschiedene Ausweisdokumente | Verschiedene Ausweisdokumente zur Identifikation einer Person |
Führerschein |
Daten von Führerscheinen, die einer oder mehreren Personen zugeordnet werden können. Algorithmen werden verwendet, um nach den eindeutigen Nummern zu suchen, die auf Führerscheinen vorkommen. Zusätzlich wird nach Wörtern gesucht, die auf Führerscheinen zu finden sind, und es wird überprüft, ob ein Bild einer Person vorhanden ist. |
Ethnische Herkunft |
Es werden Informationen über die ethnische Herkunft einer oder mehrerer Personen gesucht. Es wird nach allen ethnischen Zugehörigkeiten gesucht oder danach, ob jemand aus einem bestimmten Land stammt. |
Förderantrag | Personenbezogene Daten, die in Anträgen an Stiftungen für finanzielle Unterstützung erscheinen. |
Gesundheitskarte |
Es wird in den gescannten Daten nach Gesundheitskarten gesucht, wie z. B. Krankenversicherungskarten. Zu den Anforderungen für die Suche gehört u.a., dass eine Sozialversicherungsnummer erscheint und es sich um eine Bilddatei handelt. Gesundheitskarten werden hauptsächlich durch OCR-Scanning gefunden. |
Gesundheitsinformationen |
Daten, die Informationen über die Gesundheit einer oder mehrerer Personen liefern, wie z. B. Krankmeldungen. In der Suche werden z. B. allgemeine Corona-Informationen, Sicherheitsdatenblätter, Newsletter, interne Handbücher usw. ausgeschlossen. Es wird nach Formulierungen gesucht, die eindeutig auf eine Krankmeldung und eine spezifische Diagnose, einen Besuch beim Hausarzt o.ä. oder auf medizinische Präparate hinweisen. Damit eine Datei klassifiziert wird, müssen sowohl eine betroffene Person als auch spezifische Gesundheitsinformationen vorhanden sein. |
Gewerkschaftsmitgliedschaft |
Es werden Informationen über die Mitgliedschaft einer oder mehrerer Personen in einer Gewerkschaft gesucht. Es wird nach allen bestehenden Gewerkschaften in Ihrem Land, in der EU und in weiteren großen Ländern gesucht. |
Nationale Identifikationsnummer |
Nationale Identifikationsnummern, die in den gescannten Daten erscheinen. Algorithmen werden verwendet, um nach Nummern zu suchen, die die Kriterien für eine nationale Identifikationsnummer erfüllen. Zusätzlich wird nach Schlüsselwörtern wie „Personalausweisnummer“ o.ä. gesucht. Zusätzlich zur Suche in E-Mails und Chats werden viele nationale Identifikationsnummern durch OCR-Scanning gefunden, z. B. von Bild- und PDF-Dateien. |
Personalausweis |
Personalausweise, die identifizierbaren Personen aus verschiedenen Ländern gehören. |
Reisepass |
Es wird in den gescannten Daten nach Reisepässen gesucht. Um als Passport klassifiziert zu werden, müssen Datensätze ein Bild einer Person und die eindeutigen Ländercodes enthalten, die auf Reisepässen erscheinen. |
Politische Orientierung |
Es werden Informationen über die Mitgliedschaft einer oder mehrerer Personen in einer politischen Partei oder Informationen über eine politische Ausrichtung gesucht. Es wird nach allen bestehenden politischen Parteien in Ihrem Land, in der EU und in weiteren großen Ländern gesucht. |
Personalbeschaffung |
Personenbezogene Daten, die in Bewerbungen, in Initiativbewerbungen sowie in Lebensläufen erscheinen. Diese Dokumentklasse enthält auch Absagen auf Bewerbungen. Es wird nach Phrasen gesucht, die für Bewerbungen einzigartig sind. |
Religiöse Überzeugung |
Es werden Informationen über die religiöse Überzeugung einer Person gesucht. Es wird nach allen bekannten religiösen Überzeugungen und der Mitgliedschaft in staatlich anerkannten Kirchen gesucht. |
Gehalts-/Finanzinformationen |
Daten, die Informationen über das Gehalt einer Person enthalten, zum Beispiel Gehaltsabrechnungen und Honorarabrechnungen. Es wird auch nach Informationen über Bonuspläne gesucht. Um Daten in dieser Kategorie zu finden, wird nach Wortkombinationen gesucht, die nur für z.B. Gehaltsabrechnungen gelten. Zusätzlich wird nach Phrasen gesucht, die erscheinen, wenn Informationen über das Gehalt einer oder mehrerer Personen gegeben werden, wie z. B. das monatliche Gehalt einer Person. |
Sexuelle Orientierung |
Es werden Informationen über die sexuelle Orientierung einer oder mehrerer Personen gesucht. Es wird nach allen existierenden sexuellen Orientierungen gesucht. |
Steuerinformationen |
Daten, die Informationen über die Steuerinformationen einer Person enthalten, insbesondere in Form von Jahresabrechnungen. PDFs werden gezielt durchsucht, da Jahresabrechnungen oft in diesem Dateiformat vorliegen. |
Beendigung des Arbeitsverhältnisses |
Datensätze mit Informationen über die Beendigung des Arbeitsverhältnisses eines Mitarbeiters innerhalb einer Organisation, einschließlich Kündigungen, Entlassungen u.ä.. Die Titel der Datensätze, die auf Kündigungen hinweisen, und Wörter, die besonders relevant für Kündigungen sind, sind Teil dieser Suche. |
Informationen zum Arbeitsverhältnis |
Informationen und Bedingungen von Arbeitsverträgen zwischen Arbeitnehmer und Arbeitgeber, sowohl in Dokumenten, als auch in schriftlichen Kommunikationen. Es wird nach einer großen Sammlung von Wortkombinationen und Phrasen gesucht, die einzigartig für Arbeitsverträge zwischen Arbeitnehmer und Arbeitgeber sind. Verträge, die nicht mit dem Arbeitsverhältnis zusammenhängen, z. B. Gewerbemietverträge, werden ausgeschlossen. |
Reiseinformationen |
Daten, die Informationen über die Reisen einer Person zu bestimmten Zeiten enthalten, wie z. B. Hotel-, Flug- und Restaurantbuchungen. |
Abmahnung |
Daten über interne Verwarnungen oder Abmahnungen an eine oder mehrere Personen aufgrund von Verstößen gegen die Richtlinien der spezifischen Organisation. |
Testamente | Personenbezogene Daten bezüglich des Testaments einer oder mehrerer Personen. |
Urkunden / Bescheinigungen |
Jedes Land stellt eine Vielzahl offizieller Dokumente für Zwecke wie Namensgebung, Heirat, Geburt, Partnerschaften und mehr aus. Diese Dokumente sind sowohl in ihrer Art als auch in ihrem Namen einzigartig und dienen als wesentliche rechtliche Unterlagen für Einzelpersonen in jedem jeweiligen Land. Um diese Dokumente zu identifizieren, wird nach Inhalten gesucht, die für diese Zertifikate einzigartig sind. |
Arbeitsausfall | Daten zu Fällen, in denen ein Mitarbeiter an geplanten Arbeitstagen nicht zur Arbeit erscheint oder infos über BEM-Gespräche. |
Vollmacht | Vollmachten oder Daten im Zusammenhang mit der persönlichen Zustimmung, bei der eine Person ihre Zustimmung gibt, dass ihre persönlichen Informationen mit einer Organisation oder Ähnlichem geteilt werden. |
Versicherungsinformationen |
Daten über Versicherungsdokumente, die beschreiben, wie eine oder mehrere Personen versichert sind, z. B. Hausrat- oder Unfallversicherungen. |
Standort |
Daten zum Wohnort einer Person |
Ausbildungsinformationen |
Abschlusszeugnisse, Prüfungszeugnisse, Zertifikate und sonstige Daten, die Aufschluss über die Ausbildung einer oder mehrerer Personen geben. |
Kriminelles Verhalten |
Daten mit Informationen über das kriminelle Verhalten einer Person oder Polizeiberichte. |
Hier ist ein Überblick über alle verschiedenen Dokumentklassen mit kritischen Sicherheitsinformationen:
Name |
Beschreibung der Dokumentklassen |
Passwörter und Secrets |
Passwörter und Anmeldeinformationen für den Endbenutzerzugriff auf Systeme sowie Schlüssel, die zur Verschlüsselung der Kommunikation und für die Maschine-zu-Maschine-Kommunikation verwendet werden. |
Quellcode | Quellcode in den wichtigsten Programmiersprachen, der zum Kopieren von geistigem Eigentum und zum Untersuchen von Schwachstellen verwendet werden kann |
Logdateien |
Logdateien von Systemen oder Servern |
Infrastrukturkonfiguration |
Verschiedene Informationen zur Infrastrukturkonfiguration, einschließlich Infrastrukturautomatisierung wie Ansible-Skripte. |
Schwachstellenanalyse | Dokumente zur Bewertung der Sicherheit von Infrastruktur und Anwendungen, einschließlich der Bewertung von CVE-Schwachstellen und Ergebnissen von Penetrationstests. |
Sicherheitsvorfälle |
Sicherheitsvorfallsberichte, die Sicherheitsvorfälle beschreiben und bewerten. |
Digitale Zertifikate |
Digitale Zertifikate, die für Authentifizierung, Verschlüsselung, Signaturen usw. verwendet werden. Es wird nach Zertifikaten wie pki, pem, cert gesucht. |
Standorte von CCTV-Kameras |
Informationen zum Standort von CCTV-Kameras |
Sicherheitsanforderungen |
Details zu den Sicherheitsanforderungen an für das Unternehmen tätige Dienstleister |
Kryptografische Signatur | Digitales Siegel, das die Authentizität und Unverändertheit einer Datei oder Nachricht bestätigt. Es wird häufig in signierten Dokumenten, E-Mails und Software verwendet. |