Datenmanagement

Anonymisierung persönlicher Daten – der Schlüssel zum Schutz der Nutzer

Techniken zur Anonymisierung

Mit der Anonymisierungstechnik werden personenbezogene Daten von den verarbeiteten Datensätzen getrennt, um so das Recht auf Datenschutz zu gewährleisten.

Wir befinden uns im sogenannten Datenzeitalter, in einer Zeit tiefgreifender Veränderungen und in der Informationen der Antrieb des 21. Jahrhunderts sind. Sie sind ein sehr wichtiger Faktor für die Geschäftsentwicklung. Daten sind auf allen Ebenen die Grundlage für Geschäftsstrategien und haben deshalb einen großen Wert, was wiederum der Grund ist, sich besonders um sie zu kümmern, sie zu respektieren und sie optimal zu behandeln, damit Privatsphäre und Datenschutz von natürlichen und juristischen Personen gewährleistet werden können.

Die Anonymisierung spielt dabei eine sehr wichtige Rolle. Wie der Name schon sagt, geht es bei diesem Verfahren um die Risikobeseitigung bei der Identifizierung sensibler Daten. Mit anderen Worten, es handelt sich hierbei um eine Technik, die es möglich macht, Daten auf sichere Weise zu verwenden und dabei die Anonymität von Personen unter Einhaltung der geltenden Gesetze, wie z. B. der allgemeinen Datenschutzverordnung (in Deutschland ist dies die DSGVO), zu wahren.

Bei dieser Technik werden die Risiken gesenkt, die mit der massiven Verarbeitung von Daten verbunden sind und die Daten, die besonders geschützt werden müssen, vor der Öffentlichkeit verborgen. Diese Technik schränkt jedoch nicht die Möglichkeit der Datennutzung ein und deren Umwandlung in nützliche Informationen, was durch die Verwendung von Technologien wie Data Science, Big Data, künstliche Intelligenz oder maschinelles Lernen erreicht werden kann.

Techniken zur Anonymisierung

Die Anonymisierung von Daten kann mittels verschiedener Techniken ausgeführt werden. Schauen wir uns einige von ihnen an:

Homomorphe Verschlüsselung: Sie ermöglicht es, Daten zu verschleiern und mit ihnen auf versteckte Weise so zu arbeiten, als ob sie sichtbar wären. Zur Wahrung des Rechtes auf individuellen Schutz, können die Informationen in den geschützten Daten nur mit einem Passwort sichtbar gemacht werden. Mit anderen Worten: Nur Personen, die über einen Code zur Entschlüsselung der Daten verfügen, können dies auch tun.

Hash-Algorithmen: Hierbei handelt es sich um einen mathematischen Vorgang, der einem bestimmten Teil der Daten einen Schlüssel zuweist, ohne den sie nicht eingesehen werden können. Dieser Schlüssel oder Fingerabdruck repräsentiert die eigentlichen Daten und ohne ihn ist eine Entschlüsselung nicht möglich. Der Vorgang wird in nur eine Richtung ausgeführt, um dem System so Garantien zu bieten: Die verschleierten Daten oder Mikrodaten erzeugen immer denselben digitalen Fingerabdruck, jedoch ist es nicht möglich, von diesem ausgehend die anonymisierten Daten zu entschlüsseln.

– Randomisierte Algorithmen: Wie der Name schon sagt, werden die Daten nach dem Zufallsprinzip behandelt. Aus der Gesamtzahl der Datensätze werden die Daten anonym herausgegriffen – es ist nicht bekannt, von wem sie stammen. Dies geschieht durch Hinzufügen von Rauschen (Veränderung eines Datensatzes, um ihn ungenauer zu machen), durch Permutation (Vermischung von Attributen, sodass sie unterschiedlichen Teilnehmern zugeordnet werden können) oder durch differenziellen Datenschutz (allgemeine Behandlung von Daten, ohne zu wissen, zu wem jede einzelne Eigenschaft gehört).

– Verallgemeinerung: Die Gewährleistung der Anonymität wird dadurch erreicht, indem man Skalen und Größenordnungen der Attribute ändert, die zu den zu schützenden natürlichen oder juristischen Personen gehören. Zu diesem Zweck verwendet man Techniken wie Aggregation und K-Anonymisierung (Datensätze werden einer Gruppe von Personen zugeordnet, sodass sie einzeln nicht mehr isoliert und identifiziert werden können) oder Diversity-l/Proximity-t (ähnlich der vorherigen, wobei jeder Äquivalenz hier unterschiedliche Werte hinzugefügt werden).

Was ist Pseudonymisierung?

Nach der DSGVO ist die Pseudonymisierung personenbezogener Daten „die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und technischen und organisatorischen Maßnahmen unterliegen, die gewährleisten, dass die personenbezogenen Daten nicht einer identifizierten oder identifizierbaren natürlichen Person zugewiesen werden„.

Mit anderen Worten werden hier die Attribute der zu schützenden Daten durch verschlüsselte Versionen ersetzt, um eine direkte Identifizierung zu verhindern. Dies geschieht, ohne dass ihre Verknüpfung mit zusätzlichen Informationen beseitigt wird und unter der Voraussetzung, dass diese getrennt gespeichert werden. Ein Beispiel für Pseudonymisierung ist das Ersetzen von Kundennamen durch alphanumerische Codes, sodass ihre direkte Identifizierung nicht möglich ist.

Wie bei der Anonymisierung kann die Pseudonymisierung durch die Verwendung von Hash-Algorithmen, durch die Ersetzung sensibler Daten durch Token oder durch die Verwendung geheimer oder gespeicherter Schlüssel ausgeführt werden.

Unterschiede zwischen Anonymisierung und Pseudonymisierung.

Die grundlegenden Unterschiede zwischen Anonymisierung und Pseudonymisierung beruhen auf zwei Grundsätzen: der Daten-Umkehrbarkeit und ob diese Daten als personenbezogene Daten eingestuft werden. Lassen Sie uns das etwas genauer anschauen:

Wie wir bereits erklärt haben, werden bei der Anonymisierung die Daten unwiderruflich so verändert, sodass die betroffene Person weder direkt noch indirekt identifiziert werden kann. Folglich gelten sie nicht mehr als personenbezogene Daten im Sinne der Datenschutz-Grundverordnung.

Bei der Pseudonymisierung werden die Daten jedoch nur soweit verändert, als dass sie durch Passwörter oder Pseudonyme geschützt werden, wodurch dieser Prozess rückgängig gemacht werden kann. In diesem Fall gelten die pseudonymisierten Datensätze weiterhin als personenbezogene Daten, da es ja eine Möglichkeit eines erneuten Zugriffs auf die ursprünglichen Daten gibt.

Beispiele für Anonymisierung und Pseudonymisierung

Ein eindeutiges Beispiel für die Anonymisierung wäre jede Art von Umfrageforschung. Ein Beispiel wäre dafür eine der vielen Situationsanalysen, die nach dem Erscheinen von COVID-19 durchgeführt wurden. In diesen Fällen werden die Daten über die teilnehmenden Personen nach allgemeinen Merkmalen wie Geschlecht, Altersgruppen, Gesundheitszustand (mit oder ohne Vorerkrankungen) gruppiert, sodass es unmöglich ist, einzelne Personen zu identifizieren. Dies geschieht auch bei Umfragen unter der erwerbstätigen Bevölkerung.

Ein Beispiel für die Pseudonymisierung finden Sie in den Kundendaten von Unternehmen. Um die Anonymität zu gewährleisten, werden ihre identifizierenden Daten durch einen Code ersetzt, der die interne Arbeit und die statistische Analyse ermöglicht, aber gleichzeitig die Einhaltung des Datenschutzes garantiert.