Was tun mit Daten, dem Rohstoff der Zukunft? Daten gelten mittlerweile als nahezu unerschöpfliche Quelle. Zu spüren ist dies aktuell in Form eines regelrechten Datenrausches, der mit dem Goldrausch im 19. Jahrhundert vergleichbar ist. Während man früher nach dem Gold noch mühselig suchen musste, gilt es heute die bereits vorhandenen, strukturierten und unstrukturierten Unternehmensdaten zu untersuchen. Dies mag einfacher klingen, als es in der Realität ist. Denn die Daten liegen meistens in den unterschiedlichen Formaten, Strukturen, Sprachen sowie Quellsystemen vor, für dessen Analyse (Big) Data Technologien benötigt werden. Im Folgenden möchte ich Ihnen einige Tipps & Tricks an die Hand geben, die Ihnen die Sicherstellung der DSGVO-Konformität Ihrer (Big) Data Lösungen erleichtern kann. Frei nach dem Motto: Safety First!
Big Data = „Land“ der unbegrenzten Möglichkeiten?
Mithilfe von (Big) Data Analysen gelingt es bisher verborgene Zusammenhänge aufzudecken, indem beispielsweise verschiedene Daten in neuer Form kombiniert und verglichen werden. Unternehmen erhalten so Antworten auf wichtige Fragen – etwa warum die Kündigungsraten ihrer Bestandskunden so hoch sind (Churn Management) oder warum sich die Ausschussreduktion in ihrer Produktion so schwierig gestaltet (Smart Industry). Doch nicht nur die Zahl der Daten, sondern auch die Zahl der Anwender (z.B. Marketing, Vertrieb, Produktion, Management, etc.) innerhalb eines Unternehmen nimmt kontinuierlich zu. Ein (Big) Data-Analytics Projekt kann folglich nur funktionieren, wenn das Zusammenspiel von IT und Fachabteilung (LoB) bestmöglich funktioniert. Zudem spielt in fast allen IT-Projekten der Datenschutz eine immer entscheidendere Rolle. Unser Ratschlag lautet folglich: Identifizieren Sie personenbezogene Daten und setzen Sie entsprechende Data-Privacy-Tools ein, um alle Datenschutzrichtlinien vollumfänglich einzuhalten. Denn ab Mai 2018 gilt die neue EU-Datenschutzgrundverordnung (EU-DSGVO) verbindlich für alle Mitgliedsstaaten und die darin aktiven Unternehmen. Als tiefergehende Lektüre möchte ich Ihnen an dieser Stelle meinen EU-DSGVO Fachbeitrag empfehlen, der Ihnen wichtige Antworten auf „Sechs Fragen zu personenbezogenen Daten“ liefert.
Showstopper EU-DSGVO?
Nicht unbedingt! Natürlich muss sich auch Big Data an die Vorschriften halten, und ohne explizite Zustimmung der Betroffenen geht in Sachen automatisierte Analyse gar nichts. Explizit heißt in diesem Fall: Deutlicher Hinweis und aussagekräftige Information über die verwendete Logik und auf die Tragweite / angestrebte Auswirkung für den Betroffenen! „Automatisiert“ wiederum bedeutet, dass sobald ein System automatisch Entscheidungen trifft (von Cross-Sell Angeboten im eCommerce bis hin zu Dynamic Pricing), muss dies dem Nutzer mitgeteilt werden.
Ausweg Anonymisierung und Pseudonymisierung
Ein Exkurs vorweg: Mit beiden Verfahren wird das personenbezogene Datum durch einen Algorithmus unkenntlich gemacht. Bei der Pseudonymisierung existiert jedoch eine (getrennte) Zuordnung, der Vorgang ist also umkehrbar, wenn die Zuordnung bekannt ist. Sobald personenbezogene Daten anonymisiert sind, gelten diese nicht mehr als personenbezogen und können daher beliebig in Big Data Analysen, bspw. zum Profiling, genutzt werden! Im geltenden BDSG wird auch die Pseudonymisierung als ausreichend anerkannt, wenn die verarbeitende Stelle den notwendigen Schlüssel zur De-Pseudonymisierung nicht kennt. Experten rechnen damit, dass diese Regelung auch für die EU-DSGVO Anwendung finden wird.
Es wäre unrealistisch, einem Kunden heute schon eine Liste mit allen Algorithmen und Zwecken der Analyse vorzulegen und abzeichnen zu lassen, aber durch die Anonymisierung der personenbezogenen Daten entfällt diese Notwendigkeit. Und so lassen sich die meisten Analysen auch weiterhin durchführen. Denn entscheidend für die Aussagen sind nicht nur die persönlichen Attribute, die eine Person direkt identifizieren, sondern Attribute wie Kaufkraft, demographisches Umfeld, Altersgruppe und viele mehr, die bereits zuverlässige Prediktoren sein können. Wichtige Erkenntnisse können also weiterhin aus den versteckten Zusammenhängen aus Daten der Vergangenheit – oft „Historian“ genannt – gewonnen und diese dann in Echtzeit zur Steuerung von z.B. Vertriebsaktivitäten genutzt werden.
Besser kein Risiko eingehen!
Viele bekannte Unternehmen, die bisher schon mit besonders geschützten Daten, z.B. Patientendaten, Analysen durchgeführt haben, haben mithilfe dieses Ansatzes gute Erfahrungen gemacht. Um das Risiko in der analytischen Verarbeitung personenbezogener Daten auf null zu senken, werden dort in den analytischen Datenhaltungen keinerlei nicht-anonymisierte Daten gespeichert, sondern schon auf dem Weg in das Datawarehouse wird jeglicher Personenbezug eliminiert. Dazu werden entweder Technologien eingesetzt, die in einer Datenhaltung oder im Datenintegrationstool unterstützt werden, oder, alternativ, kann auf verschiedenen Datenhaltungen mittels zusätzlicher Werkzeuge eine virtuelle Anonymisierung angewendet werden, die zur Laufzeit, für alle oder bestimmte Benutzergruppen, bestimmte Daten anonymisiert. Mit beiden Ansätzen gehen Sie auf Nummer sicher, denn niemals sollten Sie die Entscheidung über die Nutzung noch personenbezogener Daten dem Endanwender überlassen.