HILANO

Human-in-the-Loop Lernverfahren für verteilte inkrementelle Anonymisierung

Das Projekt HILANO wird im Rahmen des Programms kmu-innovativ vom Bundesministerium für Bildung und Forschung unter dem Förderkennzeichen 01IS18085 gefördert. Mit der Förderinitiative KMU-innovativ unterstützt das BMBF Spitzenforschung im deutschen Mittelstand.

Gefördert vom Bundesministerium für Bildung und Forschung

Das Problem

Die Menge der personenbezogenen Daten wächst immer weiter. Besonders im medizinischen und juristischen Bereich existieren große Mengen von personenbezogenen Daten. Um mit diesen Daten arbeiten zu können, muss der Datenschutz beachtet werden. Sobald allerdings der Personenbezug entfernt wird, sind große Teile des Datenschutzrechts nicht mehr anwendbar. Daher ist es von enormer Bedeutung, Informationen datenschutzkonform anonymisieren zu können. Dazu muss man bestimmte Informationen präzise finden sowie deren Rolle im jeweiligen Text verstehen.

Dabei müssen die aktuellen Entwicklungen im Datenschutzrecht beachtet werden: Nicht nur Daten mit offensichtlichem Personenbezug (Namen, Adressen, etc.) können datenschutzrechtlich erheblich sein, sondern auch solche Daten, die eine indirekte Identifikation ermöglichen.

Damit müssen nicht nur mechanisch Adressen und Namen erfasst werden, sondern für viele Konstellationen eine autonome Entscheidung getroffen werden. Erfolgt dieser Prozess händisch, ist das ein großer Kosten- und Zeitfaktor.

Die Lösung

Es bietet sich also an, für diese Entscheidungen ein modernes KI-System zu trainieren. Konventionelle Big Data-Analyse mittels künstlicher Intelligenz ist jedoch meist nicht datenschutzkonform, da es viele indirekte und schwache schützenswerte Hinweise in Texten gibt, die dann u.U. auch im trainierten Modell enthalten wären.

Technologie

Hier setzt unsere Lösung HILANO an: Sie unterstützt die manuelle Anonymisierung personenbezogener Daten in Text- und OCR-Bilddokumenten, indem sie mittels eines selbstlernenden Systems Anonymisierungsvorschläge unterbreitet. Der/die Sachbearbeiter/in kontrolliert die Vorschläge und nimmt ggf. Korrekturen vor. Dabei trainiert sie das Modell weiter (Human-in-the-Loop). Beim Training der Anonymisierungsmodelle werden die Originaltexte der Trainingsdokumente jedoch an keiner Stelle sichtbar gemacht. Somit ist der Datenschutz auch im zentralen Modell gewährleistet.

Dabei werden neue Technologien aus dem Bereich Natural Language Processing eingesetzt und ein sogenanntes Federated Learning-Modell verfolgt: Das Training des Modells erfolgt datenschutzwahrend dezentral.

Bucerius Law School

Die Bucerius Law School ist die erste private Hochschule für Rechtswissenschaft in Deutschland.

Als einer der beiden Partner aus der Wissenschaft sorgt die Bucerius Law School für die datenschutzrechtliche Komponente des Projekts. Die Betreuung des Projektes ist am Center for Legal Technology and Data Science angesiedelt.

Dirk Hartung

Lauritz Gerlach

CIB software GmbH

CIB ist seit 30 Jahren als etablierter Hersteller von Standardapplikationen rund um das Thema Document Lifecycle Management sowie als innovativer Partner im IT-Consulting bekannt. Die CIB bearbeitet im Projekt die Document Lifecycle-Anwendungen und den medizinischen Anwendungsbereich.