HILANO logo

HILANO

Human-in-the-Loop Lernverfahren für verteilte inkrementelle Anonymisierung

Bucerius Law School gGmbH Logo
CIB software GmbH Logo
Glanos GmbH Logo

Universität Hamburg

Das Projekt HILANO wird im Rahmen des Programms kmu-innovativ vom Bundesministerium für Bildung und Forschung unter dem Förderkennzeichen 01IS18085 gefördert. Mit der Förderinitiative KMU-innovativ unterstützt das BMBF Spitzenforschung im deutschen Mittelstand.

Gefördert vom Bundesministerium für Bildung und Forschung
Skizze des Problems

Das Problem

Die Menge der personenbezogenen Daten wächst immer weiter. Besonders im medizinischen und juristischen Bereich existieren große Mengen von personenbezogenen Daten. Um mit diesen Daten arbeiten zu können, muss der Datenschutz beachtet werden. Sobald allerdings der Personenbezug entfernt wird, sind große Teile des Datenschutzrechts nicht mehr anwendbar. Daher ist es von enormer Bedeutung, Informationen datenschutzkonform anonymisieren zu können. Dazu muss man bestimmte Informationen präzise finden sowie deren Rolle im jeweiligen Text verstehen.

Dabei müssen die aktuellen Entwicklungen im Datenschutzrecht beachtet werden: Nicht nur Daten mit offensichtlichem Personenbezug (Namen, Adressen, etc.) können datenschutzrechtlich erheblich sein, sondern auch solche Daten, die eine indirekte Identifikation ermöglichen.

Damit müssen nicht nur mechanisch Adressen und Namen erfasst werden, sondern für viele Konstellationen eine autonome Entscheidung getroffen werden. Erfolgt dieser Prozess händisch, ist das ein großer Kosten- und Zeitfaktor.

Skizze der Lösung

Die Lösung

Es bietet sich also an, für diese Entscheidungen ein modernes KI-System zu trainieren. Konventionelle Big Data-Analyse mittels künstlicher Intelligenz ist jedoch meist nicht datenschutzkonform, da es viele indirekte und schwache schützenswerte Hinweise in Texten gibt, die dann u.U. auch im trainierten Modell enthalten wären.

Technologie

Hier setzt unsere Lösung HILANO an: Sie unterstützt die manuelle Anonymisierung personenbezogener Daten in Text- und OCR-Bilddokumenten, indem sie mittels eines selbstlernenden Systems Anonymisierungsvorschläge unterbreitet. Der/die Sachbearbeiter/in kontrolliert die Vorschläge und nimmt ggf. Korrekturen vor. Dabei trainiert sie das Modell weiter (Human-in-the-Loop). Beim Training der Anonymisierungsmodelle werden die Originaltexte der Trainingsdokumente jedoch an keiner Stelle sichtbar gemacht. Somit ist der Datenschutz auch im zentralen Modell gewährleistet.

Dabei werden neue Technologien aus dem Bereich Natural Language Processing eingesetzt und ein sogenanntes Federated Learning-Modell verfolgt: Das Training des Modells erfolgt datenschutzwahrend dezentral.

Über uns

Bucerius Law School

Die Bucerius Law School ist die erste private Hochschule für Rechtswissenschaft in Deutschland.

Als einer der beiden Partner aus der Wissenschaft sorgt die Bucerius Law School für die datenschutzrechtliche Komponente des Projekts. Die Betreuung des Projektes ist am Center for Legal Technology and Data Science angesiedelt.

CIB software GmbH

CIB ist seit 30 Jahren als etablierter Hersteller von Standardapplikationen rund um das Thema Document Lifecycle Management sowie als innovativer Partner im IT-Consulting bekannt. Die CIB bearbeitet im Projekt die Document Lifecycle-Anwendungen und den medizinischen Anwendungsbereich.

Glanos GmbH

Glanos ist eine Softwarefirma aus München, die Produkte im Bereich künstlicher Intelligenz für Natural Language Processing and Natural Language Understanding entwickelt.

Im Projekt übernimmt Glanos die Rolle des Sprechers für das Konsortium.

Universität Hamburg

Die Universität Hamburg ist die größte Forschungs- und Ausbildungseinrichtung Norddeutschlands und seit 2019 Exzellenzuniversität.

Das Projekt HILANO ist in der Arbeitsgruppe Language Technology bei Prof. Biemann angesiedelt.

Kontakt

Sie haben Fragen zu HILANO? Treten Sie in Kontakt mit uns:

E-Mail Sonstige Kontaktmöglichkeiten
HILANO 2021 · Impressum · Datenschutzerklärung · Haftungsausschluss