Datenschutz in KI-Systemen

Datenschutzkonferenz äußert sich detailliert zu Entwicklung und Betrieb von künstlicher Intelligenz (KI)

Im April 2019 äußerte sich die Datenschutzkonferenz in der Hambacher Erklärung grundsätzlich zu den datenschutzrechtlichen Anforderungen beim Einsatz künstlicher Intelligenz (KI). Nun konkretisierte sie im November 2019 das Thema nocheinmal deutlich in einem Positionspapier. Es wurden insbesondere klare Empfehlungen hinsichtlich der technisch-organisatorischen Maßnahmen (TOM´s) gem. Artikel 32 DS-GVO ausgesprochen.

Die 3 Phasen der TOM´s beim Einsatz von KI

Im Positionspapier wird der Begriff der künstlichen Intelligenz mit allen Anwendungen maschinellen Lernens, auch von denjenigen die nur Komponenten von KI enthalten, zusammengefasst. Die TOM´s werden dabei in 3 Phasen unterteilt, die sich an den „Lebenszyklusphasen“ orientieren:

  • Design- und Veredelungsphase: Das KI System wird designend und die Rohdaten veredelt.
  • Trainigsphase: Das KI System validiert die Trainingsdaten und trainiert sich damit (ggf. selbstständig).
  • Einsatzphase: Das KI System ist im konkreten Einsatz und nutzt die Outputdaten für ein weiteres „Training“ des Systems.

Im Folgenden werden KI Systeme anhand ihrer Lernmodelle unterschieden. Grundsätzlich kann hier zwischen dem „überwachten Lernen“, dem „unüberwachten Lernen“ sowie dem „bestärkenden Lernen“ unterschieden werden. Diese Lernmodelle unterscheiden sich in Bezug auf Ziel und Zweck der Methodik. Allgemein gilt für den Einsatz von KI Systemen, dass alle weiteren Empfehlungen der DSK zu Vorgaben an IT-Systemen hinzuzuziehen sind.

überwachtes lernen

Symbolbild für künstliche Intelligenz

Quelle: pixabay.com

Ziel des überwachten Lernens ist etwa ein so langes Training mit Trainingsdaten bis das erwartete Ergebnis geliefert wird. Der KI muss die sogenannte Grundwahrheit (ground truth) bekannt sein, sodass das System solange auf richtig oder falsch überprüft wird, bis das KI-System die vom Designer gewünschte Leistungsfähigkeit erreicht hat.

bestärkendes lernen

Das bestärkende Lernen als besondere Form des überwachten Lernens funktioniert ohne bestimmbares Endergebnis. Es muss jedoch ein Trend hin zum Erfolg bzw. zum Misserfolg erkennbar sein. Die konkreten Ergebnisse werden dem KI System während der Trainingsphase nicht zur Verfügung gestellt. Das Ergebnis des Systems wird jedoch bewertet. Der Verantwortliche sagt dem System, ob es sich in die richtige oder in die falsche Richtung „bewegt“.

unüberwachtes lernen

Das unüberwachte Lernen verfolgt einen anderen Ansatz. Im Zuge des Designs des KI Systems ist zunächst nicht bekannt, was das System erkennen soll. Das System ist jedoch darauf ausgelegt Muster zu erkennen und diese Daten zu kategorisieren oder in Cluster aufzuteilen. Wenn Daten sich beispielsweise mit Hilfe einer Faktoren- oder Clusteranalyse zu unterschiedlichen Clustern häufen lassen, stehen diese für bestimmte Dimensionen bzw. für bestimmte Inhalte, mit denen sich theoretisch gestützt ein Modell für treffsichere Prognosen bilden lässt. Diese Clusterbildung lässt in der Praxis Prognosen mit möglichst wenigen dafür relevanten Variablen durchführen. Es ist mit definierten Restfehlern aufgrund von Annahmen bzgl. der Fehlerverteilung zu rechnen. Durch weitergehende Trainings von KI Systemen werden diese aber auf den gewünschten Zweck hin optimiert.

Die Lebenszyklen eines KI Systems

Anhand der oben benannten „Lebenszyklen“ von KI Systemen werden wir im Folgenden die wichtigsten Aspekte analysieren und abschließend in einer Tabelle die wichtigsten Anforderungen definieren. Die DSK erläutert die Anforderungen im ihrem Positionspapier genauer (S. 7 ff).

Designphase

Den Art. 25 der DS-GVO, Privacy-by-Design gilt es selbstredend auch bei der Entwicklung von KI Systemen heranzuziehen. Die DSK wirft in ihrem Positionspapier dazu folgende Fragen auf, die Verantwortliche beim Einsatz von KI Systemen in personenbezogenen Verarbeitungstätigkeiten beachten sollten:

  • Zu welchen Zwecken werden ein KI-System und dessen KI-Komponenten eingesetzt?
  • Welche KI-Modelle werden für die verwendeten KI-Komponenten genutzt?
  • Sind an der Entscheidungsfindung bzw. Prognose durch eine KI-Komponente Menschen beteiligt und wenn ja, in welcher Form?
  • Welche Institutionen haben die Kontrolle über die Auswahl der KI-Modelle, der Implementierung und der Trainingsmethoden?
  • Welche Zielgrößen sind für eine KI-Komponente festgelegt?
  • Wie wurde die KI-Komponente getestet, ob sie die zweckgemäßen Eigenschaften aufweist und wie wird der laufende Betrieb dieser Komponente im Hinblick auf die Einhaltung des Zwecks überwacht?
  • Wird die verwendete KI-Komponente mit getestet-gesicherten Eigenschaften „eingefroren“ genutzt oder wird die Komponente im laufenden Betrieb mit fortlaufend eintreffenden Nutzungs-Daten trainiert? Gibt es Teilbereiche, die „eingefroren“ genutzt werden?
  • Kann die KI-Komponente rein lokal durch den Anwender genutzt werden, oder sind Onlineverbindungen beispielsweise zum Verantwortlichen oder zum Hersteller der KI-Komponenten oder zu Dritten, die bspw. als Trainings-Provider agieren, notwendig?
  • Besteht eine (Online-)Verbindung des KI-Systems oder einzelner Komponenten bspw. zu einem Profiling-Unternehmen, zu Herstellern oder zu Sicherheitsbehörden?

Bild: Übersichtstabelle der technisch organisatorischen Maßnahmen in KI Systemen (PDF als Download verfügbar)

Trainingsphase

In der Trainingsphase gelten für die verwendeten Datensätze Vorgaben, wie etwa für die Rohdaten der Designphase. Der Verantwortliche hat die Vollständigkeit der Datensätze zu prüfen. Weiterhin muss er Datensätze, die erst in dieser Phase hinzugenommen werden, begründen sowie die evtl. hinzukommenden personenbezogenen Daten dokumentieren.

Grundsätzlich gilt in der Trainingsphase, dass das Training auf eigenen Servern stattfinden sollte – bei einer Risikoprognose, die ein hohes Risiko ergibt, ist dies sogar zwingend erforderlich. Es ist jedoch unter gewissen Umständen möglich, dieses Training auch auf Cloud-Server auszulagern, wenn die Übermittelung verschlüsselt stattfindet. Hierzu ist es wichtig, die Möglichkeiten des Zugriffs zu ermitteln und entsprechend zu konfigurieren (Einschränkung bzw. Verhinderung des Zugriffsrechts des Cloud-Betreibers, Rechte und Rollenkonzepte für Nutzer).

Einsatzphase

In der Einsatzphase – dies gilt jedoch prinzipiell für alle Phasen – muss die Zweckbindung der Datensätze jederzeit sichergestellt sein. Auf S. 14 des Positionspapiers heißt es beispielsweise:

„KI-Systeme sind für Verkettung sehr gut geeignet. So ist es möglich, aus dem gewählten Input weitere Abbildungen zu lernen. Leicht nachvollziehbar sind solche Möglichkeiten bei einem System zum Vorschlagen von Musikstücken basierend auf den bisher gewählten Musikstücken. Es ist denkbar, auf Basis dieser Vorschläge ein System zu trainieren, welches auch Aussagen zur politischen Orientierung liefert.“

Im weiteren Verlauf dieser Textpassage wird deutlich, dass eine solche Verkettung von Informationen technisch nicht immer verhindert werden kann. Der Verantwortliche muss jedoch sicherstellen, dass die Nutzung dieser Daten zweckentfremdet nicht möglich ist.

Um die Informationspflichten des Verantwortlichen in der Einsatzphase zu gewährleisten, ist es von Bedeutung genügend über den Einsatz eines KI Systems aufzuklären und den Betroffenen darüber zu informieren, wo weitere Informationen zu erhalten sind. Hierzu muss der Verantwortliche entsprechende Informationen, wie eine nachvollziehbare Erläuterung aller Schritte der KI, natürlich parat haben. Ebenfalls wird die Empfehlung ausgesprochen, Betroffenen die Möglichkeit einzuräumen, Fehlergebnisse zu melden und einen menschlichen Kontrolleur einzuschalten.

Der Grundsatz der Datenminimierung muss ebenfalls eingehalten werden. Der Verantwortliche muss irrelevante Datensätze aus der Verarbeitung entfernen, falls die KI diese für den Output verarbeitet oder zu viele und nicht relevante personenbezogene Daten ausgibt.

Der Verantwortliche muss sämtliche durch die KI getroffenen Entscheidungen dokumentieren. Bei Entscheidungen, die ein hohes Risiko für die Betroffenen beinhalten, muss es eine Freigabe der Entscheidung geben. Wenn dieses Risiko sich auf die körperliche Unversehrtheit des Betroffenen auswirkt, der Verantwortliche das KI Ergebnis durch ein alternatives System prüfen. Diese Risikofälle sind entsprechend zu dokumentieren.

Wichtige Links zu diesem Thema:

Unter folgenden Links ist das vollständige Positionspapier sowie die bereits im April 2019 entstandene Hambacher Erklärung der DSK noch einmal abzurufen:

Wir weisen darauf hin, dass es sich hier um eine kurze Zusammenfassung des Positionspapiers handelt.

Kontaktieren Sie uns!

Sollten Sie zu diesem oder zu anderen Themen weitergehende Fragen im Bereich des Datenschutzes haben, stehen wir Ihnen gerne jederzeit zur Verfügung.

Wir betreuen Unternehmen, Vereine oder gemeinnützige Organisationen bei der Umsetzung des betrieblichen Datenschutzes in der Datenschutz-Grundverordnung (DS-GVO) und im Gesetz über den Kirchlichen Datenschutz (KDG). Hierzu entwickeln wir auf Ihr Unternehmen, Ihren Verein oder Ihre gemeinnützige Organisation abgestimmte Datenschutzkonzepte und unterstützen Sie aktiv bei der Umsetzung. Gerne beraten wir auch Sie bei der Umsetzung Ihres Projektes.

Nehmen Sie gerne jederzeit Kontakt zu uns auf.

zurück zum Blog