DATENSCHUTZ IN KI-SYSTEMEN

Datenschutzkonferenz äußert sich detailliert zu Entwicklung und Betrieb von künstlicher Intelligenz (KI)

Nachdem sich die Datenschutzkonferenz in der Hambacher Erklärung im April 2019 grundsätzlich zu den datenschutzrechtlichen Anforderungen beim Einsatz künstlicher Intelligenz (KI) geäußert hat, wurde in einem Positionspapier im November 2019 das Thema noch einmal deutlich konkretisiert. Es wurden insbesondere klare Empfehlungen hinsichtlich der technisch-organisatorischen Maßnahmen (TOM´s) gem. Artikel 32 DS-GVO ausgesprochen.

Die 3 Phasen der TOM´s beim Einsatz von KI

Im Positionspapier wird der Begriff der künstlichen Intelligenz mit allen Anwendungen maschinellen Lernens, auch denen die nur Komponenten von KI enthalten, zusammengefasst. Die TOM´s werden dabei in 3 Phasen unterteilt, die sich an den „Lebenszyklusphasen“ orientieren:

  • Design- und Veredelungsphase: Das KI System wird designend und die Rohdaten veredelt
  • Trainigsphase: Das KI System validiert die Trainingsdaten und trainiert sich damit (ggf. selbstständig)
  • Einsatzphase: Das KI System ist im konkreten Einsatz und nutzt die Outputdaten für ein weiteres „Training“ des Systems

Im Folgenden werden KI Systeme anhand ihrer Lernmodelle unterschieden. Grundsätzlich kann hier zwischen dem „überwachten Lernen“, dem „unüberwachten Lernen“ sowie dem „bestärkenden Lernen“ unterschieden werden. Diese Lernmodelle unterscheiden sich in Bezug auf Ziel und Zweck der Methodik. Allgemein gilt für den Einsatz von KI Systemen, dass alle weiteren Empfehlungen der DSK zu Vorgaben an IT-Systemen hinzuzuziehen sind.

überwachtes lernen

Ziel des überwachten Lernens ist es beispielsweise, dass mit Trainingsdaten so lange trainiert wird, bis das erwartete Ergebnis geliefert wird. Somit muss die sogenannte Grundwahrheit (ground truth) bekannt sein, sodass das System solange auf richtig oder falsch überprüft wird, bis das KI-System die vom Designer gewünschte Leistungsfähigkeit erreicht hat.

bestärkendes lernen

Das bestärkende Lernen als besondere Form des überwachten Lernens funktioniert ohne bestimmbares Endergebnis. Es muss jedoch ein Trend hin zum Erfolg bzw. zum Misserfolg erkennbar sein. Während der Trainingsphase werden die konkreten Ergebnisse dem KI System nicht zur Verfügung gestellt, das Ergebnis des Systems wird jedoch bewertet. Dem System wird gesagt, ob es sich in die richtige oder in die falsche Richtung „bewegt“.

unüberwachtes lernen

Das unüberwachte Lernen verfolgt einen anderen Ansatz. Im Zuge des Designs des KI Systems ist zunächst nicht bekannt, was das System erkennen soll. Das System ist jedoch darauf ausgelegt Muster zu erkennen und diese Daten zu kategorisieren oder in Cluster aufzuteilen. Wenn Daten sich beispielsweise mit Hilfe einer Faktoren- oder Clusteranalyse zu unterschiedlichen Clustern häufen lassen, stehen diese für bestimmte Dimensionen bzw. für bestimmte Inhalte, mit denen sich theoretisch gestützt ein Modell für treffsichere Prognosen bilden lässt. Diese Clusterbildung lässt in der Praxis Prognosen mit möglichst wenigen dafür relevanten Variablen durchführen. Es ist mit definierten Restfehlern aufgrund von Annahmen bzgl. der Fehlerverteilung zu rechnen. Durch weitergehende Trainings von KI Systemen werden diese aber auf den gewünschten Zweck hin optimiert.

Die Lebenszyklen eines KI Systems

Anhand der oben benannten „Lebenszyklen“ von KI Systemen werden im Folgenden die wichtigsten Aspekte analysiert und abschließend in einer Tabelle BBdie wichtigsten Anforderungen definiert. Im Positionspapier der DSK werden die Anforderungen genauer erläutert (S. 7 ff.).

Designphase

Art. 25 der DS-GVO, Privacy-by-Design, gilt es selbstredend auch bei der Entwicklung von KI Systemen heranzuziehen. Das Positionspapier wirft dazu folgende Fragen auf, die beim Einsatz von KI Systemen in personenbezogenen Verarbeitungstätigkeiten gestellt werden sollten:

  • Zu welchen Zwecken werden ein KI-System und dessen KI-Komponenten eingesetzt?
  • Welche KI-Modelle werden für die verwendeten KI-Komponenten genutzt?
  • Sind an der Entscheidungsfindung bzw. Prognose durch eine KI-Komponente Menschen beteiligt und wenn ja in welcher Form?
  • Welche Institutionen haben die Kontrolle über die Auswahl der KI-Modelle, der Implementation und der Trainingsmethoden?
  • Welche Zielgrößen sind für eine KI-Komponente festgelegt?
  • Wie wurde die KI-Komponente getestet, ob sie die zweckgemäßen Eigenschaften aufweist und wie wird der laufende Betrieb dieser Komponente im Hinblick auf die Einhaltung des Zwecks überwacht?
  • Wird die verwendete KI-Komponente mit getestet-gesicherten Eigenschaften „eingefroren“ genutzt oder wird die Komponente im laufenden Betrieb mit fortlaufend eintreffenden Nutzungs-Daten trainiert? Gibt es Teilbereiche, die „eingefroren“ genutzt werden?
  • Kann die KI-Komponente rein lokal durch den Anwender genutzt werden, oder sind Onlineverbindungen beispielsweise zum Verantwortlichen oder zum Hersteller der KI-Komponenten oder zu Dritten, die bspw. als Trainings-Provider agieren, notwendig?
  • Besteht eine (Online-)Verbindung des KI-Systems oder einzelner Komponenten bspw. zu einem Profiling-Unternehmen, zu Herstellern oder zu Sicherheitsbehörden?

Bild: Übersichtstabelle der technisch organisatorischen Maßnahmen in KI Systemen (PDF als Download verfügbar)

Trainingsphase

In der Trainingsphase gelten für die verwendeten Datensätze Vorgaben wie für die Rohdaten der Designphase. Die Vollständigkeit der Datensätze ist zu prüfen und Datensätze, die erst in dieser Phase hinzugenommen werden, müssen begründet werden sowie die evtl. hinzukommenden personenbezogenen Daten dokumentiert werden.

Grundsätzlich gilt in der Trainingsphase, dass das Training auf eigenen Servern stattfinden sollte – bei einer Risikoprognose, die ein hohes Risiko ergibt, ist dies sogar zwingend erforderlich. Es ist jedoch unter gewissen Umständen möglich, dieses Training auch auf Cloud-Server auszulagern, wenn die Übermittelung verschlüsselt stattfindet. Hierzu ist es wichtig die Möglichkeiten des Zugriffs zu ermitteln und entsprechend zu konfigurieren (Einschränkung bzw. Verhinderung des Zugriffsrechts des Cloud-Betreibers, Rechte und Rollenkonzepte für Nutzer).

Einsatzphase

In der Einsatzphase – dies gilt jedoch prinzipiell für alle Phasen – muss die Zweckbindung der Datensätze jederzeit sichergestellt bleiben. Auf S. 14 des Positionspapiers heißt es beispielsweise:

„KI-Systeme sind für Verkettung sehr gut geeignet. So ist es möglich, aus dem gewählten Input weitere Abbildungen zu lernen. Leicht nachvollziehbar sind solche Möglichkeiten bei einem System zum Vorschlagen von Musikstücken basierend auf den bisher gewählten Musikstücken. Es ist denkbar, auf Basis dieser Vorschläge ein System zu trainieren, welches auch Aussagen zur politischen Orientierung liefert.“

Im weiteren Verlauf dieser Textpassage wird deutlich, dass eine solche Verkettung von Informationen technisch nicht immer verhindert werden kann. Der Verantwortliche hat jedoch sicherzustellen, dass diese Daten nicht zweckfremd genutzt werden.

Um die Informationspflichten des Verantwortlichen in der Einsatzphase zu gewährleisten ist es genügend über den Einsatz eines KI Systems aufzuklären und den Betroffenen darüber zu informieren, wo weitere Informationen zu erhalten sind. Hierzu muss der Verantwortliche entsprechende Informationen wie eine nachvollziehbare Erläuterung aller Schritte der KI natürlich parat haben. Ebenfalls wird die Empfehlung ausgesprochen, Betroffenen die Möglichkeit einzuräumen, Fehlergebnisse zu melden und einen menschlichen Kontrolleur einzuschalten.

Der Grundsatz der Datenminimierung muss ebenfalls eingehalten werden. Sollte die KI für den Output irrelevante Daten verarbeiten bzw. zu viele und nicht relevante personenbezogene Daten ausgeben, müssen diese irrelevanten Datensätze aus der Verarbeitung entfernt werden.

Sämtliche durch die KI getroffenen Entscheidungen müssen dokumentiert werden. Bei Entscheidungen, die ein hohes Risiko für die Betroffenen beinhalten, muss es eine Freigabe der Entscheidung geben. Wenn dieses Risiko sich auf die körperliche Unversehrtheit des Betroffenen auswirkt, muss das KI Ergebnis durch ein alternatives System geprüft werden. Diese Risikofälle sind entsprechend zu dokumentieren.

Wichtige Links zu diesem Thema:

Unter folgenden Links ist das vollständige Positionspapier, sowie die bereits im April 2019 entstandene Hambacher Erklärung der DSK noch einmal abzurufen:

Wir weisen darauf hin, dass es sich hier um eine kurze Zusammenfassung des Positionspapiers handelt. Sollten Sie zu diesem Thema oder weitergehende Fragen im Bereich des Datenschutzes haben, stehen wir Ihnen gerne jederzeit zur Verfügung.

Wir betreuen Unternehmen, Vereine oder gemeinnützige Organisationen bei der Umsetzung des betrieblichen Datenschutzes in der Datenschutz-Grundverordnung (DS-GVO) und im Gesetz über den Kirchlichen Datenschutz (KDG). Hierzu entwickeln wir auf Ihr Unternehmen, ihren Verein oder ihre gemeinnützige Organisation abgestimmte Datenschutzkonzepte und unterstützen Sie aktiv bei der Umsetzung. Gerne beraten wir auch Sie bei der Umsetzung Ihres Projektes. Nehmen Sie gerne jederzeit Kontakt zu uns auf.

zurück zum Blog