Gleichberechtigung in einer Data Driven World – Die Folgen der Gender Data Gap für den Einsatz intelligenter Algorithmen

Über Jahrhunderte wurden Frauen aus dem öffentlichen Leben ausgeschlossen. Die Deutung der Welt und damit ihre Gestaltung erfolgte lange Zeit aus der männlichen Perspektive. In diesem Denken waren der Mann, seine Eigenschaften und seine Bedürfnisse die unausgesprochene Selbstverständlichkeit, während Frauen die Abweichung darstellten – und als solche häufig vergessen wurden.

Auch wenn wir im Sinne der Gleichberechtigung schon vorangekommen sind, wirkt sich die fehlende Berücksichtigung von Frauen in der Vergangenheit bis heute aus. Sie hat nämlich zur Folge, dass Frauen und ihre spezifischen Bedürfnisse in den Daten, die die Menschheit gesammelt hat und die die Grundlage weitreichender Entscheidungen bilden, in großem Umfang fehlen. Es klafft eine geschlechterbezogene Lücke – eine Gender Data Gap.

In ihrem 2020 erschienenen Buch „Unsichtbare Frauen“ hat die britische Autorin Caroline Criado-Perez die Gender Data Gap sowie ihre Auswirkungen auf weitgehend jeden Lebensbereich umfassend und fundiert beleuchtet (absolute Leseempfehlung!).

Im Folgenden konzentriere ich mich auf einen kleinen Ausschnitt dieses Themenkomplexes: die Auswirkungen der Gender Data Gap auf den Einsatz intelligenter Algorithmen.

Wie Algorithmen lernen

Wir leben in der Zeit der intelligenten Algorithmen. Während die Automatisierung mechanischer Tätigkeiten wie die Produktion von Autos durch Industrieroboter usw. mittlerweile selbstverständlich geworden ist, werden nun auch zunehmend geistige Tätigkeiten an intelligente Algorithmen, sog. Künstliche Intelligenz (KI), abgegeben, die bisher von Menschen durchgeführt wurden.

KI-Algorithmen unterstützen heute Personalabteilungen bei der Auswahl geeigneter Job-Kandidat*innen, Ärzt*innen bei der Diagnose von Krankheiten, Unternehmen bei der Planung von Arbeitszeiten der Angestellten. Intelligente Algorithmen übersetzen mit erstaunlicher Genauigkeit Texte einer jeden Sprache in eine andere. Smarte Assistenten wie Siri und Alexa lassen sich einfach über Sprachbefehle steuern.

Die Grundlage für diese beeindruckenden Fähigkeiten der intelligenten Maschinen, ist ein Verfahren, das sich maschinelles Lernen nennt. Darunter werden Methoden zusammengefasst, die es KI-Systemen ermöglichen, sich durch zahlreiche Wiederholungen in ihrer Aufgabe selbständig zu verbessern.

Vereinfacht läuft der maschinelle Lernprozess folgendermaßen ab: Der Algorithmus wird mit Unmengen an Daten gefüttert. Das können Bilder, Textdokumente, Audioaufnahmen usw. sein. Gleichzeitig wird dem Algorithmus gesagt, was sich in den Daten befindet. Sieht der Algorithmus beispielsweise das Bild einer Katze, wird ihm gesagt: „Das ist eine Katze“. Mit der Zeit entwickelt der Algorithmus selbständig die Fähigkeit, neue Daten, die den Trainingsdaten ähneln, korrekt zu erkennen. Hat der Algorithmus beispielsweise viele Katzenbilder gesehen, ist er irgendwann in der Lage, auf einem ihm unbekannten Bild eine Katze zu identifizieren.

Dabei ist es wichtig zu verstehen, dass der Algorithmus diese Daten und das, was sie in der Realität bedeuten, nicht begreifen muss. Er sucht lediglich nach Mustern, die die Wahrscheinlichkeit maximieren, dass er mit seiner Entscheidung richtig liegt. Das bedeutet jedoch, dass die Entscheidungen, die ein KI-System trifft, maßgeblich von den Daten abhängen, mit denen das System trainiert wurde. Die Daten, die das System bekommt, definieren, wie es die Welt „sieht“ und welche Dinge es als „wahr“ ansieht.

Kommen in den Daten Frauen, ihre Lebensrealitäten und ihre spezifischen Bedürfnisse nicht vor, hat das zur Folge, dass die vermeintlich objektiven und geschlechtsneutralen Entscheidungen der intelligenten Maschine weder objektiv noch geschlechtsneutral sind – sondern im Gegenteil Männer systematisch bevorzugen.

In einer Welt, die immer mehr auf Daten basiert und die Entscheidungen an intelligente Algorithmen abgibt, hat die Gender Data Gap somit weitreichende negative Konsequenzen in zahlreichen Lebensbereichen.

Wie verzerrte Datensets glatzköpfige Männer zu Frauen machen

Intelligente Algorithmen sind schon heute recht gut darin, Texte, Bilder und gesprochene Sprache zu erkennen. Die Gender Data Gap hat jedoch zur Folge, dass sie dabei systematische Fehler begehen.

Algorithmen zur Texterkennung werden anhand etlicher Texte und Textformate trainiert – von Romanen über Zeitungsartikel bis zu juristischen Fachbüchern. Aus historischen Gründen sind Frauen jedoch in diesen Datensets unterrepräsentiert. Bedeutende Datensets wie das British National Corpus (BNC) sowie das Corpus of Contemporary American English (COCA) enthalten beispielsweise doppelt so viele Textinhalte in Bezug auf Männer wie auf Frauen.

Wo Frauen in den Texten vorkommen, sind sie zudem häufig mit historisch bedingten Geschlechterstereotypen durchzogen, die von den damit trainierten Algorithmen fortgeschrieben und gefestigt werden. So werden zum Beispiel weibliche Namen und Wörter stärker mit Familie als mit Karriere assoziiert. Bei Männern gilt das Gegenteil.

Wozu das führt, kann man bei bekannten Übersetzungsalgorithmen wie Google Translate oder Deepl selbst ausprobieren. Der Satz „The doctor and the nurse“ ist im Englischen geschlechtsneutral, wird im Deutschen jedoch mit „Der Arzt und die Krankenschwester“ übersetzt. Gleiches gilt für „The teacher and the kindergarden teacher“ – auf Deutsch „Der Lehrer und die Kindergärtnerin“. Und auch „The boss and the secretary“ wird zu „Der Chef und die Sekretärin“.

Werden solche Algorithmen für die Bewertung von Lebensläufen eingesetzt, ist zu erwarten, dass Frauen bei Jobs, die nicht dem traditionellen Geschlechterklischee entsprechen, systematisch von der KI benachteiligt werden.

Auch Datensätze, die für das Training von Bilderkennungsalgorithmen eingesetzt werden, beinhalten häufig mehr Bilder von Männern als von Frauen. Das gilt insbesondere für Szenerien, die traditionell männlich dominiert sind, womit Geschlechterstereotype weiter fortgeschrieben werden.

Und auch in Szenerien, die traditionell mit Frauen assoziiert werden, zeigt sich die Macht der Stereotype. Bilderkennungsalgorithmen, die mit Bildern trainiert wurden, in denen traditionelle Rollenklischees überrepräsentiert sind, interpretieren beispielsweise Personen in einer Küche häufiger als Frauen – auch wenn es sich dabei um einen glatzköpfigen Mann handelt.

Auch die Datensets, die für das Training von Spracherkennungssoftware eingesetzt werden, enthalten in vielen Fällen v.a. Aufnahmen männlicher Stimmen. Das hat zur Folge, dass Sprachassistenten wie Alexa oder Siri die Befehle männlicher, tiefer Stimmen häufiger erkennen als die Befehle weiblicher Stimmen. Werden Spracherkennungsalgorithmen zunehmend in kritischen Bereichen wie der Medizin, der Maschinensteuerung oder der Notfallkommunikation eingesetzt, ist das schlechtere Verständnis weiblicher Sprachbefehle ein zunehmendes Sicherheitsrisiko.

Die Beispiele zeigen, dass intelligente Algorithmen unsere Vorurteile und kulturellen Stereotype, die unsere Daten durchziehen, nicht reflektieren, sondern sie vielmehr weiterführen und im Ergebnis sogar verstärken. Die vermeintlich objektive Maschine diskriminiert, ohne es zu wissen.

Wie das generische Maskulinum Frauen zwingt, im Internet Männer zu sein

Auch Suchmaschinen im Internet entwickeln ihre Fähigkeiten durch maschinelles Lernen. Hier legt das generische Maskulinum Frauen Steine in den Weg.

Suchmaschinen wie Google zeigen die Webseiten ganz oben in den Suchergebnissen an, die sie für die jeweilige Suchanfrage am relevantesten halten. Ein Relevanz-Kriterium ist dabei, ob die eingegebenen Suchbegriffe mit bestimmten Wörtern auf der Website übereinstimmen.

Wenn wir im Internet nach einer Person suchen, die uns die Haare schneidet, die Website programmiert oder uns beim Workout anleitet, ist es uns häufig egal, ob es sich dabei um einen Mann oder eine Frau handelt. Aus Gewohnheit verwenden wir im Deutschen in solchen Fällen oft das generische Maskulinum und tippen „Friseur“, „Webdesigner“ oder „Fitnesstrainer“ in die Suchleiste.

Wenn wir uns hingegen auf unserer Website als Dienstleister*in präsentieren, spielt das Geschlecht dann doch eine Rolle. So bezeichnen sich Frauen verständlicherweise als Friseurin, Webdesignerin oder Fitnesstrainerin.

Für die Google-Suchmaschine reduziert dieser Unterschied zwischen Suchanfrage und Website-Inhalt die Relevanz der Website, wodurch sie mit geringerer Wahrscheinlichkeit in den oberen Suchergebnissen angezeigt wird.

Um diesem Problem zu begegnen, sind Frauen dazu übergegangen, auf ihren Webseiten die männliche Bezeichnung für ihren Beruf zu wählen, oder Google zu überlisten, indem zwischen der männlichen Berufsbezeichnung und der weiblichen Endung „-in“ ein Bindestrich gelassen wird – aus der Texterin wird eine Texter-in.

Maschinelle Diskriminierung bei der Jobsuche

Ein großer Vorteil intelligenter Algorithmen ist die Tatsache, dass sie Unmengen an Daten verarbeiten, miteinander verknüpfen und analysieren können. Besonders ist dabei, dass sie die Bedeutung der Daten nicht verstehen müssen, um aus ihnen praktikable Schlüsse zu ziehen. Das kann jedoch unvorhergesehene Folgen haben.

Ein Bereich, in dem KI-Systeme Entscheidungen durch die Verknüpfung unterschiedlichster Daten treffen, ist das Recruiting. Die Online-Plattform Gild beispielsweise hilft Unternehmen der Tech-Branche dabei, geeignete Programmierer*innen zu finden. Gild wirbt damit, dass sie bei der Suche nicht nur die Lebensläufe der Bewerber*innen in die Entscheidung miteinbezieht, sondern auch deren „soziale Daten“, also Spuren, die die Kandidat*innen online hinterlassen.

Unter diese sozialen Daten fallen zum einen für den Job grundsätzlich relevante Informationen wie z.B. die Zeit, die die Bewerber*innen auf Entwicklerplattformen wie GitHub oder Stack Overflow verbringen und wie viel Code sie entwickeln und teilen. Zum anderen bezieht die KI aber auch andere Muster in ihre Bewertung mit ein, die bei genauerem Hinsehen mehr über die Programmierer-Kultur aussagen als über die Fähigkeiten der Kandidat*innen – und die Frauen im Ergebnis benachteiligen.

Dem Gild-Algorithmus zufolge zeichneten sich gute Programmierer*innen u.a. dadurch aus, dass sie viel Zeit auf einer japanischen Manga-Seite verbrachten. Vor dem Hintergrund, dass Frauen immer noch den größten Teil der unbezahlten Care-Arbeit erbringen und sie deshalb grundsätzlich weniger Zeit haben, sich im Internet über Mangas zu unterhalten, benachteiligt dieser Datenpunkt implizit Frauen. Ruft man sich zudem ins Bewusstsein, dass auf vielen Webseiten der Tech-Szene ein sexistischer Ton gepflegt wird, ist zusätzlich verständlich, warum sich Frauen dort seltener aufhalten.

Natürlich wollte Gild keinen Algorithmus schaffen, der Frauen diskriminiert (und hat den Fehler mittlerweile auch behoben). Ganz im Gegenteil sollte die Software menschliche Vorurteile aus der Bewertung ausklammern. Doch da KI-Algorithmen ihre Entscheidungen allein auf Grundlage von Korrelationen treffen, kann es passieren, dass auch Daten in die Bewertung mit eingehen, die mit den notwendigen Fähigkeiten für einen Job nichts zu tun haben, sondern lediglich eine historisch sexistische Gesellschaft widerspiegeln.

Wie die Gender Data Gap das Risiko von Fehldiagnose erhöht

Auch in der Medizin werden große Hoffnungen in die Verwendung von KI-Systemen gesetzt. Auf Grund ihrer Fähigkeit, Muster zu erkennen, sind solche Maschinen dem Menschen bei der Diagnose bestimmter Krankheiten überlegen – allerdings nur, wenn die Daten stimmen.

Die Wissenschaft hat mittlerweile in jedem Gewebe und Organsystem geschlechtsspezifische Unterschiede entdeckt, aber auch in Auftreten, Verlauf und Ausprägung der meisten Erkrankungen. Dennoch werden Ergebnisse vieler klinischer Studien gleichermaßen für Männer und Frauen gültig erklärt – selbst dann, wenn an den Studien überhaupt keine Probandinnen teilnahmen. Frühe Forschung zu kardiovaskulären Erkrankungen wurde beispielsweise v.a. an Männern durchgeführt. Bis heute sind Daten von Frauen in diesem Bereich unterrepräsentiert. Doch auch wenn Frauen bei der Datenerhebung einbezogen werden, werden die Daten häufig nicht nach Geschlechtern getrennt analysiert. Deshalb fehlen in der medizinischen Forschung vielfach frauenspezifische Daten.

Da sich die klinischen Symptome vieler Krankheiten bei Männern und Frauen unterscheiden, hat die Übertragung von Daten, die ausschließlich für Männer erhoben wurden, für Frauen direkte Auswirkungen auf die Diagnose und Behandlung. Ein bekanntes Beispiel ist der Herzinfarkt.

Während ein Herzinfarkt bei Männern v.a. an Schmerzen in der Brust und im linken Arm erkennbar ist, treten bei jungen Frauen eher Bauchschmerzen, Kurzatmigkeit, Übelkeit und Müdigkeit auf. Das Unwissen vieler Ärzte über diese Symptome und die fehlenden Daten darüber erhöhen das Risiko junger Frauen enorm, an einem unerkannten Herzinfarkt zu sterben.

Auch die Diagnose von Krankheiten über sog. Biomarker – also biologische Merkmale, die auf eine bestimmte Erkrankung hinweisen – basiert größtenteils auf Daten von Männern, weshalb entsprechende Krankheiten bei Frauen häufiger unentdeckt bleiben.

Werden nun medizinische Diagnosen an ein KI-System abgegeben, das anhand der vorliegenden Daten trainiert wurde, erschwert und verschlechtert die Gender Data Gap die Diagnose für Frauen eher, als sie zu verbessern. Der Umstand, dass unser medizinisches Wissen stark am männlichen Körper ausgerichtet ist, kann für Frauen schwere gesundheitliche Folgen haben – und sogar zum Tod führen.

Wenn KI-Entscheidung und Realität nicht übereinstimmen

Ein weiteres Problem beim Einsatz intelligenter Algorithmen entsteht, wenn die Lebensrealität von Frauen ignoriert wird.

Frauen erledigen weltweit den größten Teil der Kindererziehung. Unregelmäßige Arbeitszeiten sind aus diesem Grund für viele, insbesondere alleinerziehende Frauen, schwer mit der Kinderbetreuung zu vereinbaren.

Gerade in Jobs mit unregelmäßigen Arbeitszeiten wird zunehmend KI-gestützte Software zur Planung der Arbeitsstunden eingesetzt. Abhängig von Verkaufszahlen und anderen Daten bestimmt ein KI-System, wie viele Beschäftigte zu einem bestimmten Zeitpunkt gebraucht werden, oder ob es sich lohnt, Mitarbeiter nach Hause zu schicken.

Während der Einsatz solcher Algorithmen die Personalpolitik für Unternehmen effizienter macht, erschweren es die durch den Algorithmus erstellten, oft recht kurzfristigen Arbeitspläne Frauen, Beruf und Familie unter einen Hut zu bringen. Denn spontan eine Kinderbetreuung zu organisieren, ist schwer.

Das Problem liegt auch hier wieder in einer Datenlücke, die die Lebensrealität von Frauen außer Acht lässt. Der Algorithmus geht von Angestellten aus, die jederzeit alles stehen und liegen lassen können, um zu arbeiten. Für viele Frauen ist das nicht möglich.

Wie wir intelligente Algorithmen gendergerecht einsetzen

Intelligente Algorithmen haben keine Vorurteile. Doch wenn sie ihre Entscheidungen auf Grundlage von vorurteilsbehafteten Daten treffen, festigen sie Stereotype und historische Ungerechtigkeiten. Während die KI blind für das Geschlecht einer Person ist, sind es die Folgen ihrer Entscheidungen nicht.

Die Art, wie momentan intelligente Algorithmen eingesetzt werden, benachteiligt Frauen. Sie beeinflusst ihre Möglichkeiten, effektiv zu arbeiten und manchmal sogar, Arbeit zu bekommen. Und sie beeinträchtigt ihre Gesundheit und Sicherheit.

Der Grund dafür ist die Gender Data Gap – das Fehlen und Nicht-Berücksichtigen von Daten über die spezifischen Bedürfnisse und Lebensrealitäten von Frauen.

Die geschlechtsbezogene Datenlücke besteht zum einen, weil Daten von Frauen oft nicht erhoben wurden. Doch auch wenn Daten über Frauen grundsätzlich vorliegen, werden sie häufig nicht nach Geschlecht getrennt analysiert, sodass geschlechtsspezifische Informationen nicht erkennbar sind. Um die beschriebenen Probleme zu lösen, gilt es also im ersten Schritt, eine saubere Datenbasis zu schaffen.

Daran muss sich die Überlegung anschließen, welche Probleme durch den Einsatz von KI überhaupt gelöst werden sollen – und wie. Dafür ist es notwendig, die richtigen Fragen stellen. Das Geschlecht bestimmt mit, welche Fragen wir stellen und auch, welche Lösungen wir für ein bestimmtes Problem suchen. Deshalb ist es notwendig, die Repräsentation von Frauen in allen Lebensbereichen zu erhöhen. Denn Frauen vergessen nachweislich nicht so leicht, dass Frauen existieren und zum Teil andere Bedürfnisse haben als Männer.

Gerade am heutigen Weltfrauentag sollten wir uns daran erinnern, dass Gleichberechtigung nicht nur ein freundlicher und respektvoller Umgang im täglichen Leben bedeutet, sondern auch Repräsentation und Mitsprache, Anerkennung und Berücksichtigung spezifischer Bedürfnisse und die angemessene Zuteilung von Einfluss und Ressourcen. Und ganz grundlegend das Bewusstsein, dass der männliche Blick auf die Welt nicht der allgemeingültige ist.

Literatur

Criado-Perez, Caroline (2020). Unsichtbare Frauen: Wie eine von Daten beherrschte Welt die Hälfte der Bevölkerung ignoriert. München: btb Verlag

Gentsch, P. (2018). Künstliche Intelligenz für Sales, Marketing und Service: Mit AI und Bots zu einem Algorithmic Business. Wiesbaden: Springer

Ghahramani, Z. (2015). Probabilistic machine learning and artificial intelligence. Nature, 521(7553), 452-459

Grelck, Kathi (2019). Der Google-Algorithmus ist frauenfeindlich und die deutsche Sprache hat daran Schuld. t3n abrufbar unter https://t3n.de/news/google-algorithmus-deutsche-hat-1175032