Künstliche Intelligenz und maschinelles Lernen in der öffentlichen Verwaltung - Für Einsteiger:innen und Fortgeschrittene
Über den Begriff Künstliche Intelligenz sind Sie seit der Veröffentlichung von ChatGPT bestimmt schon häufiger gestolpert. In unserer Serie bieten wir für Einsteiger:innen und Fortgeschrittene einen Einblick in KI, dessen Teilbereich maschinelles Lernen und wie diese Systeme beim Datenmanagement unterstützen können.
Wir bei Polyteia wissen um die Komplexität des Themas Daten und wie herausfordernd der Einstieg in die Datenwelt sowie der stetige Ausbau der eigenen Datenkompetenz sein kann. Mit unserer neuen Serie bieten wir deshalb zu unterschiedlichen Themenbereichen zwei Perspektiven: Für Einsteiger:innen und für Fortgeschrittene. Für Einsteiger:innen soll der Zugang in die Welt der Daten praxisorientiert möglich werden. Fortgeschrittene Datenanalyst:innen erhalten die Möglichkeit zum Wissensausbau. Damit soll besonders die Datenkompetenz im öffentlichen Sektor gestärkt und ausgebaut werden.
Künstliche Intelligenz (KI) und maschinelles Lernen können die Arbeit mit Daten vereinfachen. Sie kann Muster in Daten erkennen und Vorhersagen oder Entscheidungen treffen. Im ersten Abschnitt wird für Einsteiger:innen Künstliche Intelligenz erklärt und wie diese bei der Datenverarbeitung unterstützen kann. Wer bereits Kenntnisse über KI hat, kann direkt zum zweiten Abschnitt springen und erhält dort einen detaillierteren Einblick in einen Teilbereich der Künstlichen Intelligenz - das maschinelle Lernen.
Für Einsteiger:innen: Datenmanagement mithilfe von Künstlicher Intelligenz
Über den Begriff Künstliche Intelligenz (Artificial Intelligence (AI)) sind Sie vor allem seit dem Launch von ChatGPT in den letzten Jahren bestimmt schon häufiger gestolpert. KI ermöglicht es, dass Maschinen und Systeme Aufgaben eigenständig ausführen, die normalerweise von einem Menschen getätigt werden. Diese Aufgaben umfassen unter anderem das Verstehen von Sprache, das Erkennen von Mustern, das Treffen von Entscheidungen oder auch das Lösen von Problemen. KI kann im Arbeitsumfeld besonders bei zeitaufwendigen und immer wiederkehrenden Tätigkeiten unterstützen. Auch im Bereich Datenmanagement kann die Künstliche Intelligenz hilfreich sein. So kann die KI Datensätze automatisch durchsuchen und analysieren, um semantische Beziehungen zwischen den Daten herzustellen oder Trends und Muster erkennbar zu machen. Die Datenqualität kann durch die KI erhöht werden, da Fehler oder Inkonsistenz korrigiert oder erkennbar gemacht werden. Die KI ergänzt fehlende Werte oder entfernt Duplikate in großen Datensätzen und beschleunigt so die Datenanalyse.
Allerdings sollte die Verwendung von KI auch kritisch betrachtet werden, da die Künstliche Intelligenz am Ende nur so gut, wie die Datenqualität ist. KI-Systeme wie ChatGPT ziehen unter anderem ihre Informationen aus Texten aus dem Internet wie Artikel, soziale Medien, Bücher oder auch Wikipedia. Da solche Inhalte oftmals keiner Prüfung unterliegen, kann auch die Künstliche Intelligenz mit falschen Informationen gefüttert werden und somit Fehlinformationen verbreitet. Beim Phänomen des “Halluzinierens” generiert ein KI-System plausible, aber falsche oder irreführende Informationen. Dies kann besonders problematisch in Bereichen wie Nachrichten und Bildung sein. Es kann auch zu einer verzerrten oder einseitigen Sicht der Welt kommen, wenn die KI mit fehlerhaften oder unvollständigen Daten trainiert wurde. Dadurch kann die Künstliche Intelligenz unter anderem rassistische oder frauenfeindliche Tendenzen aufweisen und eine Kontrolle durch den Menschen sollte daher unabdingbar sein.
Um die KI für explizite und individuelle Zwecke verwenden zu können, muss zuvor der Algorithmus von der Künstlichen Intelligenz mit Daten und Informationen gefüttert werden. Diese Daten müssen im Vorfeld in das System eingespeist werden. Im Anschluss benötigt die KI kein bis kaum menschliches Eingreifen. In der öffentlichen Verwaltung wird die KI bereits in den verschiedensten Bereichen genutzt, unter anderem als Chatbots und virtuelle Assistenten, die auf Webseiten von öffentlichen Behörden Bürger:innenanfragen beantworten und Informationen bereitstellen. Auch bei der Stadtplanung und -entwicklung kommt die KI zum Einsatz, um eine Vorhersage vom Bevölkerungswachstum, Verkehrsbelastung und Infrastrukturbedarf zu erhalten.
Obwohl die KI kein bis kaum menschliches Handeln benötigt, ist bei KI-basierten Entscheidungen ein Mensch als Kontrolleur notwendig, um gegebenenfalls eingreifen zu können. Besonders bei sicherheitskritischen Entscheidungen ist eine menschliche Kontrolle und Überwachung während des Prozesses erforderlich. Die Europäische Union hat erst kürzlich beschlossen, dass KI-Systeme nur von Menschen überwacht werden dürfen und nicht von anderen Technologien. Künstliche Intelligenz arbeitet auch oft mit sensiblen Daten, die vor unbefugtem Zugriff, Manipulation und Diebstahl durch Sicherheitsmaßnahmen wie Verschlüsselung und Zugriffskontrolle geschützt werden müssen. Andere KI-Anwendungen sind dagegen vollkommen verboten, da diese gegen EU-Werte verstoßen. So darf keine Bewertung vom sozialen Verhalten der Bürger:innen (”Social Scoring”) oder Emotionserkennung am Arbeitsplatz stattfinden. Die Europäische Union will damit die Nutzung der KI transparenter, nachvollziehbarer, toleranter und umweltfreundlicher gestalten.
Für Fortgeschrittene: Maschinelles Lernen - ein Teilbereich der Künstlichen Intelligenz
Künstliche Intelligenz ist ein interdisziplinäres Forschungsfeld, das darauf abzielt, Maschinen oder Software zu entwickeln, die menschenähnliche Intelligenz aufweisen. Dies umfasst eine Vielzahl von Techniken und Anwendungen, die darauf abzielen, Aufgaben zu automatisieren, die traditionell eine menschliche Intelligenz erfordern. Hierbei muss zwischen schwacher KI und starker KI unterschieden werden. Die schwache KI ist darauf spezialisiert, spezifische Aufgaben auszuführen. Darunter fallen Sprachassistenten wie Siri oder Alexa, die Spracherkennung und -verarbeitung verwenden, oder auch Empfehlungssysteme, die auf der Analyse von Nutzer:innenverhalten basieren. Die starke KI dagegen bezieht sich auf Systeme, die ein breites Spektrum an intellektuellen Aufgaben auf dem Niveau eines menschlichen Wesens ausführen können oder sogar übersteigen. Diese Form der KI ist aktuell noch ein Ziel der Forschung.
Ein Teilbereich der KI ist das maschinelle Lernen (Machine Learning). Dieser befasst sich mit der Entwicklung und Anwendung von Algorithmen und Techniken, die es Computern ermöglichen, aus Daten zu lernen und Muster zu erkennen, um sich stets zu verbessern. Das maschinelle Lernen nutzt Daten, um Modelle zu erstellen, die Vorhersagen treffen oder Entscheidungen treffen können, anstatt im Vorfeld für eine explizite Aufgabe programmiert zu werden. Somit verbessern sich Anwendungen für maschinelles Lernen bei der Nutzung und werden umso präziser, je mehr Daten zur Verfügung stehen. Maschinelles Lernen umfasst verschiedenen Konzepte von Lernmodellen, die unterschiedliche algorithmische Techniken anwenden: Überwachtes, unüberwachtes, halbüberwachtes und bestärkendes Lernen. Zudem gibt es noch neuronale Netze und Deep Learning, die von der Struktur des menschlichen Gehirns inspiriert sind und eine Unterkategorie des maschinellen Lernens sind. Deep Learning verwendet tiefe neuronale Netze mit vielen Schichten, um komplexe Muster in großen Datenmengen zu erkennen. Darunter fallen Anwendungen der Bild- und Spracherkennung, Verarbeitung natürlicher Sprache und mehr.
Beim überwachten Lernen (Supervised Learning) wird ein Modell anhand eines beschrifteten Datensatzes trainiert, d. h. es besteht aus Input- und Output-Datenpaaren. Es zielt darauf ab, den Input auf den richtigen Output abzubilden. Dem System wird vorgeben, was die richtige Antwort ist und dafür werden große Datensätze benötigt, die nicht nur kostspielig, sondern auch aufwendig in der Erstellung sind. Das überwachte Lernen wird bei Klassifikationsaufgaben wie der Spam-Erkennung von E-Mails oder Regressionsaufgaben wie die Vorhersage von Immobilienpreise verwendet. Das unüberwachte Lernen (Unsupervised Learning) wird mit den unbeschrifteten Input-Daten trainiert, ohne einen Antwortschlüssel zu besitzen. Es versucht eine Erkenntnis durch das Erkennen von Muster und Korrelationen zu erhalten wie z. B. bei einer Clusterbildung im Bereich der Kund:innen-Segmentierung oder Dimensionsreduktion bei Hauptkomponentenanalyse. Dagegen ist das halbüberwachte Lernen (Semi-Supervised Learning) eine Mischung aus überwachten und unüberwachten Lernen. Das Modell wird mit kleinen Mengen beschrifteter Daten und einer großen Menge unbeschrifteter Daten trainiert. Die kleine Menge an beschrifteten Daten dienen als Starthilfe für das System und können die Lerngeschwindigkeit und Genauigkeit verbessern. Das vierte Lernmodell - bestärkendes Lernen (Reinforcement Learning) - lernt durch Interaktionen mit seiner Umgebung. Die Maschine erhält keinen Antwortschlüssel, sondern hat nur eine Reihe von Aktionen, Regeln und möglichen Endzuständen als Vorlage. Während dem bestärkenden Lernen werden Belohnungen und Strafen basierend auf den Aktionen ausgeführt und anhand dieser lernt das System. Unter den Belohnungen und Strafen sind im Prinzip auch nur Zahlen zu verstehen. Ziel ist es, eine Strategie zu entwickeln, die die kumulative Belohnung maximiert. Das bestärkende Lernen wird häufig in Bereichen wie Robotik und Spielintelligenz verwendet.
Die aktuell wohl bekannteste KI-Anwendung, ChatGPT ist ein Large Language Model (LLM). Diese sind eine Art von generativer KI, die speziell für die Generierung textbasierter Inhalte entwickelt wurden. ChatGPT wurde in mehreren Phasen mit Informationen gefüttert. Das große Sprachmodell wurde mit überwachtem Lernen, aber mit Vorhersagen des nächsten Wortes, trainiert. Im Anschluss wurde das Generieren von Antworten durch ChatGPT mit dem bestärkenden Lernen optimiert. Aufgrund dessen stehen LLM in der Kritik als “stochastischen Papagei”, der nur vorhersagt, was das wahrscheinlichste nächste Wort ist.
“Not-so-fun-fact”: LLM wie ChatGPT können aufgrund ihrer Datenquelle voreingenommen sein und deshalb rassistische sowie frauenfeindliche Tendenzen aufweisen. Denn die Datenquellen für große Sprachmodelle sind vielfältig und umfassen eine breite Palette von Texten aus dem Internet wie Webseiten, Foren, Literatur und vieles mehr. Es handelt sich dann um eine Datenverzerrung, bei dem das Modell diese Vorurteile lernt und reproduziert. Besonders wenn bestimmte Gruppen unterrepräsentiert sind, kann es so zu einer Repräsentationsverzerrung kommen.
Die eigene Datenkompetenz weiter ausbauen
In unserer Serie haben wir bereits Einblicke in weitere Themen rund um Daten gegeben:
Wenn Sie Ihre Datenkompetenz weiter ausbauen möchten, laden wir Sie ein bei unserer kostenlosen Lernplattform Data Academy vorbeizuschauen. Sie unterstützt Verwaltungsmitarbeitende jedes Wissensstandes beim Auf- und Ausbau der eigenen Datenkompetenz. Die interaktiven Online-Kurse der Data Academy behandeln eine Vielzahl von Themen, darunter Datenvisualisierung, Datentransformation, Datenplattformen, Data Governance, Künstliche Intelligenz und vieles mehr. Über diesen Link können Sie sich einfach und schnell für die kostenlose Lernplattform Data Academy von Polyteia registrieren.