Die Arbeit mit Daten und Datenplattformen - Für Einsteiger:innen und Fortgeschrittene
Entdecken Sie, wie Computer und Datenplattformen die Arbeit mit Daten effektiver gestalten. Unsere Serie bietet Einsteiger:innen und Fortgeschrittenen spannende Einblicke - von der Datenerfassung bis zur endgültigen Visualisierung.
Wir bei Polyteia wissen um die Komplexität des Themas Daten und wie herausfordernd der Einstieg in die Datenwelt sowie der stetige Ausbau der eigenen Datenkompetenz sein kann. Mit unserer neuen Serie bieten wir deshalb zu unterschiedlichen Themenbereichen zwei Perspektiven: Für Einsteiger:innen und für Fortgeschrittene. Für Einsteiger:innen soll der Zugang in die Welt der Daten praxisorientiert möglich werden. Fortgeschrittene Datenanalyst:innen erhalten die Möglichkeit zum Wissensausbau. Damit soll besonders die Datenkompetenz im öffentlichen Sektor gestärkt und ausgebaut werden.
Im ersten Beitrag unserer neuen Serie wird ein Einblick in die verschiedenen Arten von Daten gegeben und wie diese als strukturierte Sammlung einen Datensatz innerhalb einer Datenbank entstehen lassen. Diese Ausgabe erklärt im ersten Abschnitt für Einsteiger:innen, wie die Verwendung von Computern die Arbeit mit Daten und den Arbeitsalltag effektiver machen. Für diesen Abschnitt benötigen Sie kein Vorwissen. Wer bereits Erfahrung mit Datenarbeit am Computer oder sogar Datenplattformen hat, kann direkt zum zweiten Abschnitt springen und erhält dort einen detaillierteren Einblick in die Nutzung von Datenplattformen und welche Prozesse Daten dort durchlaufen.
Für Einsteiger:innen: Datenerfassung mit Datenplattformen
Der öffentliche Sektor arbeitet tagtäglich mit einer großen Menge an Daten. Stellen Sie sich vor, Sie müssten eine Auflistung aller Bürger:innen innerhalb einer Gemeinde zusammenstellen. Dort werden unter anderem Name, Adresse, Geschlecht, Geburtstag und Todestag sowie Nationalität notiert. Ohne einen digitalen Prozess wäre dieses Vorhaben mit einem riesigen Arbeitsaufwand verbunden. Die digitale Sammlung von Daten verringert nicht nur den Papierverbrauch und die dazugehörige Lagerung in Akten und Schränken, sondern ermöglicht auch Änderungen schneller vorzunehmen und nach bestimmten Informationen zu suchen. In einer Excel-Tabelle können Sie sich zum Beispiel sehr einfach anhand der Filterfunktion alle weiblichen Personen in einer Gemeinde oder wie viele Umzüge es in Ihrer Stadt gab anzeigen lassen, ohne sich vorher stundenlang durch Akten zu kämpfen.
Aber auch eine Software wie Excel stößt bei großen Datenmengen oder automatischen Updates der Daten schnell an ihre Grenzen. Deshalb gibt es Datenplattformen. Sie sind speziell konzipierte Softwarelösungen oder Systeme, die die Speicherung, Verwaltung, Verarbeitung und Analyse großer Mengen an Daten ermöglichen. Sie erfassen Daten aus verschiedenen Quellen, wie Tabellen in Datenbanken, Textdokumenten oder auch Audiodateien und generieren hieraus Echtzeit-Analysen, Berichte und Visualisierungen. Die Daten durchlaufen in der Datenplattform hierfür mehrere Schritte. Zuerst müssen sie in der Datenplattform gesammelt und gespeichert werden. Das geschieht zum Beispiel durch einen direkten Anschluss an Datenbanken, das manuelle Hochladen von Tabellen oder Dateien und das Ausfüllen von Dateneingabemasken. Bevor die Datenplattform die Daten analysiert, müssen sie bereinigt und zusammengeführt werden. Dabei wird die Vollständigkeit der Daten und eine einheitliche Darstellung sichergestellt, während fehlerhafte Inhalte, wie ein zufällig auftauchendes Leerzeichen, entfernt werden. Nachdem die Speicherung, Verwaltung und Verarbeitung abgeschlossen ist, können Visualisierungen und die gewünschten Berichte erstellt werden. Die Datenplattform ist also eine Softwarelösung, das alle Schritte von der Datenerfassung über die Speicherung bis zur Analyse unterstützt.
Für Fortgeschrittene: Die Data Value Chain
Datenplattformen sind speziell entwickelte Softwarelösungen oder Systeme, die die Speicherung, Verwaltung, Verarbeitung und Analyse großer Datenmengen ermöglichen. Sie dienen als Werkzeug, um Echtzeit-Analysen, Berichte und Visualisierungen zu generieren. Ihre technologische Infrastruktur unterstützt den gesamten Lebenszyklus von Daten - von der Erfassung der Informationen bis zur Speicherung und Analyse.
Innerhalb einer Datenplattform gibt es verschiedenen Prozesse, um Rohdaten in Erkenntnisse zu verwandeln. Die sogenannte “Data Value Chain” (Datenwertschöpfungskette) umfasst die Sammlung, Speicherung, Transformation, Visualisierung und Anwendung der Erkenntnisse. Die Datenplattform sorgt für einen reibungslosen Ablauf und Zusammenarbeit der einzelnen Prozesse.
Datenplattformen ermöglichen die Integration verschiedener Datentypen und Formate aus externen und internen Quellen. Die Befüllung der Datenplattform erfolgt entweder automatisch durch Quellsysteme und Schnittstellen oder durch das klassische Ausfüllen von Formularen, oft Dateneingabemasken genannt. Die unstrukturierten Daten wie Textdokumente, Audiodateien oder Tabellen aus Datenbanken werden in der digitalen Infrastruktur, dem Data Warehouse, erfasst, gespeichert und dort für die Analyse vorbereitet. Das Data Warehouse ist speziell für die Organisation und Vorbereitung der Daten für die Analyse konzipiert. Mit dem ETL-Tool (Extract, Transform, Load) werden Daten aus verschiedenen Quellen extrahiert, transformiert und ins Data Warehouse geladen. Um die Daten effektiv für eine Analyse und Visualisierung nutzen zu können, müssen sie im Vorfeld bereinigt, gefiltert, zusammengeführt und aggregiert werden. Bei der Datenvorbereitung müssen unter anderem unzulässige Zeichen oder Datentypen geändert werden. Mit der Programmiersprache Structured Query Language (SQL) können dann komplexe Abfragen erstellt werden, um Daten aus verschiedenen Tabellen zu extrahieren, zu transformieren und zu analysieren. So lässt sich einfach das Alter jedes einzelnes Mitglied Ihrer Gemeinde mit einem einzigen Code berechnen. Die Online Analytical Processing-Technologie (OLAP) ermöglicht Analysen aus multidimensionalen Datenbanken. Es werden Daten auf verschiedene Weise aggregiert, gefiltert und visualisiert, um Trends und Mustern zu identifizieren.
Die Visualisierung von Daten hilft Ihnen dabei, Muster zu erkennen, die aufgrund der kognitiven Grenzen unseres Gehirns in langen Tabellen unentdeckt bleiben. Obwohl bereits zwischen unterschiedlichen Datentypen differenziert wird, müssen bei Visualisierungen noch die beiden Kategorien Dimensionen und Metriken beachtet werden. Metriken sind Anzahl, Menge, Prozentangaben oder Geldbeträge. Dimensionen beschreiben dagegen Werte. Das Alter einer Person wird deswegen der Kategorie Dimension zugeschrieben, auch wenn es sich hierbei um eine Zahl handelt. Die beiden Kategorien helfen Ihnen bei der Auswahl und dem Aufbau von Diagrammen. Daten können unter anderem als Grafiken wie Säulendiagramme, Histogramme und Streudiagramme oder in Datenplattformen als Dashboards dargestellt werden. Die X-Achse in einem Säulendiagramm für die aktuelle Bevölkerung in den Ortsteilen veranschaulicht dabei meistens die Dimension, während die Y-Achse die Metrik darstellt. Histogramme dagegen visualisieren grundsätzlich die Verteilung einer Dimension. So lassen sich aus Echtzeit-Analysen und Datenvisualisierungen sowohl Entscheidungen für akute Probleme treffen als auch Präventivmaßnahmen ableiten.
Die eigene Datenkompetenz weiter ausbauen
Wenn Sie Ihre Datenkompetenz weiter ausbauen möchten, laden wir Sie ein bei unserer kostenlosen Lernplattform Data Academy vorbeizuschauen. Sie unterstützt Verwaltungsmitarbeitende jedes Wissensstandes beim Auf- und Ausbau der eigenen Datenkompetenz. Die interaktiven Online-Kurse der Data Academy behandeln eine Vielzahl von Themen, darunter Datenvisualisierung, Datentransformation, Datenplattformen, Data Governance, Künstliche Intelligenz und vieles mehr. Über diesen Link können Sie sich einfach und schnell für die kostenlose Lernplattform Data Academy von Polyteia registrieren.