Verwaltung von Unfalldaten
Für die Speicherung und Visualisierung von Unfalldaten soll eine minimalistische, aber für die Nutzer komfortable Lösung konzipiert werden. Es sollte eine On-Premise-Lösung in Betracht gezogen werden, damit alle Nutzer die Lösung bequem und mit einem einheitlichen Datenstand nutzen können. Folgende Rahmenbedingungen werden für dieses Angebot vorausgesetzt:
- die benötigten Server sind bereits vorhanden
- Server bereits im Büro-LAN vorhanden
- Server bereits mit Containerisierungsoption (Docker/Docker-Compose, Kubernetes) ausgestattet

Das Konzept beschreibt die Integration von Daten aus verschiedenen Quellen in eine zentrale Datenbank und die anschließende Datenvisualisierung.
1. Architektur und Komponenten
Datenquellen:
- CSV-Dateien, API-Daten, Datenbanken (z.B. SQL, NoSQL), Cloud-Speicher
- verschiedene Formate und Strukturen (halbstrukturiert, strukturiert, unstrukturiert)
rawdata-storage:
- Zentrale Datenbank als Data Warehouse (z.B. OpenSearch/Elasticsearch, File-Storage)
Datenbereinigung:
- zentrales Tool zur Datenbereinigung
- Da die Daten aus sehr unterschiedlichen Quellen stammen, sollte die Bereinigung nach dem Import der Rohdaten erfolgen, um Flexibilität zu gewährleisten
Result-Store:
- speichert Reinigungsergebnisse in einer zentralen Datenbank (z.B. OpenSearch/Elasticsearch)
- unterstützt schnelle Abfragen und große Datenmengen
Visualisierungswerkzeug:
- BI-Tools (z.B. OpenSearch-Dashboards/Kibana) für benutzerfreundliche Visualisierungen und interaktive Filteroptionen
- Ermöglicht Drag-and-Drop-Dashboards, Datenfilterung und tiefgreifende Analysen
Identity- & Access-Management (IAM)
- Zentrales Identity- & Access-Management für die Rechteverwaltung (z.B. Keycloak)
- sollte mit dem iam-management des Kunden verbunden sein, um Single-Sign-On zu ermöglichen
2. Grobkonzept für den Workflow
-
Datenextraktion:
- Der Data Engineer extrahiert Daten aus den verschiedenen Quellen (APIs, Datenbanken, CSV-Dateien) entweder über eine direkte Verbindung oder ELT-Tools.
-
Daten laden:
- Im Falle von ELT: Die Rohdaten werden direkt in die Datenbank geladen.
-
Transformation:
- Der Data Scientist und der Data Engineer können arbeiten