StatusType

Verwaltung von Unfalldaten

Für die Speicherung und Visualisierung von Unfalldaten soll eine minimalistische, aber für die Nutzer komfortable Lösung konzipiert werden. Es sollte eine On-Premise-Lösung in Betracht gezogen werden, damit alle Nutzer die Lösung bequem und mit einem einheitlichen Datenstand nutzen können. Folgende Rahmenbedingungen werden für dieses Angebot vorausgesetzt:

  • die benötigten Server sind bereits vorhanden
  • Server bereits im Büro-LAN vorhanden
  • Server bereits mit Containerisierungsoption (Docker/Docker-Compose, Kubernetes) ausgestattet

Das Konzept beschreibt die Integration von Daten aus verschiedenen Quellen in eine zentrale Datenbank und die anschließende Datenvisualisierung.


1. Architektur und Komponenten

Datenquellen:

  • CSV-Dateien, API-Daten, Datenbanken (z.B. SQL, NoSQL), Cloud-Speicher
  • verschiedene Formate und Strukturen (halbstrukturiert, strukturiert, unstrukturiert)

rawdata-storage:

  • Zentrale Datenbank als Data Warehouse (z.B. OpenSearch/Elasticsearch, File-Storage)

Datenbereinigung:

  • zentrales Tool zur Datenbereinigung
  • Da die Daten aus sehr unterschiedlichen Quellen stammen, sollte die Bereinigung nach dem Import der Rohdaten erfolgen, um Flexibilität zu gewährleisten

Result-Store:

  • speichert Reinigungsergebnisse in einer zentralen Datenbank (z.B. OpenSearch/Elasticsearch)
  • unterstützt schnelle Abfragen und große Datenmengen

Visualisierungswerkzeug:

  • BI-Tools (z.B. OpenSearch-Dashboards/Kibana) für benutzerfreundliche Visualisierungen und interaktive Filteroptionen
  • Ermöglicht Drag-and-Drop-Dashboards, Datenfilterung und tiefgreifende Analysen

Identity- & Access-Management (IAM)

  • Zentrales Identity- & Access-Management für die Rechteverwaltung (z.B. Keycloak)
  • sollte mit dem iam-management des Kunden verbunden sein, um Single-Sign-On zu ermöglichen

2. Grobkonzept für den Workflow

  1. Datenextraktion:

    • Der Data Engineer extrahiert Daten aus den verschiedenen Quellen (APIs, Datenbanken, CSV-Dateien) entweder über eine direkte Verbindung oder ELT-Tools.
  2. Daten laden:

    • Im Falle von ELT: Die Rohdaten werden direkt in die Datenbank geladen.
  3. Transformation:

    • Der Data Scientist und der Data Engineer können arbeiten