Dieses Dokument beschreibt die wichtigsten Alerts für einen stabilen ClickHouse-Betrieb. Es setzt voraus, dass die Architektur und Implementierung bereits bekannt sind (siehe “DuckDB - ClickHouse” und “Implementierung”).
🔥 Blocker (System down / data loss risk)
Alert
Beschreibung
Grund
Jira Priority
ClickHouse Server Down / Unreachable
TCP 9000/8123 nicht erreichbar
Nutzer können keine Queries ausführen
Blocker
Replication Lag > X seconds
Replika kann Writes nicht nachziehen
Dateninkonsistenz / potenzieller Verlust
Blocker
Detached Parts increasing
Segmente getrennt (Crash / Merge-Fehler)
Gefahr von Datenverlust
Blocker
Disk Usage > 95 %
Kein Platz für neue Parts/Merges
Write-Stall / Totalstopp
Blocker
HTTP 500/503 Rate > 1 % (8123)
API komplett fehlerhaft
Superset / Tools brechen
Blocker
Node OOM / Memory > 95 %
OOM-Kill, Queries brechen
Outage
Blocker
🚨 Critical (Cluster degraded, unstable)
Alert
Beschreibung
Grund
Jira Priority
Disk Usage > 90 %
Merges blockieren bald
Gefahr in <1h P1
Critical
Merge Failures increasing
MergeTree kann Parts nicht mergen
Performance bricht ein
Critical
Read/Write Errors increasing
Storage oder Netzwerk instabil
I/O-Probleme führen zu 5xx
Critical
Backup Job Failed
Nacht- oder automatisches Backup kaputt
Recovery-Risiko
Critical
Active Queries > Threshold
Queue zu groß
Rückstau, Load balancer timeouts
Critical
Cluster Node Restart Detected
Node rebooted / crashed
Merges & replication unstable
Critical
⚙️ Major (high saturation / early warning)
Alert
Beschreibung
Grund
Jira Priority
Disk Usage > 85 %
Frühwarnung
Kapazität planen
Major
Part Count > 5k per table
Merge backlog entsteht
Performance sinkt
Major
Merge Queue Length > Threshold
Merges stauen sich
Query slowdown
Major
Filesystem IO Wait > 20 %
Disk I/O zu langsam
Azure Disk throttling
Major
Query Duration p95 > SLO
Nutzer merken Latenz
OLAP sichtbar langsam
Major
Max Threads > 90 %
Worker saturiert
Compute bottleneck
Major
📦 Medium (monitor but not urgent)
Alert
Beschreibung
Grund
Jira Priority
Query Timeout Rate > 1 %
Queries werden abgebrochen
Nutzerfrust, aber nicht kritisch
Medium
Superset Connection Errors to ClickHouse
Verbindungsfehler
Upstream problem
Medium
Replicated table maintenance backlog
Hintergrundjobs verzögern sich
Hinweis auf cluster load
Medium
Schema differences across shards
Inkonsistente Deployments
Noch kein Ausfall
Medium
🧩 Minor (informational / capacity planning)
Alert
Beschreibung
Grund
Jira Priority
Low-level ClickHouse warnings in error log
leichte Exceptions
Audit only
Minor
Background mutations slower than usual
Performance-Hinweis
Kein Incident
Minor
Old parts accumulating (< threshold)
Kleiner Merge backlog
Hinweis
Minor
Lock wait times rising slowly
Resource imbalance
Frühindikator
Minor
🎯 TL;DR: Die 10 wichtigsten ClickHouse-Alerts (für Produktion)