04---ClickHouse---Alerting

Dieses Dokument beschreibt die wichtigsten Alerts für einen stabilen ClickHouse-Betrieb. Es setzt voraus, dass die Architektur und Implementierung bereits bekannt sind (siehe “DuckDB - ClickHouse” und “Implementierung”).

🔥 Blocker (System down / data loss risk)

Alert	Beschreibung	Grund	Jira Priority
ClickHouse Server Down / Unreachable	TCP 9000/8123 nicht erreichbar	Nutzer können keine Queries ausführen	Blocker
Replication Lag > X seconds	Replika kann Writes nicht nachziehen	Dateninkonsistenz / potenzieller Verlust	Blocker
Detached Parts increasing	Segmente getrennt (Crash / Merge-Fehler)	Gefahr von Datenverlust	Blocker
Disk Usage > 95 %	Kein Platz für neue Parts/Merges	Write-Stall / Totalstopp	Blocker
HTTP 500/503 Rate > 1 % (8123)	API komplett fehlerhaft	Superset / Tools brechen	Blocker
Node OOM / Memory > 95 %	OOM-Kill, Queries brechen	Outage	Blocker

🚨 Critical (Cluster degraded, unstable)

Alert	Beschreibung	Grund	Jira Priority
Disk Usage > 90 %	Merges blockieren bald	Gefahr in <1h P1	Critical
Merge Failures increasing	MergeTree kann Parts nicht mergen	Performance bricht ein	Critical
Read/Write Errors increasing	Storage oder Netzwerk instabil	I/O-Probleme führen zu 5xx	Critical
Backup Job Failed	Nacht- oder automatisches Backup kaputt	Recovery-Risiko	Critical
Active Queries > Threshold	Queue zu groß	Rückstau, Load balancer timeouts	Critical
Cluster Node Restart Detected	Node rebooted / crashed	Merges & replication unstable	Critical

⚙️ Major (high saturation / early warning)

Alert	Beschreibung	Grund	Jira Priority
Disk Usage > 85 %	Frühwarnung	Kapazität planen	Major
Part Count > 5k per table	Merge backlog entsteht	Performance sinkt	Major
Merge Queue Length > Threshold	Merges stauen sich	Query slowdown	Major
Filesystem IO Wait > 20 %	Disk I/O zu langsam	Azure Disk throttling	Major
Query Duration p95 > SLO	Nutzer merken Latenz	OLAP sichtbar langsam	Major
Max Threads > 90 %	Worker saturiert	Compute bottleneck	Major

📦 Medium (monitor but not urgent)

Alert	Beschreibung	Grund	Jira Priority
Query Timeout Rate > 1 %	Queries werden abgebrochen	Nutzerfrust, aber nicht kritisch	Medium
Superset Connection Errors to ClickHouse	Verbindungsfehler	Upstream problem	Medium
Replicated table maintenance backlog	Hintergrundjobs verzögern sich	Hinweis auf cluster load	Medium
Schema differences across shards	Inkonsistente Deployments	Noch kein Ausfall	Medium

🧩 Minor (informational / capacity planning)

Alert	Beschreibung	Grund	Jira Priority
Low-level ClickHouse warnings in error log	leichte Exceptions	Audit only	Minor
Background mutations slower than usual	Performance-Hinweis	Kein Incident	Minor
Old parts accumulating (< threshold)	Kleiner Merge backlog	Hinweis	Minor
Lock wait times rising slowly	Resource imbalance	Frühindikator	Minor

🎯 TL;DR: Die 10 wichtigsten ClickHouse-Alerts (für Produktion)

ClickHouse Server Down (Blocker)
Replication Lag > Xs (Blocker)
Disk > 95 % (Blocker)
HTTP 500/503 Rate steigt (Blocker)
Memory > 95 % (Blocker)
Merge Failures (Critical)
Disk > 90 % (Critical)
Thread Saturation > 90 % (Major)
Merge Queue Length (Major)
Query p95 Latency (Major)