StatusTypeRelevance

Status


Dieses Dokument beschreibt die wichtigsten Alerts für einen stabilen ClickHouse-Betrieb. Es setzt voraus, dass die Architektur und Implementierung bereits bekannt sind (siehe “DuckDB - ClickHouse” und “Implementierung”).


🔥 Blocker (System down / data loss risk)

AlertBeschreibungGrundJira Priority
ClickHouse Server Down / UnreachableTCP 9000/8123 nicht erreichbarNutzer können keine Queries ausführenBlocker
Replication Lag > X secondsReplika kann Writes nicht nachziehenDateninkonsistenz / potenzieller VerlustBlocker
Detached Parts increasingSegmente getrennt (Crash / Merge-Fehler)Gefahr von DatenverlustBlocker
Disk Usage > 95 %Kein Platz für neue Parts/MergesWrite-Stall / TotalstoppBlocker
HTTP 500/503 Rate > 1 % (8123)API komplett fehlerhaftSuperset / Tools brechenBlocker
Node OOM / Memory > 95 %OOM-Kill, Queries brechenOutageBlocker

🚨 Critical (Cluster degraded, unstable)

AlertBeschreibungGrundJira Priority
Disk Usage > 90 %Merges blockieren baldGefahr in <1h P1Critical
Merge Failures increasingMergeTree kann Parts nicht mergenPerformance bricht einCritical
Read/Write Errors increasingStorage oder Netzwerk instabilI/O-Probleme führen zu 5xxCritical
Backup Job FailedNacht- oder automatisches Backup kaputtRecovery-RisikoCritical
Active Queries > ThresholdQueue zu großRückstau, Load balancer timeoutsCritical
Cluster Node Restart DetectedNode rebooted / crashedMerges & replication unstableCritical

⚙️ Major (high saturation / early warning)

AlertBeschreibungGrundJira Priority
Disk Usage > 85 %FrühwarnungKapazität planenMajor
Part Count > 5k per tableMerge backlog entstehtPerformance sinktMajor
Merge Queue Length > ThresholdMerges stauen sichQuery slowdownMajor
Filesystem IO Wait > 20 %Disk I/O zu langsamAzure Disk throttlingMajor
Query Duration p95 > SLONutzer merken LatenzOLAP sichtbar langsamMajor
Max Threads > 90 %Worker saturiertCompute bottleneckMajor

📦 Medium (monitor but not urgent)

AlertBeschreibungGrundJira Priority
Query Timeout Rate > 1 %Queries werden abgebrochenNutzerfrust, aber nicht kritischMedium
Superset Connection Errors to ClickHouseVerbindungsfehlerUpstream problemMedium
Replicated table maintenance backlogHintergrundjobs verzögern sichHinweis auf cluster loadMedium
Schema differences across shardsInkonsistente DeploymentsNoch kein AusfallMedium

🧩 Minor (informational / capacity planning)

AlertBeschreibungGrundJira Priority
Low-level ClickHouse warnings in error logleichte ExceptionsAudit onlyMinor
Background mutations slower than usualPerformance-HinweisKein IncidentMinor
Old parts accumulating (< threshold)Kleiner Merge backlogHinweisMinor
Lock wait times rising slowlyResource imbalanceFrühindikatorMinor

🎯 TL;DR: Die 10 wichtigsten ClickHouse-Alerts (für Produktion)

  1. ClickHouse Server Down (Blocker)
  2. Replication Lag > Xs (Blocker)
  3. Disk > 95 % (Blocker)
  4. HTTP 500/503 Rate steigt (Blocker)
  5. Memory > 95 % (Blocker)
  6. Merge Failures (Critical)
  7. Disk > 90 % (Critical)
  8. Thread Saturation > 90 % (Major)
  9. Merge Queue Length (Major)
  10. Query p95 Latency (Major)