Jede gewachsene IT-Organisation hat sie — die Sammlung aus bash-Skripten, Python-Oneoffs und Cronjobs, die 'historisch so entstanden sind'. Niemand weiß, was sie genau tun. Alle haben Angst, sie abzuschalten. Wenn sie brechen, merkt man das erst im Incident.
In regulierten Branchen (Versicherung, Banking, Healthcare) ist dieser Zustand nicht nur hässlich, er ist ein Compliance-Problem. DORA und BaFin erwarten auditierbare, nachvollziehbare Automatisierung. Ein Cronjob auf einer vergessenen VM erfüllt keine dieser Anforderungen.
Was Event-Driven bedeutet
Statt 'alle 10 Minuten prüfen ob X passiert ist' definiert man Trigger: wenn X passiert, führe Y aus. Die Bestandteile:
- Argo Events — EventSources (Git-Pushes, SQS-Messages, S3-Uploads, Webhooks, Kafka-Messages, Kubernetes-Events)
- Sensors — verbinden EventSources mit Triggern. Enthalten Filterlogik und Parameter-Extraktion
- Argo Workflows — die eigentliche Ausführung als Kubernetes-native Workflow-Definitionen (CRDs, YAML, versioniert in Git)
- Trigger-Typen — alles von 'kubectl apply' bis HTTP-Call bis weiterer Workflow-Start
Was konkret ersetzt wird
Typische Legacy-Konstrukte, die wir in Event-Driven-Architekturen überführen:
- Cronjob, der jede Nacht Reports generiert → Kron-Trigger + Workflow mit klaren Schritten und Artefakten
- Shell-Skript auf VM, das auf Git-Push reagiert → GitHub-Webhook-EventSource + Workflow
- Python-Skript, das Messages aus einer Queue pollt → SQS-/Kafka-EventSource mit Backpressure-Handling
- Manueller 'Re-run this failed job' Prozess → Retry-Policies mit exponential Backoff im Workflow
Warum das für Regulierung relevant ist
Jede Argo-Workflow-Ausführung ist ein Kubernetes-Objekt: mit Timestamp, mit Input-Parametern, mit Logs pro Schritt, mit Artefakten. Für einen BaFin- oder DORA-Auditor heißt das: statt 'jemand muss im Log-File der alten VM suchen' → `kubectl get workflows` oder eine Abfrage im Argo-UI. Der Audit-Trail entsteht nicht nachträglich, er ist die Ausführung selbst.
“Cronjobs und Shell-Skripte sind die technische Schuld mit dem höchsten Zinssatz. Event-Driven-Automation ist die Umschuldung.”
Fallstricke
- Workflow-Versionierung ernst nehmen — sonst läuft Workflow v3 neben Workflow v5 ohne Klarheit
- EventSources als Git-verwaltete Manifests — nicht ad-hoc über die UI erstellt
- Resource-Limits für Workflows — sonst verbraucht ein fehlerhafter Loop das gesamte Cluster-Quota
- Alertmanager-Integration — Workflows die fehlschlagen müssen Menschen erreichen, nicht in einer UI versauern