Preskočiť na obsah
$ invictus-solutions
EN SK
← Späť na všetky prípadové štúdie

Fintech startup

Návrat z Azure AKS na bare-metal RKE2 — o 73 % nižšie náklady, približne 2× vyšší výkon

Rýchlo rastúca Fintech firma platila približne 22 000 € mesačne za AKS a spravované databázy v Azure. Produkciu sme presunuli na HA bare-metal RKE2 platformu so samostatným vývojovým klastrom, dedikovanou databázovou vrstvou, off-site zálohami, observabilitou a CI on-prem. Mesačné náklady klesli na približne 6 000 € a porovnateľné aplikačné workloady bežali zhruba dvojnásobne rýchlejšie.

Trvanie
12 týždňov
Odvetvie
Fintech startup
Technológie
RKE2 Metallb Longhorn MariaDB Galera MariaDB MongoDB Velero Prometheus Grafana Loki GitLab CE ArgoCD Ansible

Problém

Rýchlo rastúca Fintech firma prevádzkovala produkciu na Azure AKS so spravovanou MariaDB a MongoDB a platila zhruba 22 000 € mesačne. Náklady rástli rýchlejšie než tržby, upgrade cykly AKS ich opakovane potrápili a výkon na pridelené vCPU bol na spravovaných uzloch viditeľne horší, než by mal byť na reálnom hardvéri. Rozpočet na hardvér mali, internú kapacitu na postavenie a prevádzku klastra nie.

Riešenie

Dvanásťtýždňová spolupráca: dimenzovanie HW, dva RKE2 klastre, samostatná DB vrstva, zálohy a podporná platforma.

Základ

  • Dimenzovanie HW podľa posledných dvanástich mesiacov vyťaženia klastra (CPU/RAM p95, IOPS, sieť); návrh troch rackov v lokálnom datacentre v kolokačnom režime
  • Postavený HA RKE2 control plane (tri control-plane nody s Corosync/Pacemaker) a worker pool dimenzovaný na aktuálnu záťaž plus 30 % rezerva
  • Paralelný vývojový HA RKE2 klaster na menšom HW, aby tím mohol nacvičovať upgrady a platformové zmeny voči reálnemu klastru, nie hračke typu kind/k3d
  • Longhorn pre perzistentné volumes v klastri; Velero so zálohou stavu klastra a PV snapshotov do off-site object storage

Databázová vrstva

  • Dedikovaný bare-metal DB klaster, oddelený od Kubernetes nodov — jednoduchšia prevádzka, menší blast radius
  • Tri databázové enginy na rovnakej sade serverov: MariaDB Galera (multi-master pre OLTP), MariaDB primary/replica (pre reporting, kde je replication lag akceptovateľný), MongoDB replica set (pre document store)
  • Zálohy na úrovni databáz (logické dumpy plus binlog/oplog), posielané každú noc off-site — nezávisle od Velero záloh na úrovni klastra

Podporná platforma

  • Vlastný GitLab CE pre zdrojový kód a CI; runnery na dedikovaných uzloch mimo prod klastra, aby CI špička nikdy nezaťažila produkciu
  • Observabilita v klastri: Prometheus, Grafana, Loki — SLO alerting, runbooky priamo z každého alertu
  • ArgoCD pre GitOps: každá zmena klastra, platformy aj workloadu ide cez git review

Migrácia

  • Po službách: replikácia stavu na novú DB vrstvu, spustenie workloadu na RKE2 v shadow mode za existujúcim Azure ingressom, prepnutie prevádzky cez DNS, AKS inštancia bežala ešte dva týždne ako fallback
  • Migrácia išla podľa závislostí, okrajové služby ako prvé
  • Azure subscription bola zrušená až po dvoch čistých fakturačných obdobiach na novej platforme

Výsledok

  • Mesačné náklady 22 000 → 6 000 €, držiace sa počas prvých troch fakturačných období
  • ~2× vyšší výkon workloadov pri rovnakom počte vCPU oproti predošlému AKS a spravovaným databázam — väčšina rozdielu pochádza z odstránenia virtualizačného overheadu a noisy-neighbour efektu na spravovaných uzloch
  • HA prod klaster, HA dev klaster, dedikovaná DB vrstva s off-site zálohami, on-prem GitLab a kompletná observabilita — všetko na jednom Linux baseline spravovanom cez Ansible
  • Tím prevádzkuje oba klastre bezo mňa už štyri mesiace od odovzdania

Čoho som sa zámerne nedotkol

Nesťahoval som mail, firemný identity provider ani nič, čo má reálnu hodnotu ako spravovaná služba. Pointa návratu z cloudu je nechať si pod vlastnou správou to, čo viete dobre prevádzkovať, a za zvyšok zaplatiť — nie zbierať body za odstránenie každej položky z cloudovej faktúry.