Leksikon

Leksikon

SRE - Site Reliability Engineering

SRE er Googles tilgang til drift: brug software-tankegang til at holde systemer kørende. Forstå disciplinen bag pålidelige tjenester i stor skala.

Hvad er SRE?

Site Reliability Engineering (SRE) er en tilgang til drift, der opstod hos Google. Idéen er enkel: i stedet for at holde systemer kørende med manuelt arbejde, bruger man software-tankegangen — automatisering, måling og gentagelse — til at gøre driften pålidelig og skalerbar.

Det centrale: målbar pålidelighed

SRE handler om at gøre "pålidelighed" til noget, man kan måle og styre frem for et løst ideal. Man sætter konkrete mål for, hvor stabil en tjeneste skal være (SLO'er), og bruger et "fejlbudget" til at afgøre, hvornår man kan tillade sig at bygge nyt, og hvornår man skal fokusere på stabilitet. Det fjerner diskussionen og erstatter den med tal.

Hvad det betyder i praksis

Du behøver ikke et SRE-team for at få glæde af tankegangen. Kernen — automatisér det manuelle, mål det vigtige, og lær af det, der går galt — er relevant for enhver løsning, der skal være til at stole på. Det er forskellen på at slukke brande hele tiden og på at bygge noget, der bliver ved med at køre.

Næste skridt

Fra begreb til løsning

Skal et af begreberne her omsættes til noget der rent faktisk virker i din virksomhed, så tag en uforpligtende snak med os.