donderdag 18 juli 2019

Wat Jouw IT Omgeving Van Azure & Google’s SRE Kan Toepassen

De huidige betrouwbaarheid van azure

Is niet voldoende naar de zin van niemand minder dan Mark Russinovich, CTO Microsoft Azure. In deze blogposting geeft hij aan welke drie recente incidenten tot uitval bij Azure (en de gebruikers er van!)  hebben geleid. Op basis hiervan heeft Microsoft een aantal initiatieven ontplooit om ervoor te zorgen dat in de nabije toekomst Azure minder storingsgevoelig wordt.


google’s SRE helpt microsoft Azure betrouwbaarder te maken

Uiteraard bevat de blogposting van Mark de nodige marketinguitingen. Maar voor wie tussen de regels doorleest, ziet wel degelijk een Microsoft welke serieus en hard werkt om Azure robuuster - en daarmee betrouwbaarder - te maken. Echter, dezelfde blogposting bevat nog meer relevante informatie!

Wie in staat is om over de Microsoft/Azure schutting heen te kijken, ziet dat Microsoft ‘iets’ van Google leent. Dezelfde blogposting refereert  er zijdelings naar: De vierde alinea: ‘…working alongside our Site Reliability Engineering (SRE) team…’

SRE, Site Reliability Engineering is niet zomaar ‘iets’. Google - de bedenker ervan - gebruikt het namelijk om wereldwijd(!) al hen services operationeel te houden. Zo omschrijft Google SRE:

SRE is what you get when you treat operations as if it’s a software problem. Our mission is to protect, provide for, and progress the software and systems behind all of Google’s public services — Google Search, Ads, Gmail, Android, YouTube, and App Engine, to name just a few — with an ever-watchful eye on their availability, latency, performance, and capacity.

Uiteraard is SRE niet het enige middel dat Microsoft inzet om Azure betrouwbaarder te maken en te houden. Het is echter wel een cruciaal onderdeel hiervan.


wanneer ga jij sre inzetten?

Het interessante aan SRE is dat het niet alleen van toepassing is voor de hyperscale cloud providers.  Integendeel! Bedrijven met vooral hybride IT omgevingen kunnen SRE toepassen binnen hen eigen organisatie. Het gaat hierbij niet om schaalgrootte, maar meer over een bepaalde zienswijze, hoe er tegen IT in zijn totaliteit, wordt aangekeken. SRE doet dit  zeer praktisch & pragmatisch en is soms zeer verrassend!

Het goede nieuws hierbij is dat Google zijn SRE methodiek met de rest van de wereld deelt! Uiteraard wordt Google’s eigen SRE implementatie niet tot in het kleinste detail uit de doeken gedaan. Wel wordt er voldoende gedeeld over wat SRE nu is en hoe jij het in jouw eigen IT omgeving kunt inzetten.

Het delen ervan doet Google m.b.v. een tweetal boeken. Deze zijn zowel gratis (online) als betaald (pdf en/of boek) beschikbaar:

  1. Site Reliability Engineering
    In dit boek wordt uitgelegd wat SRE is en aangegeven (in grote lijnen) hoe Google het toepast.

  2. The Site Reliability Workbook
    Aan de hand van praktische voorbeelden wordt getoond hoe jezelf SRE kunt implementeren.

Kortom, er is geen excuus meer om niet te weten wat SRE nu eigenlijk is en wat de mogelijke voordelen ervan zijn voor jouw organisatie.

Wanneer ga jij SRE toepassen? Morgen?

Geen opmerkingen:

Een reactie posten