Bezárás

Atlassian incidenskezelési kézikönyv

Az incidensek és az incidensértékek meghatározása. A megfelelő eszközök és a csapaton belüli szerepkörök.

Incident Management home

Áttekintés

A műszaki szolgáltatásokat nyújtó csapatokkal szemben manapság elvárás, hogy a hét minden napján éjjel-nappal rendelkezésre álljanak.

Ha valamilyen probléma adódik – legyen szó leállásról vagy nem működő funkcióról –, a csapat tagjainak késlekedés nélkül kel reagálniuk, és haladéktalanul helyre kell állítaniuk a szolgáltatást. E folyamat neve incidenskezelés, amely folyamatos és összetett kihívást jelent a kisebb és nagyobb vállalatoknak egyaránt.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.


Mire szolgál ez az útmutató?

Ha olyan fejlesztői vagy üzemeltetési csapat tagja vagy, amely a hét minden napján éjjel-nappal rendelkezésre álló támogatást elváró ügyfelek internetszolgáltatását felügyeli, akkor ez a kézikönyv neked szól.


Mi az az incidens?

Az incidenst olyan eseményként határozzuk meg, amely a szolgáltatás folyamatosságának vagy a szolgáltatás minőségének rendkívüli beavatkozást igénylő mértékű megszakadását vagy csökkenését okozza. Előfordulhat, hogy az ITIL vagy az ITSM gyakorlatát követő csapatok esetleg inkább a jelentős esemény kifejezést használják.

Az incidens akkor tekinthető megoldottnak, amikor az érintett szolgáltatás ismét a szokásos módon működik. Ide csak a teljes funkcionalitás helyreállítására szolgáló feladatok tartoznak. 

Az incidens utólagos elemzésének elvégzésére az incidens után kerül sor: célja a kiváltó ok meghatározása, valamint olyan intézkedések hozzárendelése, amelyek segítenek az ok felszámolásában még az előtt, hogy az incidens ismét bekövetkezik.


Az incidensekkel kapcsolatos értékeink

Az incidens kezelésére szolgáló folyamat nem tudja felölelni valamennyi lehetséges helyzetet, ezért a csapatainkat általános iránymutatással látjuk el – értékek képében. Az Atlassian vállalati értékeihez hasonlóan az incidensértékek a következőkre szolgálnak:

  • Az emberek és a csapatok autonóm döntéshozatalának irányítása az incidensek és az utólagos értékelés során. 
  • Konzisztens kultúra megteremtése a csapatok körében azzal kapcsolatban, ahogyan az incidenseket azonosítjuk, kezeljük, továbbá ahogyan levonjuk az incidensek tanulságait.
  • Iránymutatás a csapatoknak ahhoz, hogy milyen attitűddel forduljanak az incidens azonosítása, megoldása és az incidensre való reagálás felé.
Állapot Eseményérték Kapcsolódó Atlassian-érték Indoklás
1. Észlelés Az Atlassian már az ügyfelek előtt tudja

Build with Heart and Balance

A kiegyensúlyozott szolgáltatásban a kellő arányban van jelen az ellenőrzés és a figyelmeztetés ahhoz, hogy még az ügyfeleink elől észlelni tudjuk az incidenseket. 

A leghatékonyabb ellenőrzés még az előtt figyelmeztet a problémákra, hogy incidensekké válnának.

2. Kezelés Eszkalálj, eszkalálj és eszkalálj 

Játsszatok csapatként

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

Nem mindig lesz minden kérdésre válasz – ne habozz eszkalálni.

3. Helyreállítás Ha valami gebasz van, igyekezz gyorsan megoldani. Ne !@#$ ki az Ügyféllel!

Ügyfeleinket nem érdekli, hogy miért nem működik a szolgáltatásuk, csak az, hogy a lehető leggyorsabban állítsuk vissza a szolgáltatást.

Soha ne habozz, ha az incidens gyors megoldása a tét – így minimalizálni tudjuk az ügyfeleinkre gyakorolt hatást. 

4. A tanulságok levonása Mindig hibáztatás nélkül Open Company, No Bullshit Az incidensek együtt járnak a szolgáltatásnyújtással. Azzal javítjuk a szolgáltatások színvonalát, hogy elszámoltatjuk a csapatokat, és nem pedig egyes személyeket hibáztatunk.
5. Fejlesztés Ugyanaz az incidens nem fordulhat elő kétszer Be the change you seek

Azonosítsd az alapvető okot, valamint azokat a változtatásokat,, amelyek majd megelőzik, hogy ismét előforduljon ugyanaz a fajta incidens.

Vállald, hogy bizonyos módosításokat meghatározott határidőre végzel el.


Eszközkövetelmények

Az itt ismertetett incidenskezelési folyamat több, kifejezetten Atlassian-specifikus eszközt használ, amelyek szükség szerint mással helyettesíthetők:

  • Incident tracking - every incident is tracked as a Jira issue, with a followup issue created to track the completion of postmortems (Atlassian uses a heavily customized version of Jira Software for this).
  • Csevegőszoba: a valós idejű szöveges kommunikációs csatorna alapvető fontosságú az incidens csapatként való diagnosztizálása és megoldása szempontjából.
  • Videócsevegés: számos incidens esetében a csapatszintű videócsevegő megoldás – például a Blue Jeans – segíthet a megközelítések megvitatásában és elfogadásában.
  • Figyelmeztető rendszer: olyan eszköz – például az OpsGenie –, amely az ügyeleti rotációt és az eszkalációt kezeli.
  • Documentation tool - we use Confluence for our incident state documents and sharing postmortem via blogs.
  • Állapotoldal: az állapotnak az Állapotoldalon keresztül a belsős érdekeltekkel és az ügyfelekkel való közlése segítséget nyújt ahhoz, hogy mindenkit bevonhass a folyamatba.

Az incidens nyomon követése

Every incident is tracked as a Jira issue, with a followup issue created to track the completion of postmortems. The process in this handbook references our heavily customized version of Jira Software.

Az incidensügyeket jellemzően az ügyfélszolgálati munkatárs hozza létre az ügyfél hibajegye nyomán, vagy pedig az a fejlesztő, aki felügyeleti rendszer figyelmeztetése nyomán figyel fel az incidensre. Azt szoktuk mindenkinek javasolni, hogy inkább hozzon létre ügyet, ha valamit problematikusnak talál – inkább mint hogy addig várjon, míg szélesebb körűvé válik a probléma.

A Jirában egyszerű munkafolyamat áll rendelkezésünkre az incidenseknek a megoldási szakaszig történő végigkövetésére, valamint az incidens kezelése során megtett valamennyi fontos intézkedés rögzítésére.


Az incidenskezelő

Each incident is driven by the incident manager (IM), who has overall responsibility for and authority for the incident. This person is indicated by the assignee on the incident issue. The incident manager is empowered to take any action necessary to resolve the incident, which includes paging anyone in the organization and keeping those involved in an incident focused on restoring service as quickly as possible. 

Az eseménykezelő szerepkört jelent, nem pedig a kifejezetten az eseményhez rendelt személyt. Ha az incidens során szerepköröket határozunk meg, annak az az előnye, hogy lehetővé teszi az emberek felcserélését. Amíg az adott személy tudja, hogyan teljesíthet egy bizonyos szerepkört, akkor bármilyen incidens esetében betöltheti azt.


Valamilyen ötleted vagy javaslatod van az útmutatóval kapcsolatban?

Nagyszerű! Lehetőséged van rá, hogy visszajelzést küldj az incident-handbook@atlassian.com címre, és elmondd, mit gondolsz.