닫기

Atlassian 인시던트 핸드북

개요

오늘날 사용자는 기술 서비스 운영 팀이 연중무휴 서비스를 제공할 것을 기대하고 있습니다.

장애 또는 기능 오류 등의 문제가 발생하면 팀원은 즉각 이에 대응하고 서비스를 복원해야 합니다. 이 프로세스를 인시던트 관리라고 하는데, 이는 크든 작든 모든 회사에서 아직도 해결되지 않은 복잡한 과제로 자리잡았습니다.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

인시던트에 대응

인시던트를 감지했을 때의 대응 프로세스와 취해야 할 조치입니다.

인시던트 사후 검토

비난을 배제한 사후 검토를 수행하고, 근본 원인을 파악하고, 수정 작업을 계획하는 방법입니다.

인시던트 핸드북

이 가이드의 대상

개발팀 또는 운영팀 담당자이고 연중무휴로 제공되는 서비스를 필요로 하는 고객을 위한 인터넷 서비스를 관리하고 있는 분이라면 이 핸드북을 꼭 읽어보시기 바랍니다.

인시던트란 무엇인가요?

Atlassian에서는 인시던트를 서비스 중단 또는 서비스 품질 저하를 야기하기 때문에 즉각적인 대응이 필요한 이벤트로 정의하고 있습니다. ITIL 또는 ITSM 실무 방식을 따르는 팀에서는 이 대신 주요 인시던트 라는 용어를 사용할 수도 있습니다.

영향을 받은 서비스가 평상시와 같이 기능을 재개하면 인시던트가 해결된 것으로, 기능을 완전히 복원하는 데 필요한 작업만이 인시던트 해결 과정이 됩니다. 

이후 근본 원인을 찾고 인시던트가 반복되지 않도록 원인을 해결하는 데 필요한 작업을 지정하기 위해, 인시던트 사후 검토가 수행됩니다.

Atlassian 인시던트의 가치

인시던트 관리 프로세스에서 발생 가능한 모든 상황을 다룰 수는 없기 때문에, Atlassian에서는 팀에 일반적인 가이드를 가치의 형태로 제공합니다. Atlassian의 기업 가치와 마찬가지로, 인시던트 가치는 다음 목적에 따라 마련되었습니다.

  • 인시던트와 사후 검토에 있어 개인과 팀이 자율적으로 의사결정을 내릴 수 있도록 안내합니다. 

  • 여러 팀에서 인시던트를 식별 및 관리하고, 인시던트를 통해 배우는 방식에 대한 공통되고 일관된 문화를 구축합니다.

  • 인시던트 식별, 해결 및 반영의 각 부분에서 견지해야 할 태도에 있어 여러 팀이 공통된 접근 방식을 취하도록 합니다.

단계 인시던트 가치 관련 Atlassian 가치 원칙
1. 감지 Atlassian은 고객이 알기 전에 미리 파악한다

진심과 균형

균형 잡힌 서비스를 제공하기 위해서는 고객보다 먼저 인시던트를 탐지하기 위한 충분한 모니터링과 알림이 있어야 합니다. 

최상의 모니터링을 통해 문제가 인시던트로 발전하기 전에 감지할 수 있습니다.

2. 대응 에스컬레이션하고, 에스컬레이션하고, 또 에스컬레이션한다 

하나의 팀으로 플레이한다

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

우리는 늘 모든 문제에 대한 답을 갖고 있지 않기 때문에 '주저없이 에스컬레이션'해야 합니다.

3. 복구 문제가 발생하면 신속하고 완전하게 해결한다 고객에게 문제를 안기지 않는다

고객은 서비스가 중단된 원인에 대해 관심을 갖는 것이 아니라 우리가 최대한 빨리 서비스를 복구하는 것에만 관심이 있습니다.

주저하지 말고 신속하게 인시던트를 해결해야 고객에게 미치는 영향을 최소화할 수 있습니다. 

4. 학습 비난하지 않는다 투명하고 개방적인 기업 서비스를 운영하면 인시던트는 불가피하게 발생합니다. 우리는 팀을 비난하는 대신 팀에서 책임을 지게 함으로써 서비스를 개선합니다.
5. 개선 동일한 인시던트가 반복되어서는 절대 안 된다 스스로 변화의 중심이 된다

근본 원인을 밝히고 전체 인시던트 클래스가 다시 발생하지 않게 하는 변경 조치를 찾습니다.

특정 날짜에 구체적인 변경 조치를 수행할 수 있도록 최선을 다합니다.

 

도구 요구사항

여기에 설명된 인시던트 관리 프로세스에는 Atlassian만의 고유한 여러 도구가 사용되며 필요한 경우에는 이러한 도구를 대체할 수 있습니다.

  • 인시던트 추적 - 모든 인시던트는 Jira 이슈로 추적되며, 사후 검토 완료를 추적할 수 있도록 후속 이슈가 생성됩니다. Jira Ops를 릴리스하기 전까지, Atlassian에서는 고도로 커스터마이즈된 Jira Software 버전을 사용했습니다.

  • 채팅방 - 실시간 문자 통신 채널로, 하나의 팀으로서 문제를 진단하고 해결하기 위한 기본 도구입니다.

  • 영상 채팅 - 다수의 인시던트에서 Blue Jeans와 같은 팀 영상 채팅을 통해 참여 직원이 접근 방식에 대해 더 효율적으로 논의하고 합의에 도달할 수 있습니다.

  • 알림 시스템 - OpsGenie와 같은 도구를 사용하여 순환 대기 근무와 에스컬레이션을 관리합니다.

  • 문서 도구 - Atlassia에서는 인시던트 상태 문서를 관리하고 블로그를 통해 사후 검토를 공유하는 데 Confluence를 사용하고 있습니다.

  • Statuspage - Statuspage를 통해 내부 이해관계자와 고객에게 상태를 전달하고 모든 사람이 정보를 공유할 수 있게 합니다.

인시던트 추적

모든 인시던트는 Jira 이슈로 추적되며, 사후 검토 완료를 추적하기 위해 후속 이슈가 생성됩니다. 이 핸드북에 소개된 프로세스에서는 Jira Ops 개발의 기초가 된 고도로 커스터마이즈된 Jira Software 버전을 참조하고 있습니다. 따라서 현재 Jira Ops에서 제공하는 기능과 정확히 일치하지 않을 수 있습니다.

인시던트 이슈는 보통 고객 티켓에 대응하는 지원 엔지니어 또는 모니터링 알림을 인시던트로 인식한 개발자에 의해 생성됩니다. Atlassian은 우려사항이 있는 경우 에스컬레이션할 때까지 기다리지 않고 이슈를 생성할 것을 권장합니다.

Jira에는 해결 단계를 거치는 동안 인시던트를 추적하고, 인시던트 대응 중에 수행한 모든 중요한 조치를 기록하는 단순한 워크플로우가 있습니다.

인시던트 관리자

각 인시던트는 인시던트 관리자 (IM)가 관리합니다. 인시던트 관리자는 해당 인시던트와 관련된 모든 책임과 권한을 갖습니다. 이러한 인시던트 관리자는 인시던트 이슈 담당자가 지정합니다. 인시던트 관리자는 인시던트 해결에 필요한 조치를 수행할 권한이 있으며, 여기에는 조직 내 필요한 구성원을 호출하고, 인시던트에 관련된 인원이 최대한 빠르게 서비스를 복원하는 데 계속 집중하게 하는 것이 포함됩니다. 

인시던트와 관련하여 인시던트 관리자는 개인이라기보다는 하나의 역할입니다. 인시던트 해결 중에 개인의 역할을 정의하면 해당 개인이 다른 인시던트 처리에도 관여할 수 있다는 장점이 있습니다. 특정 개인이 특정 역할을 수행하는 방법을 알면 다른 인시던트에서도 해당 역할을 수행할 수 있습니다.

이 가이드에 대한 아이디어나 제안사항이 있나요?

좋습니다! incident-handbook@atlassian.com 으로 의견을 전달할 수 있습니다.

인시던트에 대응

인시던트를 감지했을 때의 대응 프로세스와 취해야 할 조치입니다.

인시던트 사후 검토

비난을 배제한 사후 검토를 수행하고, 근본 원인을 파악하고, 수정 작업을 계획하는 방법입니다.

인시던트 관리 프로세스 운영을 지원할 도구를 찾고 계신가요?