문제가 발생하는 경우를 위한 애자일: 인시던트 대응 계획에서 빠진 퍼즐 한 조각

애자일 매니페스토의 가치를 도입하면 인시던트 대응을 완벽하게 해내고 사용자의 신뢰를 쌓을 수 있습니다. 

 

Shannon Winter 작성자: Shannon Winter
주제 찾아보기

애자일 방법론은 기존의 소프트웨어 개발 영역을 벗어나 모든 비즈니스 부문에서 점점 더 많이 사용되고 있으며 심지어는 마케팅에서도 사용되고 있습니다. 그렇다면 인시던트 관리의 세상에서 애자일은 어떤 모습일까요? Atlassian은 애자일을 프로젝트 관리 및 제품 개발에 대한 체계적이고 반복적인 접근 방식이라고 정의합니다. 애자일은 팀이 선로에서 벗어나지 않고도 변화에 대응할 수 있는 능력을 제공합니다.

프로덕션의 버그, 인시던트 및 가동 중지 시간은 상황이 "선로에서 벗어나는" 경우로 확실히 분류될 수 있기 때문에, Atlassian은 팀을 선로 위에 유지하는 데 도움이 되도록 만들어진 애자일과 같은 방법론이 인시던트 관리, 특히 인시던트 커뮤니케이션에 자연스럽게 자리잡을 것이라고 생각했습니다.

인시던트 대응에 애자일 가치 적용

팀이 인시던트를 감지하고, 알리고, 협력 및 해결하는 데 도움이 되는 도구는 충분히 많지만, 도구만으로는 이해 관계자와의 명확한 커뮤니케이션을 대신할 수 없습니다. 그리고 현실적으로 보면 위험이 높을 수 있습니다. 몇 가지 예를 들자면 평판, 고객 이탈, 피해 관리에 소요되는 시간 등이 있습니다. 애자일 방법론을 사용하면 이러한 위험을 최소로 유지할 수 있습니다.

대부분 애자일 매니페스토의 4가지 핵심 가치에 대해 이미 잘 알고 계실 것입니다. 4가지 핵심 가치는 1) 프로세스와 도구보다 개인 및 상호 작용, 2) 종합적인 설명서보다 작동하는 소프트웨어, 3) 계약 협상보다 고객과의 협업, 4) 계획을 따르기보다 변화에 대응하기입니다. 각 핵심 가치에 대해 조금 더 자세히 알아보고 더 애자일한 인시던트 커뮤니케이션을 위해 이러한 가치를 어떻게 활용할 수 있는지 살펴보겠습니다.

인시던트 커뮤니케이션 원칙: 인간 중심의 인시던트 커뮤니케이션

이 원칙은 프로세스와 도구보다 개인 및 상호 작용이라는 애자일 가치를 바탕으로 합니다. 프로세스와 도구는 모든 인시던트 관리 프로세스에서 중요하지만, 이를 실제로 사용하려는 사용자와 그 주위에 형성된 문화와 별개로 본다면 아무 의미도 없습니다. 사용자, 프로세스 및 도구 사이의 격차를 메워주는 것은 무엇일까요? 당연히 커뮤니케이션입니다.

프로덕션의 작은 버그이든 완전한 시스템 장애이든, 이슈가 발생할 때 커뮤니케이션은 매우 중요합니다. 아주 완벽한 인시던트 계획을 갖추고 있더라도 해결에 도달하고 신뢰를 유지하려면 자주 커뮤니케이션을 해야 합니다.

인시던트가 발생하는 동안 영향을 받는 사용자는 불만스러운 오류, 또는 심한 경우 아무것도 작동하지 않는 오류를 겪을 가능성이 높으며 무슨 일이 일어나고 있는지 최대한 빨리 알아야 합니다. 많은 사용자가 이미 이슈에 대해 이메일 또는 트윗을 보내거나 티켓을 제출하고 있으므로, 문제가 있다는 점을 알고 있으며 해결을 위해 노력하고 있음을 보여주는 메시지로 모두가 상황에 발 빠르게 대처하는 것이 중요합니다. Atlassian에서는 가동 중지 시간 동안 내부 및 외부 이해 관계자와의 커뮤니케이션에 Statuspage를 사용하며, 인시던트 정보를 빠르고 확장 가능한 방식으로 사용자에게 알리려고 할 때 여러분도 Statuspage의 가치를 금방 알아챌 것이라고 생각합니다. 실제로 사용자들은 Statuspage를 통해 인시던트 커뮤니케이션 속도를 무려 50%나 높일 수 있었습니다.

한번 시도해 보시겠습니까?

Statuspage에 등록 또는 로그인 >>

로그인하여 최종 사용자가 구독하도록 만들고 인시던트 발생 시 효과적인 커뮤니케이션을 위한 모범 사례에 대해 자세히 알아보세요.

그러나 고객에게 정보를 제공하는 데 어떤 도구를 사용하는지에 관계없이, 인간 중심의 커뮤니케이션은 큰 효과가 있습니다. 문제의 반대편에는 문제가 발생했을 때 정보를 계속 제공받기 위해 여러분과 여러분의 서비스에 의존하는 실제 사용자들이 있습니다. 완벽한 세상에서는 템플릿이 효과적이지만, 최악의 상황에도 고객의 신뢰를 쌓으려면 명확하고 간결하며 공감을 바탕으로 한 관련성 있는 메시지를 만들 수 있는 사람이 필요합니다. Dyn을 예로 들어 보겠습니다. 역사상 가장 큰 DDoS 공격 중 하나를 받아 대규모 서비스 중단이 발생했지만 사용자들은 서비스가 중단된 시간 동안 Dyn에서 보여준 솔직함에 대해 고마움을 표현했습니다.

AWS의 최고 기술 책임자인 Werner Vogels는 2017년 2월의 대규모 AWS S3 서비스 중단에 대해 이야기하며 다음과 같이 말했습니다.

"고객은 '가만히 앉아서 아무 것도 하지 마세요'라는 조언을 좋아하지 않습니다. 고객이 원하는 것은 이런 말이 아니라 양질의 정보를 제공하고, 무슨 일이 일어나고 있는지 이해시키고, 서비스가 언제 온라인 상태로 복구되는지에 대한 예상 시간이 있는 경우 이를 제공하는 것입니다."

인시던트 커뮤니케이션 원칙: 장벽 없는 페이지 만들기 및 인시던트 업데이트

이 원칙에 있어서 종합적 설명서보다는 작동하는 소프트웨어라는 애자일 가치를 고려합니다. 제품에 대한 설명서는 명확하고 사용자 친화적이어야 하며, 인시던트 업데이트도 그러한 방식으로 이루어져야 합니다. 사용자는 숨겨진 의미를 유추하거나 긴 글을 훑어볼 필요 없이 어떤 문제가 발생했는지, 그리고 해결 예상 시간이 언제인지 알아볼 수 있어야 합니다. 인시던트 업데이트에 대해서는 많은 생각을 거치고 공감을 바탕으로 한 인간적인 커뮤니케이션이 이루어지는지 확인해야 하지만, 빈번하고 정직한 업데이트가 여러 단계에 걸친 승인이나 여러 차례의 수정으로 인해 방해를 받아서는 안됩니다.

Dyn 인시던트를 다시 살펴보면 팀이 사용자에게 업데이트를 전달할 때 시간을 낭비하지 않은 것을 볼 수 있습니다. 인시던트가 11시간 이상 진행되는 동안, 상태 페이지는 11번 업데이트되었습니다(업데이트마다 평균 61분). 이메일을 보낼 목록을 찾거나 트위터에서 업데이트를 140자에 맞출 방법을 찾는 데 시간을 보내는 대신, 상태 페이지를 통해 한곳에서 인시던트에 대해 커뮤니케이션할 수 있었습니다. 다시 말해, 서비스를 복구하는 데 주력하면서도 원하는 내용을 전달한 것입니다.

즉시 사용할 수 있는 상태 커뮤니케이션 도구의 장점은 완전한 페이지를 만들고 실행하는 데 많은 시간을 들일 필요가 없다는 것입니다. 상태 페이지를 만드는 데는 30분도 걸리지 않으며, 상태 페이지는 애자일과 마찬가지로 반복적일 수 있고 반복적이어야 합니다. 고객을 위해 작동하는 페이지를 제공하는 것에 대해 생각하고, 진행하면서 더 나은 페이지를 만들어 보세요. 프로세스의 일부로 상태 페이지를 사용하여 인시던트를 몇 차례 겪은 후에는 계속 나아가면서 개선하도록 조정할 수 있습니다.

자체적인 상태 페이지를 만들 준비가 되셨습니까? Statuspage에 등록 또는 로그인 >>

다음 인시던트가 발생할 때까지 상태 페이지 만들기를 미루지 마세요. 가동 중지 시간이 발생했을 때 가능한 최상의 상황을 위해 지금 몇 분 정도를 투자하세요. 효과가 있는 페이지를 설정하는 데 많은 시간이 걸리지 않습니다.

인시던트 커뮤니케이션 원칙: 인시던트 발생 중, 그리고 그 이후에도 투명한 커뮤니케이션

계약 협상보다 고객과의 협업이라는 애자일 가치는 가능한 최고의 제품과 경험을 제공하기 위해 고객과 협업하는 것에 중점을 둡니다. 저희에게 있어 이는 고객이 Jira Service Management, Twitter와 같은 도구를 사용하여 우려 사항을 제기하고 고객에게 발생하는 모든 이슈를 알릴 수 있도록 적절한 피드백 채널을 갖추는 것을 의미합니다. 세계적인 수준의 기업은 고객이 피드백에 대한 응답을 받을 것으로 기대하고 있으며 제품 및 인시던트 대응 프로세스를 개선하는 데 참여하기를 원한다는 점을 알고 있습니다. 다음 트윗을 통해 볼 수 있듯이, 공감과 설명은 큰 효과가 있으며 고객은 공감과 설명을 요구하는 데 적극적인 모습을 보입니다.

이는 또한 사용자가 등록할 때 무엇을 얻게 되는지 정확히 알 수 있도록 가동 시간에 대한 투명성을 유지하는 것을 의미합니다. 클라우드 서비스에 등록하면 해당 서비스를 신뢰할 수 있다고 믿는 것입니다. 문제가 발생했을 때, 문제가 신속하게 해결되고 조사부터 해결 단계까지 모두에게 정보가 제공되도록 양 당사자가 협업하는 것은 물리적인 계약보다는 고객과 서비스 제공업체 간에 협상이 이루어지는 고유한 계약인 경우가 많습니다. 이것은 변화에 대응하는 데 대한 마지막 가치로 이어집니다...

인시던트 커뮤니케이션 원칙: 애자일 회고

정말 잘 세운 계획조차도... 이 문장의 뒷부분은 아실 것입니다. 계획을 따르기보다는 변화에 대응한다는 애자일 가치가 떠오릅니다. 우리는 가장 심사숙고하여 세운 계획조차도 인시던트 발생 중, 그리고 그 후에 불가피하게 변경해야 한다는 점을 잘 알고 있습니다. 애자일에서는 즉시 방향을 전환하고 제품 및 문화 개선을 위해 빠르고 지속적인 피드백을 얻는 능력이 중요합니다.

인터넷 비디오 및 분석 호스팅 회사인 Wistia는 2013년 예상치 못한 인시던트로 인한 통계 인프라 중단을 겪으면서, 애자일을 유지하는 것이 얼마나 중요한지 알게 되었습니다. 인시던트에 대한 준비가 갖춰져 있지 않았기 때문에 불만이 가득한 고객의 지원 티켓을 해결하느라 정신이 없었습니다. Wistia의 첫 번째 방향 전환은 이런 상황에서 업무를 용이하게 하기 위해 자체적인 상태 페이지를 만드는 것이었습니다. 그러나 자체 상태 커뮤니케이션 도구를 만듦으로써, 이제 핵심 제품 외에도 새 제품을 지원해야 하는 상황이 되었습니다. 당시 20명이던 팀이 감당할 수 없는 비용이라는 점은 분명했습니다. 두 번째 방향 전환은 자체 개발 솔루션을 종료하고 Statuspage로 전환하는 것이었습니다.

Wistia의 지원 엔지니어인 Jordan Munson은 이 전환을 다음과 같이 설명했습니다. "기능이 거의 없지만 유용했던 자체 개발 솔루션을 몇 달 동안 사용하면서 약간의 불편함을 느낀 후 저희는 관리가 많이 요구되지 않는, 더 많은 기능이 필요하다는 결정을 내렸습니다. 여기에서 Statuspage가 등장합니다. Statuspage로 전환한 이후 저희는 그동안 하고자 했던 일, 즉 애플리케이션 상태에 대한 최신 정보를 고객에게 빠르고 쉽게 제공하는 일을 할 수 있었습니다. 단 한 번의 대규모 서비스 중단과 새로운 제품 구축은 Statuspage를 사용하는 데 충분한 이유였습니다. 그로부터 몇 년이 지난 현재는 프로세스가 훨씬 순조로워졌습니다. 사용자는 서비스 중단이 발생할 때 직접 업데이트를 받고, 업데이트를 어디에서 찾아야 하는지 알고 있으며, 상태 페이지에 업데이트하면 여러 곳으로 바로 푸시됩니다."

Munson의 팀은 2013년의 서비스 중단이라는 어려움 속에서, 확장 가능한 개선된 새로운 인시던트 커뮤니케이션 프로세스를 통해 어려움을 놀랍게 극복했습니다. 변화에 대한 애자일 대응의 아주 좋은 예라고 할 수 있습니다.

회고도 이러한 애자일 가치의 핵심적인 부분입니다. 회고를 통해 팀은 한 걸음 물러서서 인시던트 커뮤니케이션 중에 무엇이 효과가 있었는지, 무엇이 별로 효과가 없었는지, 그리고 가장 중요하게는 같은 이슈가 다시 발생하지 않도록 하기 위해 어떻게 할 것인지에 대해 논의할 수 있습니다. 인시던트가 "해결됨"으로 표시되거나 팀이 일을 훌륭하게 해냈다고 해서 회고를 건너뛰고 싶다는 유혹에 지지 마세요. 인시던트 커뮤니케이션의 경우 항상 개선의 여지가 있으며, 사용자와 더 나은 관계를 구축하고 신뢰를 쌓을 기회는 언제나 있습니다.

프로 팁:

Atlassian 팀 플레이북의 회고 플레이를 통해 팀의 회고를 위한 안전한 공간을 제공하고, 개선할 수 있도록 무엇을 잘하고 못했는지 논의하세요.

첫 번째 애자일 매니페스토를 다시 살펴보면, 성공을 이루고 지속적인 결과를 내려면 회고에는 인간 중심의 커뮤니케이션이 반드시 필요합니다. 회고 회의에서 인시던트 해결이 어떻게 진행되었는지 논의할 때 고려해야 할 몇 가지 표현을 아래에서 살펴보세요. 이 표현 중 일부는 서비스를 다시 복원한 후 사용자에게 보내는 사후 검토 또는 인시던트 발생 후 검토(PIR)에도 적용되어야 합니다. 애자일하다는 것은 인시던트 관련 작업을 실행에 옮기는 방법뿐만 아니라 스트레스가 많은 상황에서 팀원과 공감하고 역할을 다하는 방법을 지속적으로 개선한다는 것을 의미합니다.

사용자 중심의 표현

제품 중심의 표현

가정, 희망 및 두려움

작업, 이슈 및 조치

동기 부여, 오해 및 행동

스프린트, 에픽, 스토리 및 릴리스

선호, 관계 및 존중

마일스톤, 종속성 및 날짜

역할 및 책임

회의, 캘린더, 이메일 및 파일

잊지 말아야 할 신뢰

Atlassian에서는 애자일에 대한 신뢰에 대해 많이 이야기하며 이 사용 사례에서도 별반 다르지 않습니다. 효과적인 인시던트 커뮤니케이션에는 신뢰와 권한 부여가 필요합니다. 조직 전반의 팀은 인시던트와 관련하여 사용자와 소통하는 데 필요한 승인 및 지식에 대해 권한을 부여받았다고 느낄 수 있어야 합니다. 개인 역시, 인시던트 대응 중에 모두가 자신에게 할당된 의무를 다하고 예상치 못한 일이 발생했을 때 주저하지 않고 프로세스 중단을 수용할 것이라고 믿을 수 있어야 합니다. 인시던트에 대해 팀이 효과적으로 커뮤니케이션할 것이라는 신뢰를 가지면 고객에게 정보를 더 빠르게 제공할 수 있으며, 결과적으로 서비스에 대한 사용자 신뢰와 충성도가 높아집니다(Statuspage 고객의 67%는 Statuspage가 사용자의 신뢰를 높이는 데 도움이 되었다고 말합니다.) 진정한 윈윈이라고 할 수 있습니다.

다음 단계
지속적인 통합