YOGAE

TODO: FIXME:

AWS Well-Architected 프레임워크 - 5가지 기반(운영 우수성 기반)

10 Mar 2019

운영 우수성 기반에는 프로덕션 워크로드를 관리하는 데 사용되는 운영 관행 및 정차가 포함됩니다. 계획된 변경을 실행하는 방법과 예기치 못한 운영 이벤트에 대한 대응이 여기에 포함됩니다.

설계 원칙

  • 코드를 사용한 작업 수행

    자주 반복되는 프로세스 또는 절차가 있는 경우 자동화를 사용합니다.

  • 비즈니스 목표에 맞춘 운영 프로세스

    비즈니스 목표 달성에서 운영 우수성을 나타내는 측정치를 수집합니다. 목표는 운영 모니터링 및 대응이 비즈니스에 중요한 요구 사항을 지원하도록 측정치에서 신호 대비 잡음 비율을 낮추는 것입니다.

  • 정기적으로 소규모 증분식 변경을 실시

    워크로드는 구성 요소를 정기적으로 업데이트할 수 있도록 설계해야 합니다. 변경은 대규모 배치가 아니라 소규모 증분식으로 이루어져야 하며 운영에 영향을 미치지 않고 롤백시킬 수 있어야 합니다. 이러한 변경을 유지 관리를 위한 가동 중지 또는 종속된 서비스 구성 요소의 교체 없이 구현할 수 있는 운영 절차를 마련합니다.

  • 예기치 못한 이벤트에 대한 대응을 테스트

    구성 요소 장애 및 기타 예기치 못한 운영 이벤트에 대해 워크로드를 테스트해야 합니다. 운영 이벤트가 발행할 경우 준수할 수 있도록 운영 이벤트에 대응하기 위한 절차를 테스트하고 이해하는 것이 중요합니다.

  • 운영 이벤트 및 장애로부터 교훈 학습

    모든 유형의 운영 이벤트 및 장애를 포착하고, 검포하고, 개선에 활용할 수 있는 프로세스를 수립해야 합니다.

  • 운영 절차를 최신 상태로 유지

    환경과 운영이 진화함에 따라 프로세스 및 절차 가이드도 이에 맞게 조정되어야 합니다. 여기에는 정규 운영 실행서는 몬론 지침서의 업데이트가 포함됩니다.

모범 사례

준비

운영 우수성을 추진하려면 효과적인 준비가 필요합니다. 운영 체크리스트를 활용하면 워크로드가 프로덕션 운영을 위한 준비가 되었는지 확인할 수 있고 효과적 준비 없이 의도치 않게 프로덕션으로 전환하는 것을 방지할 수 있습니다. 워크로드는 운영 팀이 정상적인 일상 작업을 수행하기 위해 참조할 수 있는 운영 지침과 예기치 못한 운영 이벤트에 대응하기 위한 지침을 구비해야합니다.

환경, 아키텍처, 그리고 해당 리소스에 대한 구성 파라미터는 추적 및 문제 해결을 위해 손쉽게 구성 요소를 식별할 수 있도록 문서화해야 합니다. 구성 변경 역시 추적이 가능하고 자동화되어야 합니다.

AWS Config 규칙을 포함한 AWS Config 와 같은 서비스는 AWS 워크로드 및 환경에 대한 변경을 자동으로 추적하고 대응하는 메커니즘을 만듭니다. 또한 태그 지정과 같은 기능을 사용하여 운영 및 대응 시 필요할 경우 워크로드의 모든 리소스를 손쉽게 식별할 수 있도록 하는 것도 중요합니다.

운영

운영은 표준화해야 하면 일상적으로 관리 가능해야 합니다. 자동화, 잦은 소규모 변경, 정기적 품질 보증 테스트, 변경 사항을 추적, 감사, 롤백 및 검토하기 위해 정의된 메커니즘에 초점을 맞춰야 합니다. 워크로드에 대한 주요 운영 인디케이터에 기초한 광범위한 로그 및 측정치를 수집하고 검토하여 지속적인 운영이 보장되어야 합니다.

AWS에서는 지속적인 통합/지속적인 배포(CI/CD)파이프라인을 설정할 수 있습니다. 릴리스 관리 프로세스는 테스트해야 하며 소규모 증분식 변경과 추적된 버전을 기반으로 해야 합니다. 운영 문제를 유발한 변경 사항은 운영에 영향을 미치지 않고 되돌릴 수 있어야 합니다. 변경 품질 보증에는 블루/그린, Canary 및 A/B 테스팅과 같은 위험 완화 전략이 포함되어야 합니다. 운영 체크리스트를 사용하여 워크로드의 프로덕션 준비성을 평가해야 합니다. 중앙 집중식 모니터링 및 경보를 위해 로그를 집계합니다. 경보가 알림 및 에스컬레이션을 포함하여 자동 대응을 트리거해야 합니다. 또한 장애뿐 아니라 이상에 대한 모니터도 설계하십시오.

대응

예기치 못한 운영 이벤트에 대한 대응은 자동화해야 합니다. 자동화는 경보만이 아니라 완화, 수정, 롤백 및 복구에도 적용해야 합니다. 경보는 시기 적절해야하며 대응이 운영 이벤트의 영향을 완화하는 데 적절하지 않을 겨우 에스컬레이션을 트리거해야 합니다. 실패한 배포를 자동으로 롤백하기 위한 품질 보증 메커니즘이 마련해야 합니다. 대응은 이해관계자, 에스컬레이션 프로세스 및 절차를 포함하는 사전 정의된 지침서를 따라야 합니다.

AWS에서는 예기치 못한 운영 이벤트에 대한 대응과 자동 대응에서 적절한 경보 및 알림을 보장하는 다수의 메커니즘을 제공합니다.