YOGAE

TODO: FIXME:

AWS Well-Architected 프레임워크 - 5가지 기반(안정성 기반)

06 Mar 2019

안정성 기반에는 인프라 또는 서비스 장애를 복구하고, 수요에 따라 컴퓨팅 리소스를 탄력적으로 확보하고, 구성 오류나 일시적 네트워크 문제 같은 중단 사태를 완화할 수 있는 능력이 포함됩니다.

설계 원칙

  • 복구 절차 테스트

    클라우드에서는 시스템의 장애 과정을 테스트하고 복구 절차를 검증할 수 있습니다. 자동화를 이용하여 다양한 오류를 시뮬레이션하거나 예전에 장애로 이어졌던 시나리오를 재현해 보십시오.

  • 장애 자동 복구

    시스템의 핵심 성능 지표(KPI)를 모니터링하다가 임계값을 넘어서면 자동화를 트리거할 수 있습니다. 이를 통해 장애 추적 및 자동 알림을 지원하고, 자동화된 복구 프로세스에 따라 장애 지점을 우회하거나 회복 할 수 있습니다.

  • 수평적 확장으로 시스템 전체 가용성 증대

    큰 리소스 하나를 작은 리소스 여러 개로 대체하여 한 가지 장애가 전체 시스템에 미치는 영향을 줄일 수 있습니다. 요청을 더 작은 리소스 여러 개로 분산시키면 공통의 장애 지점을 공유하지 않게 됩니다.

  • 용량 추측 충단

    클라우드에서는 수요 및 시스템 사용량을 모니터링하고 리소스 추가 또는 제거를 자동화함으로써 프로비저닝 과다 또는 부족 형상 없이 최적의 수준으로 수요를 충족할 수 있습니다.

  • 자동화 변경 사항 관리

    인프라에 대한 변경이 자동화를 사용하여 이루어져야 합니다. 관리해야 할 변경 사항은 자동화에 대한 변경입니다.

모범 사례

기반

AWS에는 기반 요구 사항이 대부분 이미 통합되어 있거나 필요에 따라 적용할 수 있습니다.

변경 관리

AWS를 이용하면 시스템 동작을 모니터링하고 KPI 대응을 자동화할 수 있습니다.

수요 변화에 따라 리소스를 자동으로 추가하거나 제거하도록 시스템을 설계하면 안정성이 향상될 뿐 아니라 사업 성공의 가능성도 높아집니다. 모니터링을 통해 KPI 가 통상적인 수준을 벗어나면 담당 팀에 자동으로 알려 줍니다. 환경에 대한 변경 사항이 자동으로 로깅되므로 안정성에 영향을 미칠 가능성이 있는 작업을 감사하여 신속하게 파악할 수 있습니다. 변경 관리 제어를 통해 규칙을 적용함으로써 필요한 수준의 안정성을 확보할 수 있습니다.

장애 관리

AWS에서는 자동화를 이용하여 모니터링 데이터에 대응합니다.

정기적으로 데이터를 백업하고 백업 파일을 테스트하여 논리적 오류와 물리적 오류를 모두 복구할 수 있는지 확인하십시오. 빈번한 시스템 자동 테스트를 통해 장애를 파악하고 복구하는 것이 장애 관리의 열쇠입니다. 목표 복구 시간(Recovery Time Objective, RTO), 목표 복구 시점(Recovery Point Objective, RPO) 같은 KPI 를 적극적으로 추적하여 특히 장애 테스트 시나리오에서 시스템의 복원성을 평가하십시오.