## 개요 시스템의 신뢰성을 확인하기 위해 인위적인 혼돈을 가하여 시스템의 취약한 부분을 찾는 기법이다. 넷플릭스가 카오스 엔지니어링을 하는 회사로 유명하다. ## 순서 1. 시스템이 정상적이라고 판단할 수 있는 상태 정의. - CPU, Latency 지표처럼 측정 가능한 결과에 초점을 맞춰야한다. 2. 실험군과 대조군 모두에서 정상 상태가 지속될 것이라고 가정. - 서버 중 일부가 멈춰도 서비스는 정상적으로 동작해야한다. 3. 프로덕션에서 실제로 일어날 수 있는 문제를 실험군에 도입한다. - 갑자기 트래픽이 몰리거나 서버가 다운된 경우 등 현실의 문제를 반영해야한다. - 해당 사건이 일어났을 때 영향과 예상 발생 빈도를 고려해서 우선 순위를 지정한다. 4. 실험군과 대조군을 비교해서 가설을 검증한다. ## 참고 http://channy.creation.net/blog/1173 #devops