배경최근 운영중인 서비스에서 데이터베이스 성능 문제로 요청 지연이 발생하는 문제가 있었습니다. 해당 서비스에서는 Aurora Serverless v2를 사용하고 있는데요,데이터베이스의 최대 ACU(Aurora Capacity Unit)에 도달하고 CPU 사용률 또한 100%가 되면서 요청이 지연되거나 커넥션 타임아웃이 발생하고 있던 상황이었습니다. 알람으로 문제를 파악하여 최대 ACU를 늘려 문제는 금세 해결되었지만 재발할 가능성이 존재했습니다. 문제 원인사용률, 레이턴시, 쓰로우풋과 같은 메트릭에 대한 내부 비정상 지표가 존재하지 않기도 했었고 처리량이 많아 문제가 발생한건지, 아니면 병목 구간(슬로우 쿼리나 N+1 문제와 같은)이 있어서 발생한건지 알기 어려웠습니다. 따라서, 우아한형제들 RDS 모..