Kollus 고객들의 서비스를 24시간 모니터링 한다.

지난 달 9월 12일, 국내에서 측정 된 지진 중 가장 큰 지진이 경주에서 발생했습니다. 5.8의 지진 강도는 서울에서도 일부 감지했을 만큼 상당한 강도였습니다. Kollus 역시 지진의 영향을 비껴 갈 수 없었고, 당사의 서비스 운영 또한 긴장을 늦출 수 없었습니다. 아래는 당시 상황을 기록한 서비스 운영팀의 운영일지 내용입니다.

2016.09.12
19시 45분경 서비스 Traffic이 빠지고 있다는 Alert을 받았다.  일반적인 서비스 장애시에는 Traffic감소 Alert과 동시에 모니터링 항목에 설정된 Alert이 함께 오게 되어있으나, 이날은 Traffic Alert만이 들어왔다. 
통합 모니터링 현황을 확인하였고, 이상 징후를 발견하지 못하고 있던  그때 경주에서 강진이 발생하였고, 이와 더불어 통화 및 SNS메신저 전송도 원활하지 않다는 소식을 전해 들었다. 

< 그림 1. 09.12 Traffic 그래프>
1
< 그림 2. 09.12 Edge Establish Count>
2
그림 1.과 같이 전체 Traffic이 감소하고 있었으며, 그림 2.와 같이 당사 Edge의 Establish Count또한 감소하고 있었다. 

< 그림 3. 신규 접속자 추이 >

3

신규 접속자 추이를 확인하니 평상시와는 다르게 가파르게 감소하고 있음을 확인하였고, 이 모든 시점이 지진이 발생한 시점과 일치하였다. 곧바로 Sales팀에 연락하여 지진에 의한 Traffic 하강을 통보하고 상황을 마무리 하였다.  (지진은 이날 19:44, 20:32 두 번에 걸쳐서 발생하였다.)


2016.09.19
추석 연휴 기간 내내 여진은 계속되었고, 또 언제 Traffic이 떨어질지 모르는 상황이라 주말에도 신경을 곤두세운 채 Storage이전 작업을 한 서비스 운영팀은 모두 녹초가 되었다. 이날도 오후 8시가 지난 시점에 지난 9월 12일과 마찬가지로 Slack을 통해 전체 서비스 Traffic 하강 Alert을 받았고, 다른 Alert은 발생하지 않았다.

< 그림 4. 09월 19일 Traffic 그래프 >
4

< 그림 5. 09.19일 Edge Establish Count>
5

이 날은 여진임에도 불구하고 4.5의 강진으로 전체 서비스 Traffic에도 영향이 있었다.

2016.09.20
오후 8시 10분경 Traffic이 빠지고 동시에 Player 접속 에러가  발생하고 있다는 연락을 받았다.  상황은 이전과 마찬가지로 Traffic / Establish /신규 접속자 수치가 지난 지진 때와 동일한 양상을 보였다. 특히 Player의 Network Error Count가 비정상적으로 높은 것을 알 수 있었다. 

< 그림 6. 09.20 Traffic 그래프>
6
< 그림 7. 09.20 Edge Establish Count>
7
< 그림 8. 09.20 신규 접속자 count>

8
< 그림 9. Player error code중 network 부분 >

9

발생한 시간대는 규모 2.1의 여진이 발생한 시간과 동일 하였고, Edge가 위치한 각 IDC에서 네트웍 이슈 여부를 확인해보니 IDC내의 네트웍에는 징후를 포착할 수 없었다.  여러 채널을 통해 알아본 결과, 여진으로 인해 일부 사용자 망 혹은 DNS에 영향이 잠시 있었다는 사실을 파악하였고, 상황을 종료하였다.

위 내용은 당사 모니터링 System을 통해 수집 된 내용을 바탕으로 하고 있습니다. 자사는 보다 철저한 모니터링을 위해서 서비스 기획 단계 및 개발 단계에서 항목을 정의하고, 모니터링 항목을 수집/Alert/View 하고 있습니다. 다음에는 기본적인 모니터링 OPEN Source에 대해 기술하도록 하겠습니다. 감사합니다.

– 서비스 운영팀장 @ 카테노이드

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.