네트워크 작업 마무리때 '명령어' 한 줄 누락
KT사고 조사결과 트래픽분산 명령어 빠뜨려…통화량 많은 한낮에 작업 25일에 30초 만에 전국망 마비…잘못된 명령어 걸러낼 안전장치 없어
KT의 유무선 네트워크 장애를 촉발한 것은 명령어 한 줄의 누락이었지만, 그 후폭풍은 즉각 전국적으로 몰아닥쳐 막대한 피해를 입혔다.
통신 네트워크 작업은 연결을 끊어 둔 상태에서 이용자의 이용이 적은 밤 시간대에 하는 것이 기본 상식이다. 그러나 KT는 지난 25일 이용이 많은 한낮에 네트워크도 연결돼 있는 상태에서 진행하다가 어처구니없는 사고를 저질렀다.
과학기술정보통신부의 사고분석 결과에 따르면 사고가 벌어질 당시 작업자는 라우터(네트워크 경로설정 장비)의 프로토콜 명령어를 마무리하면서 'exit' 명령어를 빠뜨린 것으로 드러났다.
1, 2차에 걸친 사전검증 단계에서 명령어 설정의 오류가 걸러졌어야 함에도 그렇게 되지 않았다. 사람이 직접 검토하는 방식으로는 간과하기 쉬운 외마디 표현의 오류를 걸러내지 못한 것이다.
잘못된 명령어를 입력받은 부산의 라우터는 이를 서울 혜화와 구로의 라우터로 전송했다. 이들 서울 지역 라우터는 전국 모든 지역의 라우터와 연결돼 있었다. KT는 잘못된 명령어를 걸러낼 안전장치를 두지 않아 상황을 악화시켰다. 서울 지역 라우터들은 전국 모든 지역의 라우터로 잘못된 정보를 전파했고, 이는 결국 전국적인 네트워크 장애라는 참사로 나타났다.
최초 명령어 입력 오류부터 이때까지 걸린 시간은 불과 30초도 안 됐다. 10월 25일 오전 11시 16분 서울 혜화의 1차 DNS(도메인 네임 시스템) 서버 트래픽은 평소의 22배 이상, 혜화의 2차 DNS 서버 트래픽은 4배 이상, 부산 DNS는 3.7배 이상으로 치솟았다.
KT는 뒤늦게 오류를 인지하고 사태 수습에 나섰으나 완전 복구까지 89분이 걸렸다. 그사이 전국 3000만명(유·무선 중복 포함)이 넘는 가입자와 소상공인·자영업자들의 피해는 눈덩이처럼 커졌다.