야간 작업을 주간으로 변경, 네트워크 연결 중 수리
정부, 네트워크 안정성 확보방안 마련...KT 보상 검토
[세종=뉴스핌] 이경태 기자 = 전국적으로 한낮에 1시간 반가량 통신이 마비된 사태는 결국 '인재(人災)'였던 것으로 드러났다. 명령어를 잘못 기입해 오류가 발생한 것 뿐만 아니라 단 1곳의 라우터 장비의 오류가 전국으로 확산될 수 있도록 안전장치마저 없었던 것으로 확인됐다.
과학기술정보통신부는 29일 오후 3시 정부서울청사에서 조경식 제2차관이 참석한 가운데 KT 네트워크 장애 사고에 대한 원인을 발표했다.
과기부는 이번 KT 네트워크 장애사고가 지난 25일 오전 11시 16분께부터 시작돼 도메인네임시스템(DNS) 트랙픽 증가에 이어 네트워크 장애가 발생, 낮 12시 45분께 복구조치가 완료되는 등 약 89분간 지속됐다고 밝혔다.
[서울=뉴스핌] 국회사진취재단 = 구현모 KT 대표가 28일 서울 종로구 KT혜화타워(혜화전화국) 앞에서 지난 25일 발생한 KT의 유·무선 인터넷 장애와 관련해 취재진의 질문에 답하고 있다. 2021.10.28 photo@newspim.com |
사고조사반의 분석 결과, KT 부산국사에서 기업 망 라우터 교체 작업이 진행되는 중 작업자가 잘못된 설정 명령을 입력한 것으로 나타났다. 이후 라우팅 오류로 인해 전국적으로 인터넷 네트워크 장애가 발생한 것이다.
라우터는 여러 개의 네트워크 사이에서 적절한 통신이 이뤄질 수 있도록 길 안내자의 역할하는 장치다. 라우터는 프로토콜을 통해 교환한 경로정보를 종합해 최종 라우팅 경로를 설정해준다.
해당 작업자는 라우팅 설정명령어를 입력하면서 명령어를 마무리하는 부분에서 '종료'를 의미하는 'exit' 명령어를 기입하지 않은 것으로 파악됐다. 명령어가 제대로 입력되지 않은 상황에서 1만개 내외의 정보를 내부 라우터간 교환하는 프로토콜(IS-IS)에 잘못된 정보가 전송돼 라우팅 경로에 오류가 발생한 것이다.
이같은 오류 정보는 전국 네트워크에 곧바로 퍼져나갔다. 문제는 KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결했다는 데 있다. 1개의 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 장애를 일으키게 했다는 얘기다.
당시 인터넷다중매체방송(IPTV) 서비스 및 음성전화서비스 역시 영향을 받았다. 사고조사반은 IPTV 서비스망 및 음성전화・문자 서비스망은 인터넷 서비스 망과 별도로 구성되어 있으나, 음성전화・문자 서비스망은 인터넷 서비스 장애로 인해 전화와 문자 이용이 늘었던 것으로 파악했다. 또 단말전원을 재설정한 이용자로 인한 트래픽 증가 역시 발생해 부하가 가중됐을 것으로도 추정됐다.
사고조사반은 이번 사태에 대해 관리 차원의 문제를 지적했다. 당초 KT 네트워크관제센터가 야간작업(오전 1~6시)을 승인했으나 작업이 주간에 수행되는 과정에서 장애가 발생하게 된 것이 확인됐다. 또 작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실했을 뿐더러 네트워크가 연결된 채로 작업이 이루어진 것으로도 확인됐다.
기술적인 문제도 발생했다. IS-IS 프로토콜을 종료하는 명령어가 누락됐는데도 스크립트 작성과정 및 사전 검증 과정에서 발견하지 못한 것으로 드러났다.
앞서 KT가 사고 초반에 장애 원인으로 지목한 뒤 번복한 디도스 공격 등 외부 사이버 테러 가능성은 없었던 것으로 확인됐다.
과기부는 이번 조사결과를 바탕으로 주요통신사업자 네트워크의 생존성·기술적·구조적인 대책이 담긴 '네트워크 안정성 확보방안'을 마련할 예정이다. 네트워크 안정성 확보방안은 단기대책과 중장기대책을 포괄하는 방안이 검토될 예정이다.
단기 대책으로 주요통신사업자의 네트워크 작업체계, 기술적 오류확산 방지체계 등 네트워크 관리체계를 점검하고 주요통신사업자가 네트워크 작업으로 인한 오류여부를 사전에 진단할 수 있는 시뮬레이션 시스템을 도입한다.
주요통신사업자가 승인된 작업계획서의 내용 및 절차가 준수되는지에 대해 네트워크관제센터에서 기술적 점검 체계를 구축토록 할 계획이다. 라우팅 설정오류로 인한 피해를 최소화하기 위해 주요통신사업자가 라우팅 작업을 할 때 한 번에 업데이트되는 경로정보 개수를 일정 수준 이하로 제한 등도 검토될 것으로 보인다.
중장기 대책으로는 주요통신사업자의 통신장애 대응 모니터링 체계 강화, 네트워크 안정성과 복원력을 높이는 기술개발, 안정적인 망 구조 등 네트워크의 생존성 확보를 위한 구조적 대책 마련 등도 추진된다.
이와 함께 피해 보상과 관련, KT는 이용자 피해현황 조사 및 피해구제 방안 마련을 추진하고 방송통신위원회는 이용자 피해구제 방안 이행여부를 점검할 예정이다. 방통위는 통신장애 발생시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련을 검토할 계획이다.
biggerthanseoul@newspim.com