과기정통부, 케이티(KT) 연결망(네트워크) 장애 원인분석 결과 발표

댓글 0

판교핫뉴스

2021. 10. 29.

과기정통부, 케이티(KT) 연결망(네트워크) 장애 원인분석 결과 발표

작성일 2021-10-29 부서 네트워크정책과, 네트워크안전기획과

 

 

과기정통부, 케이티(KT) 연결망(네트워크) 장애 원인분석 결과 발표

 

□ 과학기술정보통신부(장관 임혜숙, 이하 ‘과기정통부’)는 지난 10월 25일 발생한 KT 네트워크 장애 사고와 관련하여 정보보호, 네트워크 전문가들로 구성된 사고조사반(이하 조사반)과 함께 원인을 조사·분석한 결과를 발표했다.

 

□ 이번 KT 네트워크 장애사고는 10.25.(월) 11시 16분경부터 시작되어, DNS 트래픽 증가에 이어, 네트워크 장애가 발생하였고, 12시 45분경 KT의 복구조치가 완료되어 약 89분의 서비스 장애가 발생하였다.

 

□ 사고조사반은 이번 네트워크 장애사고의 원인을 파악하기 위해 ①DNS서버에 발생했던 급격한 트래픽 증가가 분산서비스거부공격(이하 DDoS)이었는지, ②라우팅 오류가 어떻게 발생하였고 장애확산이 되었는지 등을 면밀하게 분석하였으며, 그 결과는 다음과 같다.

 

< 사고 원인 분석 >

 

DDoS 공격 여부 분석

□ 지난 10월 25일 11시 16분부터 KT DNS* 서버에서 평시에 비해 트래픽이 급증하였다. 

 

* Domain Name System : 도메인 주소를 IP 주소로 변환하는 역할을 수행

 

ㅇ 중앙 1차 DNS(혜화)의 경우 평시 대비 22배 이상, 중앙 2차 DNS(혜화)는 평시 대비 4배 이상, 부산 DNS는 평시 대비 3.7배 이상 증가하는 등 큰 폭의 트래픽 증가가 나타났다.

□ DDoS 공격은 ①1개의 IP가 다량의 도메인 또는 비정상 도메인을 DNS 서버에 질의하는 시스템 자원 공격과 ②대량의 네트워크 패킷을 DNS 서버에 전송하여 서비스 대역폭을 채우는 네트워크 대역폭 공격의 두가지 유형을 보이게 되는데, 조사반은 각 유형별 해당여부를 패킷, 트래픽 분석 등을 통해 조사하였다.

 

□ 첫째로, 시스템 자원 DDoS 공격과 관련하여, 조사반의 패킷분석 결과, 당시 개별 IP의 DNS 질의는 최대 15개 이내 수준*(중앙 1차 DNS 기준)으로, 다량의 도메인 질의는 없었으며,

 

* 통상 DDoS 공격 시, 개별 IP에서 수백, 수천 개의 질의가 발생

 

ㅇ 네이버, 다음 등 정상적인 도메인 질의 이력만 존재하였고, 존재하지 않는 비정상적인 도메인(예 : abec.naver.com, q12jk.naver.com 등)의 반복적인 질의도 없었던 것으로 파악되어, 시스템 자원 DDoS 공격은 없었던 것으로 분석되었다.

 

□ 둘째로, 네트워크 대역폭 공격과 관련하여, 트래픽 분석을 실시한 결과 중앙 1차 DNS서버 대역폭의 최대 8%, 부산 DNS 서버 대역폭의 28% 규모의 트래픽 유입*만 있어서 대역폭 대비 충분히 수용가능한 수준으로 네트워크 대역폭 공격은 아닌 것으로 판단되었다.

 

* (중앙1차) 10G 중 약 800Mbps, (부산) 1G 중 약 280Mbps

 

□ 결론적으로, DNS 서버에 대한 트래픽 증가는 있었지만, 시스템 자원 DDoS 공격 및 네트워크 대역폭 공격은 확인되지 않았다. 

 

라우팅 오류 및 장애 확산 분석

 

□ 이번 사고 로그기록을 분석한 결과, 부산국사에서 기업 망 라우터 교체 작업 중, 작업자가 잘못된 설정 명령을 입력하였고, 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 분석되었다. 

 

□ 라우팅 설정오류에 따른 장애발생 과정을 분석하면 다음과 같다.

 

ㅇ 인터넷 서비스가 제공될 때, PC・스마트폰 등 개인의 접속단말은 지역라우터, 센터라우터 등을 거쳐 국내외 네트워크로 연결되는데, 정상적인 연결을 위해서는 이용자 단말과 접속 대상 IP 주소 사이에 있는 다수의 라우터의 경로정보가 필요하다.

 

ㅇ 라우터는 네트워크 경로정보를 구성하기 위해 최신의 경로정보를 라우터끼리 교환(업데이트)하는 프로토콜을 사용하는데, KT 네트워크와 외부 네트워크 경로 구성에는 BGP* 프로토콜을 사용하고, KT 내부 네트워크 경로 구성에는 IS-IS** 프로토콜을 사용한다.

* BGP(Boarder Gateway Protocol)는 외부 라우터와 경로정보를 주고받는 프로토콜로서, 통상 수십만개 수준의 경로정보를 교환

** IS-IS(Intermediate System to Intermediate System)는 내부 라우터 간 경로정보를 주고받는 프로토콜로서, 통상 1만개 이하의 경로정보를 교환

 

ㅇ 라우터는 이렇게 BGP, IS-IS 등 프로토콜을 통해 교환한 경로정보를 종합해서 최종 라우팅 경로를 설정하게 된다.

 

□ 작업자의 작업내역을 확인한 결과, 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 ‘exit’ 명령어를 누락했으며, 이로 인해, BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송되었다.

ㅇ 통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서, 라우팅 경로에 오류가 발생하게 되었다.

 

□ 이러한 라우팅 경로에 발생한 오류는 다음과 같은 경로로 전국적으로 확산된 것으로 분석되었다.

 

ㅇ IS-IS 프로토콜 내의 라우터들은 상호간의 정보 최신화를 위해 자동으로 데이터를 주고받는데, 부산 지역라우터에 잘못된 라우팅 경로가 설정된 이후, 다른 지역의 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달되었다.

 

ㅇ KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있고,

 

ㅇ 결국 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어나서 장애가 전국적으로 확대되었다.

 

 

IPTV 서비스 및 음성전화서비스 장애발생 여부

 

□ IPTV 서비스망 및 음성전화・문자 서비스망은 인터넷 서비스 망과 별도로 구성되어 있으나,

 

ㅇ 음성전화・문자 서비스망은 인터넷 서비스 장애로 인해 전화와 문자 이용이 늘었고, 단말전원을 리셋*한 이용자로 인한 트래픽 증가가 발생하여 부하가 가중되었을 것으로 추정된다.

 

* 단말전원 리셋 시 단말이 망에 다시 등록하므로 추가적인 트래픽 발생

 

 

< 문제점 >

 

□ 조사반은 이번 사고 조사·분석 과정에서 다음과 같은 KT의 관리적·기술적 문제점이 있었다고 파악하였다.

 

관리적 문제점

 

□ (주간작업) 당초 KT 네트워크관제센터가 야간작업(01시~06시)을 승인*하였으나, 작업이 주간에 수행되는 과정에서 장애가 발생하게 되었던 것으로 확인하였다.

* 작업계획서(KT 제출자료)

공 사 명 2020년 기업망 장비(OOO)1단계 공급_OOO 공사

작업일자/기간 2021년 10월 26일 ( 01:00 ~ 06:00 )

작업목적 기업망 라우터 공급에 따른 절체 작업

 

□ (작업관리체계 부실 및 망차단 미실시) 또한, 작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실했으며, 네트워크가 연결된 채로 작업이 이루어진 것으로 확인하였다. 

※ KT 감독자와 협력업체 작업자로부터 확인

기술적 문제점

 

□ (사전검증) 우선 사전검증 단계에서 오류를 파악하지 못했다.

 

ㅇ 라우팅 작업계획서상의 라우팅 설정 명령어 스크립트에서 IS-IS 프로토콜을 종료하는 ‘exit’ 명령어가 누락되었으나 스크립트 작성과정 및 사전 검증 과정에서 발견하지 못했다.

 

ㅇ 1, 2차에 걸친 사전검증 단계가 존재했으나, 사람이 직접 검토하는 체계이기 때문에, 오류를 발견하지 못했다. 

 

□ (시뮬레이터 및 오류의 확산 방지) 또한, 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재하였다.

 

 

< 향후 조치방향 >

 

「네트워크 안정성 확보방안」 마련 추진

 

□ 과기정통부는 이번 조사결과를 바탕으로, 주요통신사업자 네트워크의 생존성·기술적·구조적인 대책이 담긴「네트워크 안정성 확보방안」을 마련할 계획이다.

 

※ 과기정통부 네트워크정책실장을 단장으로 네트워크 전문가 등 관계 전문가들과 T/F를 구성·운영 추진

 

□ 네트워크 안정성 확보방안은 단기대책과 중장기대책을 포괄하는 방안이 검토될 예정이다.

 

ㅇ 단기 대책으로 ➊ 주요통신사업자의 네트워크 작업체계, 기술적 오류확산 방지체계 등 네트워크 관리체계를 점검하고, ➋ 주요통신사업자가 네트워크 작업으로 인한 오류여부를 사전에 진단할 수 있는 시뮬레이션 시스템을 도입한다. 

ㅇ 또한, ➌ 주요통신사업자가 승인된 작업계획서의 내용 및 절차가 준수되는지에 대해 네트워크관제센터에서 기술적 점검 체계를 구축토록 하고, ➍ 라우팅 설정오류로 인한 피해를 최소화하기 위해, 주요통신사업자가 라우팅 작업을 할 때 한 번에 업데이트되는 경로정보 개수를 일정 수준 이하로 제한 등이 검토될 계획이다.

 

ㅇ 중장기 대책으로는, 주요통신사업자의 통신장애 대응 모니터링 체계 강화, 네트워크 안정성과 복원력을 높이는 기술개발, 안정적인 망 구조 등 네트워크의 생존성 확보를 위한 구조적 대책 마련 등도 추진할 예정이다.

 

피해보상

 

□ 이용자들의 피해를 보상하기 위해서 

 

ㅇ KT는 이용자 피해현황 조사 및 피해구제 방안 마련을 추진하고, 방송통신위원회(이하 방통위)는 이용자 피해구제 방안 이행여부를 점검할 예정이다.

 

ㅇ 또한 방통위는, 통신장애 발생시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련을 검토할 계획이다.

 

붙임1  DNS 개요 및 운영원리

 

□ DNS(Domain Name System) 개요

 

ㅇ (DNS) 인터넷은 IP 주소를 이용해 통신을 하게 되는데, 숫자인 IP주소를 외우기 어렵기 때문에 기억하기 쉽도록 문자로 이루어진 도메인을 관리하는 통신 체계

 

ㅇ (DNS 서버) 미리 등록된 도메인에 대한 IP정보를 가지고 있는 서버로, 도메인 주소를 IP 주소로 변환하는 역할 수행

 

□ 일반적인 DNS의 구성과 질의응답 원리

 

 

o 캐시 DNS 서버에 KISA 도메인의 IP 주소가 있을 경우, 사용자 PC로 바로 응답(, )

o 캐시 DNS 서버에 KISA 도메인의 IP 주소가 없을 경우, ~ 수행한 후 사용자 PC에 응답()

붙임2  디도스 정의 및 공격유형

 

□ 디도스(DDoS, Distributed Denial of Service attack) 정의

 

ㅇ 다수의 서버, PC 등을 이용해 비정상적인 트래픽을 유발시켜 대상 시스템을 마비시키는 공격 행위

 

< DDoS 공격 개념도 >

 

□ DNS DDoS 공격 특성 및 유형

 

ㅇ 공격 형태에 따라 대역폭 공격, 자원소진 공격 구분 

구분 대역폭 공격 자원소진 공격

공격특성 높은 bps* 높은 pps**

다량의 질의 요청

공격유형 UDP Flooding TCP SYN,

UDP 기반 반사공격 ACK Flooding 등

(DNS, NTP 등)

ICMP Flooding 등

피해대상 동일 회선을 사용하는 모든 시스템 접속불가(회선을 공격) 대상 서버, 네트워크 장비 등의 과부하 발생(서버와 장비를 공격)

프로토콜 UDP, ICMP TCP

IP 위변조여부 위/변조 가능 위/변조 가능

비고 일시적으로 대량의 트래픽을 발생시키기 때문에 회선 대력폭이 작으면 방어가 어려움 대역폭 공격에 비해 적은 트래픽으로도 서버 과부하를 유발할 수 있음

* bps(bit per second) : 초당 bit 수를 지칭하는 약어

** pps(packet per Second) : 초당 packet 수를 지칭하는 약어

붙임3  인터넷의 개념

 

□ 인터넷(Internet)

 

ㅇ (개념) 정보를 담고 있는 각 컴퓨터들을 TCP/IP* 통신 프로토콜을 이용해 서로 정보를 주고받도록 한 컴퓨터 네트워크

 

* TCP/IP : 컴퓨터 간 통신 표준 및 네트워크의 라우팅 및 상호연결에 대한 규칙

 

□ 인터넷 작동원리

 

ㅇ (네트워크) 컴퓨터 간 통신이 필요할 때 물리적(케이블 선) 또는 무선(WiFi, Bluetooth)으로 연결이 가능, 여러 컴퓨터 연결시 비효율 발생

 

두 컴퓨터 간의 통신 열대의 컴퓨터 간 통신

 

 

ㅇ (라우터) 이러한 문제를 해결하기 위해 컴퓨터와 컴퓨터 간의 연결이 아닌 라우터와 컴퓨터 간의 연결로 데이터를 송·수신

* 단일 라우터로 더 많은 연결에 한계 존재, 라우터와 라우터 연결을 통한 네트워크 확장 가능

 

라우터와 컴퓨터 간 네트워크 라우터와 라우터 연결을 통한 네트워크

 

 

□ 라우터 역할 및 동작 방식

 

ㅇ 라우터는 인터넷 상에서 IP(인터넷 프로토콜)주소를 부여받은 장치* 간 통신을 위하여 인터넷 트래픽을 전달하는 역할 수행 

* PC, 노트북, 스마트폰과 같은 사용자 단말과 네이버, 구글 서비스 제공 서버 등 인터넷에 연결되어 있는 다양한 형태의 시스템 

 

ㅇ 인터넷은 전세계 다양한 규모의 자율 관리 네트워크*의 연결로 구성됨

* 자율 시스템(AS, Autonomous System)이라고 부르며 동일한 사업자/관리자에 의해서 동일한 정책으로 관리

* KT의 경우 일반 인터넷 백본 네트워크, IPTV/LTE를 위한 프리미엄 네트워크, 5G 백본 네트워크가 각각 다른 AS로 관리되고 있음

 

ㅇ 라우팅 프로토콜은 라우터 간 메시지 교환을 통하여 IP 주소에 따른 경로정보를 관리하며, 경로정보의 범위가 AS 내부인지 외부인지에 따라서 IGP와 EGP로 구분

구분 설명 종류

IGP 동일한 AS내 라우터 간 경로정보 교환을 위한 라우팅 프로토콜 RIP, OSPF, IS-IS

(Interior Gateway Protocol)

EGP AS 외부 경로정보 교환을 위한 라우팅 프로토콜 BGP

(Exterior Gateway Protocol)

※ 하나의 라우터에 여러 종류의 라우팅 프로토콜이 동시에 구동이 되며, 라우터 간 라우팅 메시지 교환은 동일한 종류의 라우팅 프로토콜 간 이루어 짐

 

붙임4  KT의 네트워크 구조

 

□ KT의 네트워크 구조

 

 

 

ㅇ KT는 코넷망, 프리미엄망, 5G망의 3개의 자율관리네트워크를 보유

 

- (코넷망) KT의 인터넷 백본 네트워크

 

- (프리미엄망) IPTV*, LTE를 위한 네트워크

 

* SER(Service edge router)을 통해 프리미엄망으로 연결

 

- (5G) 5G 무선망을 위한 백본 네트워크

붙임5  라우팅 오류의 전국 전파

 

 

 

□ 라우팅 오류 전파 양상

 

ㅇ 부산 신규기업용 라우터에 잘못된 라우팅 정보가 입력되자 지역(부산)의 백본 라우터에 잘못된 정보가 전달됨 

 

- 부산의 백본 라우터는 모든 지역 백본 라우터와 연결되어 있는 서울 센터 라우터*에 잘못된 정보를 전달하였음

 

* 혜화 센터, 구로 센터

 

- 이후 서울 센터 라우터가 전 지역의 백본 라우터에 잘못된 정보를 전달하면서 라우팅 오류는 전국으로 확대되었음 

 

< 전국 라우팅 오류 전달 프로세스 >

부산 신규 기업용 라우터 → 부산 백본 라우터 → 서울 센터 라우터(중앙) → 타 지역 백본 라우터 → 기타 라우터

 

ㅇ 이와 같은 경로를 통해 최초에 라우터에 잘못된 정보가 입력된 이후 30초 이내에 전체 라우터에 라우팅 오류가 전파되었음