빅데이터

    YONG 2020. 6. 2. 16:57

    [빅데이터] 코로나 이후의 머신러닝과 데이터 분석 변화

     

    .....  2020-06-02  전용준. 리비젼컨설팅 대표. 경영학박사

     

    2020년 아무도 미리 예상하지 못했던 코로나바이러스 감염 사태가 전세계를 휩쓸고 있다.

    대재앙이 건강과 의료분야를 넘어서 경제 사회 전반을 이전의 상황과는 완전히 다른 모습으로 변경시켜 버렸다.

    6월초 현재 기준으로는 상당히 잦아들어가는 것도 사실이고 언제가는 사라질 수 있을 것이라는 기대도 존재한다.

    의학계에서는 2차 확산이 다시 돌아올 것이라는 예상도 하고 있다. 하지만, 그렇게 코로나 사태가 진정되고 나면 이제 과거의 정상적인 모습으로 돌아갈 수 있을까?

     

     

     

     

    문제를 머신러닝을 포함하는 데이터 분석으로 좁혀서 생각해 보면 앞으로의 분석을 위해 사용할 데이터가 남아있게될 것인가에 대한 의문을 가지게 된다. 본시 데이터 분석은 과거가 미래를 대변할 수 있다는 암묵적인 가정을 전제하고 이루어지는 것이다. 그러나, 코로나 바이러스 창궐기간에 사회가 변화되었고 그 변화가 특정 영역에만 집중된 형태이기 때문에 모든 데이터가 그 모습을 반영하는 구조로 변화하게 되었다는 것이다.

    이 문제점은 코로나 바이러스 사태가 지나간 이후에도 한 동안 남아있을 수 밖에 없게 된다.

     

     

     

    간단한 시뮬레이션 모델을 통해 만일 코로나 바이러스 사태가 없었다면 데이터는 어떤 모습이었을지를 추측해보면 코로나 바이러스가 어느 정도 영향을 미쳤는지를 알 수 있을 것이다. [ #비즈트렌드인터프리터 ]

     

    2020년 3월~5월 3개월간 영화예매에 대한 구글 검색량은 모델이 추정하는 정상 수준 대비 70% 가까이 줄어있는 모습이다. 외식에 대한 관심을 의미하는 맛집 검색은 30%를 조금 넘는 정도 줄어들었다. 영향도가 유형별로 상당히 크게 차이난다는 점을 알 수 있다.

     

     

    정상수준 대비 줄어드는 양상과 회복되는 양상에서 영화예매가 보이는 모습과 다른 주제가 보이는 모습은 완연하게 차이가 난다.

     

    국내여행을 의미하는 KTX 고속철도 이용 관련 검색도 동일한 3개월 기간 동안 대폭 줄어들었으나 반등하는 모습을 보이고 있다. 반등이 시작되는 시점과 속도가 또 다른 모습을 보여준다. 

     

    단순히 당분간의 상황에서 어떤 부분이 코로나로 어떤 영향을 받았는지를 파악하는 정도로 충분하지 않다. 문제는 코로나 바이러스 이후 시점에서의 데이터 분석이다. 여러 가지 질문들이 남을 수 밖에 없다.

     

    • 이전에 만들어두고 운영해오던 모델을 지금도 그리고 앞으로도 그대로 사용할 수 있겠는가?
    • 지금부터 만들고 수정하는 모델들은 언제부터 언제까지의 데이터를 사용하여 분석하고 머신러닝 모델을 만들어야 할 것인가?
    • 오염되었다할 수 있는 기간을 제외하고 모델링 할 방법이 있겠는가?
    • 이런한 문제를 알고 있다고 한다면 장기 예측을 하는 경우와 단기 예측을 하는 경우에는 각기 어떤 다른 사항이 고려되어야 하겠는가?

     

    시계열적인 특성까지를 반영해야하는 대부분의 예측모델들이 적어도 최근 3년의 기간 동안 발생된 데이터를 사용한다.

    그렇다면 적어도 향후 3년간은 지금의 코로나 바이러스 사태로 인해 오염된 데이터가 주는 왜곡으로부터 자유롭기는 불가능하지 않겠는가? [ #비즈트렌드인터프리터 ]

     

    과거에 특별한 그리고 심각한 변동이 없었던 시절에서의 분석과 같은 방식의 모델링 방식으로는 코로나 이후의 세상을 모델링할 수 없다는 벽에 부딛혀 있는 시점이다.

     

    #트렌드인터프리터 #비즈트렌드인터프리터

    https://www.facebook.com/bztrendinterpreter/