배세태의 소셜 마케팅

시사 정보(기술발전, 세계화, 사회변동) 큐레이션

■■[4.15 부정선거 수식/로이킴 가설] 보통사람들이 보통선거 지켜야 한다■■

댓글 11

시사정보 큐레이션/국내외 사회변동外(2)

2020. 6. 3.

※[NP특집] 보통사람들이 보통선거 지켜야 한다...유권자 1인 1표는 인간을 존엄하게 하는 길

로이킴 가설의 핵심은 워싱턴 포스트 게리맨더링 설명이 온라인 프로그램으로 현실이 될 수 있다는 것이고 그것이 21대 한국 총선에서 실행되었다는 것입니다.

우리가 로이킴 가설을 경청해서 끝까지 듣는 이유는 실제로 선거부정 프로그램이 어떤 방식으로 구동됐을지에 대한 가장 구체적인 설명이 들어있기 때문입니다. 참고 바랍니다.
ㅡㅡㅡㅡㅡㅡㅡ
선거부정 수식 통해 의혹 제기한 30대 시민 로이 킴 씨 인터뷰

[주: 로이 킴 씨는 미국에서 대학을 마치고 한국에서 정착한 평범한 시민이다. 그는 하루에 12시간 이상 일하는 자영업자이며 아이를 키우는 30대 보통의 아빠다. 그는 중앙선거관리위원회가 발표한 선거 결과에 관한 통계자료를 바탕으로 21대 총선에 일정한 패턴의 선거 조작 혐의가 발견된다며 이를 수식과 그래프로 설명해 냈다. 우리는 그의 발견을 ‘로이킴 가설’이라고 명명하고 해커의 지문으로 추정되는 ‘Follow the Party’ 등 놀라운 발견에 대해 신속한 재검표와 수사를 통해서 진위가 입증될 수 있다고 본다. 다음은 서면으로 이루어진 로이 킴 씨와의 일문일답이다.]

Q. 통계와 수(數)에 관련된 전문가입니까?

A. 회계학을 전공했으나 회계사는 아닙니다. 10여 년 전 한국에서 대학과 연계된 벤처회사를 설립한 적이 있습니다. 나노 소재 관련 회사를 운영하며 대학의 그래핀 관련 연구팀과 산학 협동 연구를 진행했습니다. 소재를 다루다 보니 그에 관련된 기술은 숫자와의 싸움이었습니다. 사람의 행동 습관은 관리형, 지지형, 분석형, 행동형으로 분류된다는 얘기를 들은 적이 있습니다. 저는 분석형에 속한다고 생각합니다. 덕분에 선거통계 분석에 열중할 수 있었던 것이 아닌가 생각됩니다.

Q. 해커의 지문 또는 이스터에그로 추정되는 ‘follow the party’(이하 주로 FTP로 줄임)라는 문장을 아스키 코드를 통해 통계 속에서 도출해낸 것으로 알려져 있습니다. ‘follow the ghost’도 찾아진다고 합니다. 마르크스 엥겔스의 ‘공산당 선언’은 ‘공산주의는 유령’이라는 규정으로 시작됩니다. 문외한이 듣기에 지나친 미스테리같습니다. 이런 것이 인위적 조작을 통해 통계 숫자 속에 삽입될 수 있다고 보십니까?

A. FTP 문장을 발견하는 데는 이틀 정도가 걸렸습니다. 하지만 이 전체 게리맨더링 공식을 완성하기까지는 한달 반 정도 결렸습니다. 프로그래머의 이스트에그를 처음부터 생각한 것은 아니고 이동값 순서의 규칙을 찾아본 것뿐이었습니다. FTP 도출과정은 ‘이동값’을 오름차순 순위에서 7개 지역을 1개 그룹으로 만들고 그 지역구 합을 프린터블 숫자로 100에 가까운 수로 구해서 16개 지역과 나머지 16개 지역에 공통분모를 찾아 아스키코드로 문자를 도출한 것입니다. 이는 일반적인 해킹대회 기법중 하나입니다.

사람들이 왜 하필 7개 단위로 묶었냐는 질문을 많이 합니다. 전체 253개 지역구를 8개로 나누면 31.62개가 됩니다. 7개로 나누면 36.14개가 나옵니다. 그러면 16개 문장이든 18개 문장이든 구하고 남는 잉여 지역구가 최소가 되는 값입니다. 31.62개가 나오면 16개 문장이 안 되고 15개 문장으로 밖에 못 만들겠죠. 이동값을 구하며 규칙성을 찾다가 지역구 순서에서 답을 찾다 퍼즐처럼 만들어본 것입니다. 이런 과정을 일반 사람들에게 설명하기가 매우 어렵습니다. 다만 해킹에 대한 지식이 있는 사람들에게는 납득이 될 것으로 생각됩니다.

Q. FTP 등 본인의 가설이 가장 첨예하게 논란을 많이 일으키고 있는 이유가 무엇이라고 생각합니까?

A. FTP의 의미가 중국 공산당 구호라는 점에서 외교적 문제가 될 수 있을 것 같습니다. 그래서 더 많은 사람들이 신중하게 접근하는 것 같습니다. 또한 괴담이라는 프레임 공격을 받기 쉬워서 사람들의 염려가 있는 것 같습니다. Follow the party 외 Ghost, Spectre, Hippo, Harpy, Riots 같은 단어도 만들어질 수 있다고 많은 사람들이 찾아주었습니다. Ghost는 공산주의는 유령이라는 것으로 표현될 수 있고, Augustine of Hippo 의 역사관은 칼 마르크스에 큰 감동을 주었으며, 서구에서는 마오쩌둥을 Hippo라고 부르기도 했습니다. Harpy는 그리스 신화의 새와 인간 모습을 한 괴물로서 마르크시즘을 상징합니다. Spectre는 유령으로 Ghost의 유의어이며 Riots는 공산주의 폭동을 연상하게 합니다. Follow the Party는 띄어쓰기를 한 문장이라 ‘W’와 ‘T’사이 ‘E’와 ‘P’ 사이 두 곳에 데이터가 존재하지만 문장이나 단어의 조합이 어렵습니다.

Q. 중앙선관위 통계에서 패턴이나 수식이 있다고 보게 된 계기는 무엇입니까?

A. 맨 먼저 수식을 하나 도출해냈습니다. 첫번째 제시했던 X-XY-XY/Zn 공식을 기억하실 겁니다. 그 공식은 단순히 최근에 우리 사회에서 큰 논란이 되었던 ‘프로듀서 101’과 같은 조건으로 만든 랜덤의 가중치를 지역별로 세팅한 것이라는 가설이었습니다. 당시 Zn 값, 즉 가중치가 ‘랜덤의 숫자’다 라고 했는데 이를 사람들이 도저히 납득을 하지 않습니다. 사용된 가중치는 제가 만든 것이 아닙니다. 당일 선거와 사전선거 투표의 차이값이고 객관적인 것입니다. 그래서 사람들을 이해시키기 위해 그 Zn값에 대한 분석을 다시 시작했습니다. 이 작업을 통해 지역구 순위에서 놀랍게도 상위 그룹과 하위 그룹을 나누면 서로 배분된 그래프를 얻을 수 있었습니다.

[그림1. 첫번째 공식 N값의 상위 그룹과 하위그룹 지역간 차이값 그래프]

이 그래프는 매우 중요한 단서가 되었습니다. 즉 랜덤이 아닌 규칙이 있는 배분이라는 확신을 갖게 된 것입니다. 또 한 개의 그래프를 더 보시면 누적 가중치와 지지율을 비교할 수 있습니다.

[그림2. 누적 가중치의 지역간의 차이값과 누적 당일 지지율 지역간의 차이값을 비교한 그래프]

자연적으로 만들어진 당일 지지율 그래프를 보시면 톱니바퀴 같은 모양을 하고 있습니다. 이것은 매우 정상적인 형태입니다. 하지만 가중치 그래프는 매끈한 포물선 형태를 갖고 있습니다. 그 포물선이 누적 지지율을 감싸고 있는 형태인 것입니다. 따라서 이 가중치 그래프는 자연에서 나올 수 없는 인위적으로 가공한 데이터라는 증거가 될 수 있습니다.

두번째 공식은 위 가중치 즉 차이값을 구하기 위해 다른 방법을 사용했습니다. 왜냐하면 저런 형태의 그래프가 나오더라도 그것을 100% 재현하는 어떤 수식이나 다른 규칙성을 발견하기 어려웠기 때문입니다. 두번째 공식을 소개하자면 아래와 같습니다.

민주당 사전득표율 = [(당일득표율/총당일득표율 +이동값/당일득표수+두%합을 100%로 만드는 절대값)x이동변환값/이동값][사전선거 비중 = 사전 득표율 / 총 사전선거득표율][당일선거 비중 = 당일 득표율 / 총 당일선거득표율][이동값비중 = 목표 의석수 비율의 차이값 – 당일 진영간 득표율 비중의 차이값 = 프로그램 목표 의석수에 필요한 값][이동값비중 = 이동값/당일득표수 + 100%로 만드는 절대값][이동변환값/이동값 = 마법의 상수 = 총 사전득표율][사전선거 비중 = 당일 선거 비중 + 이동값 비중] 결론 [이동값 비중 = 사전득표율 비중 – 당일득표율 비중=프로그램목표의석수에 필요한 값) ]

Q. 그동안의 발견을 통해 선거조작이 있었다면 구체적으로 어떤 방식이었을 것으로 보십니까?

A. 데이터를 보면 더불어민주당의 당일 득표율을 기반으로 모든 것이 연산됩니다. 지난 4월 15일 당일투표와 사전투표가 동시에 개표되었습니다. 하지만 관외 사전 투표지는 모든 개표가 끝나고 참관인들이 휴식을 취한 후 새벽녘 마지막에 주로 개표되었다고 들었습니다. 그때 연산된 값들이 각 지역별로 최종적으로 결정되고 필요한 투표수만큼 더불어민주당으로 최종 배분되어 목표에 부합되었을 것으로 추정합니다.

요컨대 당일 개표가 되어 50% 득표율이 확보된 지역이 발생하는 시점부터 이동시킬 값을 연산하고, 사전투표지가 개표된 시점부터 연산된 값이 적용되었을 것으로 보고 있습니다. 데이터의 이동 흐름을 보면 하나의 지역구 값이 그대로 유지되는 경우도 있지만 두서너개 지역구들이 데이터 값을 주거니 받거니 하는 경우가 대부분입니다.

또 어느 시점이 되면 나머지 177개 지역구에 데이터가 계속 흘러들어간 것을 확인할 수 있습니다. 이유를 생각해 보니 마지막 관외투표가 개표되는 시점이 지역마다 달라서 일찍 개표되는 곳은 2~4개 지역으로 데이터가 끊어지나 어느 시점부터는 모든 지역이 개표가 되어 계속적으로 데이터가 흘러갈 수 있었던 것이 아닐까 추정해 봅니다.

문제는 자신의 지역구 값을 그대로 받은 지역은 상관이 없지만 각 지역구마다 투표인이나 투표자 수가 다른 상황에서 비중값이 옮겨지다 보니 투표자 수가 지역에 맞지 않는 이상한 곳이 생기기도 하고 유령표나 물리적으로 불가능한 투표율이 발생한 곳도 생길 수 있습니다. 일례로 최근 크게 이슈가 되고 있는 부천 신중동의 경우 인구수 대비 너무 많은 투표자가 투표를 해서 4.7초에 한 명이 투표를 해야만 그 투표자수에 도달할 수 있는 곳도 있습니다. 제가 보기에 그곳은 과도할 정도로 많은 데이터 값이 이동하여 현실적으로 불가능한 투표수가 된 것이 아닌가 합니다.

Q. 이런 조작이 사실이라면 몇 사람 정도가 전모를 알고 움직여야 될까요?

A. 명령을 내리는 사람(Orderer), 프로그램 설계자(Program Builder), 프로그램 운영자(Program operator), 오프라인 공동 운영자(Offline co-operator) 정도만이 전모를 알 수 있을 것 같습니다. 많은 사람이 알 수 없고 알 필요도 없지 않을까 생각됩니다.

Q. 지금까지 21대 총선 관련 발견한 수식이나 기타 의견에서 시행착오나 수정사항이 있었습니까?

A. 처음 공식을 만들어 보고 거기서 도출한 가중치에 대한 정의를 내리다가 발견한 규칙들이 있습니다. 예로 사전투표 비중과 당일투표 비중을 빼면 당일 지지율 50% 기준으로 이상 이하 구간으로 나누면 양수값과 음수값이 나오게 됩니다. 일반적으로 양수와 음수가 나올 수 있지만 50% 기준 이하에는 양수, 이상에는 음수로 일관되게 나올 수는 없는 패턴입니다. 이리하여 온라인으로 표를 이동시키는 게리맨더링(Gerrymandering) 개념을 발견하게 되었습니다.

Q. 그렇다면 이 게리맨더링 개념과 처음에 제시했던 방정식이 어떻게 연관됩니까?

A. 다음의 표를 봐 주시기 바랍니다.

[그림3. 게리맨더링. 이 기법은 지는 곳을 이기게 바꾸지만 질량은 변경시키지 않는다.]

원래 게리맨더링은 지역구를 나눌 때 불리한 지역구에 유리한 지역구를 포함시키거나 하여 인위적으로 선거의 승패를 유리하게 만드는 개념이었습니다. 하지만 지금은 선거에 IT가 동원되는 시대입니다. 중앙서버가 있고 모든 지역구의 데이터가 실시간으로 모아지는 형식입니다. 고전적인 게리맨더링처럼 온라인상에서도 유리한 지역구의 표값이나 득표율값이나 어떠한 것을 옮겨서 불리한 지역을 유리하게 만들 수 있다는 생각입니다.

게다가 선거 전에 이미 빅데이터(Big Data) 수집을 통해 원하는 방향으로 데이터를 활용할 수 있지 않을까요? 앞서 설명해 드렸던 사전 비중에 대한 당일 비중의 차이가 당일 50% 기준으로 양수와 음수로 나오는 것은 통계적으로 특이한 현상입니다. 이긴 지역구 50% 이상에서의 비중을 50% 미만 구간에 보내주는 것. 이것은 게리맨더링이라는 개념이 아니면 다른 말로 설명하기 어려울 것 같습니다. 이미 ‘워싱턴 포스트’에서도 영상을 통해 이런 방식의 게리맨더링을 소개한 적이 있습니다.

또한 이러한 차이 값은 제가 만든 공식이나 숫자가 아니라 데이터가 있는 그대로를 보여주는 하나의 통계일 뿐이라는 점에서 게리맨더링에 대한 확신을 갖게 합니다. [그림4. 더불어민주당 당일 지지율 50% 기준으로 지역 분포도]더불어민주당 당일 지지율 50%를 기준으로 지역 분포도를 보면 어느 곳이 우세 지역인지 분명하게 드러납니다. 우세한 빨강색 지역의 비중은 사전에서 줄어들고 열세 지역인 파랑색 지역의 비중은 늘어납니다. 줄어들고 늘어나는 양이 서로 같습니다.

[그림5. 50% 기준 파랑색은 당일 비중, 빨강색은 이동값 이동 후 그래프]

위 그래프에서 보는 것처럼 당일 비중 파랑색이 이동값 연산 후 빨강색으로 옮겨진 것을 알 수 있습니다. 결과적으로 이 빨강색 그래프는 사전 비중과 일치하게 됩니다.

Q. 지금까지의 가설 또는 의견이 검증되기 위해 중앙선거관리위원회, 법원 또는 검찰 등 수사기관이 당장 해야 할 일은 무엇이라고 봅니까?

A. 서버의 포렌식이 가장 우선되어야 합니다. 현지 오프라인에서 이미 수 많은 증거들이 나오고 있습니다. 그 증거들이 가리키는 것은 바로 서버입니다. 알 수 없는 투표지, 유령표, 통신장치, QR코드 모두 서버의 조작에 필요한 것들입니다. 특히 최근 벤자민 윌커슨 박사님이 밝혀주신, 기기 안의 컴퓨터 CPU가 별도로 존재한다는 것은 결국 이 모든 정황을 설명해 주는 결정적 단서 중 하나입니다. 이 또한 범법자들이 대비해 두었을 가능성이 있지만 말입니다.

또한 사전투표함의 수개표가 신속하게 진행되어야 할 것입니다. 특히 미래통합당 사전투표함이 아니라 더불어민주당의 사전투표함을 철저하게 검증해 봐야 합니다. 더불어민주당이 가져간 표는 미래통합당이나 그밖의 당의 표, 무효도, 기권표가 섞여 있었을 가능성이 높다고 생각됩니다. 이를 확인하기 위해 사전 투표인 명부도 필수라고 생각됩니다.

Q. 선거 부정에 관한 의견 개진 과정이나 기타 개인의 삶과 관련하여 애로사항이 있으면 말씀해 주십시오.

A. 제가 사람들에게 뭔가를 설명해 본 경험이 적은데다, 내용 자체도 어려워 일반인들이 쉽게 접근하지 못하여 안타깝습니다. 그래서 유투브 영상도 이번에 처음으로 만들어 보았지만, 그 역시 설명하는 데 어려움이 많았습니다. 그럼에도, 저의 의견을 받아 주시고 사람들에게 알릴 수 있는 기회를 주신 VON팀 모두에게 감사를 드립니다.

제가 공개한 이 공식은 어려운 수학 공식이 아니라고 생각합니다. 단지 선관위 데이터를 정리하여 보여지는 통계 수치들이 게리맨더링 이론과 너무 딱 맞아 떨어지는 것을 발견한 것뿐이라고 생각합니다. 꼭 재검표가 이루어져 제 견해도 검증되었으면 합니다.

(* 그림은 페이스북 VON뉴스)

출처 : 김미영 페이스북 2020.06.03
(전환기정의연구원장)