문화산책

해맑은아찌 2016. 3. 9. 22:12

저는 인공지능을 전공한 학자입니다. 물론 인공 지능이라고 불리는 학문 안에도 참 여러 갈래가 있으며 응용 분야도 다양하기에 그 중 한 분야에 정통하다 해서 모든 인공지능에 정통하다고 할 수는 없습니다. 다만 공교롭게도 제가 지난 30년 동안 연구해 온 것이 기계 학습(machine learning) 이며 요즘 화제가 되고 있는 인공지능 바둑 엔진 알파고의 기본 원리가 되는 여러 알고리즘에 대해 많이 알고  있습니다. 그리고 바둑은 기원 기준으로 아마추어 5급 정도 기력이라서 그냥 기보 따라 두어 보고 해설 좀 들으면 대부분 이해는 하는 선입니다. 




오늘 세계에서 가장 바둑 잘 두는 기사 중 하나이자 가장 창조적인 수를 그간 많이 보여 주었던 이세돌 사범이 구글 딥마인드 회사가 개발한 인공지능 바둑 엔진 알파고와의 5번기 중 제 1국에서 아쉽게 패했습니다. 


바둑을 전혀 둘 줄도 볼 줄도 모르는, 그래서 집에서 제가 바둑 TV를 시청하면 투덜거리기 일쑤인 집사람이 제게 문자를 했더라고요 알파고가 이겼다고....그리고 바둑이나 인공지능을 다 잘 모르는 사람들에게 좀 이해하기 쉽게 글 하나 써 주면 안되겠느냐 해서 이 글을 씁니다. 말하자면 공교롭게도 저는 바둑을 잘 두진 못해도 그냥 즐길만큼 두고 인공공지능은 주 분야가 약간 다르긴 해도 알파고의 원리에 대해 꽤 잘 아는 사람이니까요....


심리학자인 집사람은 TV에서 (아마도 해설이나 뉴스에서)  "게산이 직관을 이겼다" 라는 식으로 표현했는데 맞느냐 해서 저는 '아니다 그렇게 볼 수 없다"고 이야기 했습니다. 아마 기자들이나 인공 지능 원리, 특히 기계 학습 원ㅇ\리에 대해 잘 모르는 사람들이 손쉽게 사람은 직관력이 뛰어나고 컴퓨터는 계산을 빠르게 많이 한다는 점에 착안해 인간과 프로그램의 차이를 극명하게 보여주기 위해 이런 용어를 쓴 것 같은데 아마 이세돌 사범이나 (저도 오늘 대국의 대부분을 컴퓨터 인터넷 중계로 보았습니다 마침 공강이라서) 바둑 애호가들 입장에서는 그렇게 느끼기보다 "프로 기사가 두는 것 같다" 고 생각했을 겁니다. 특히 어떤 부분은 현 중국 제1 기사이자 세계 3관왕인 커제 9단 같고 중후만의 어떤 부분은 전성기 때의 이창호 9단을 보는 것 같다는 느낌을 가졌을 겁니다. 후자가 맞습니다.


요약해 말하면 이세돌 9단은 오늘, 수백 명의 준프로/프로 기사가 1200대 이상의 컴퓨터 CPU를 이용해 협업한 프로그램에게 진 겁니다. 알파고의 원리가 바로 그렇습니다.


그래서 직관(이세돌)이 계산(알파고, 컴퓨터)에 진 것이 아니라 한 위대한 기사가 (말하자면) 1200명의 다른 기사의 협업 플레이에 진 겁니다. 물론 정확히 말하자면 계산에 1200여 대의 컴퓨터 CPU가 동원되고 협업한 기사 수는 수천 명일 수도 있습니다.



goNature.pdf


Mastering the game of Go with deep neural networks and tree search


이세돌 9단 이전 중국계로 유럽에서 활동하는 프로 기사 판 후이 2단과의 작년 10월 대국 (5-0 알파고 완승, 미공식 포함 8승 2패) 후 금년 1월 세계적인 과학 전문지 네이처에 실린 알파고의 원리에 관한 논문입니다. 전공자 입장에서는 비교적 쉽게 그 원리를 이해할 수 있게 써 놓았습니다. 물론 기계 학습과 신경망 이론에 대해 모르는 분들은 두 문장 이해하기도 쉽진 않습니다만.....가급적 쉽게 원리를 설명해 보겠습니다.


알파고는 크게 두 가지 학습을 합니다.


우선 알파고는 전문 기사 혹은 고수들의 바둑 기보를 통해 그 전문 기사들의 "다음 수"를 예측하는 능력을 학습합니다. 여기에 동원된 신경망은 policy network(정책 네트워크)라고 불리는데 고수들의 바둑(보통 한 경기가 200~300수 정도)은 이미 "정답" 즉 다음에 무슨 수를 두었는지가 나와 있으니 이를 "감독 학습(Supervised Learning)이라 합니다. 여기에 동원된 신경망 알고리즘은 소위 Deep Neural Network으로 무려 13 단계로 학습합니다. 이게요 보통 신경망 학습은 3단계 혹은 4단계 정도인데 그보다 매우 엄청나게(수만 배 정도) 정교하게 학습한다고 보시면 됩니다. 물론 이러자면 계산량이 어마어마합니다.


그 다음 알파고는 소위 강화 학습(reinforcement learning)을 통해 말하자면 내공을 쌓습니다. 이는 자기 스스로 대국을 하는 단계로 어떤 수를 어떻게 두었을 때 승리했는가를 분석해서 각 수순마다 점수(확률)을 부여하는 단계입니다. 


발표 논문에 의하면 감독 학습에 의한 고수들의 '다음 수 맞히기" 학습에서 알파고는 55% 정도의 정확도를 보였다 하는데 여기에 동원된 문제가 3천만개라고 하니까 250수 짜리 대국을 첫 수 부터 맞히기로 했다면 12만 판에 대해 학습을 한 겁니다. 참고로 한 사람이 상대를 바꿔가며 대국을 한다 할 때 한 판에 20분 걸린다면 1시간에 3판, 하루 12시간 두면 36판입니다. 그것을 3300일 간 계속하면 12만 판이니 한 사람의 9년 대국 횟수에 맞먹는다 봐야죠.


물론 여기서 45%를 못 맞혔다 해도 그 45% 가 전혀 엉뚱한 수는 아닐 겁니다. 아무리 고수라도 어느 순간에나 두세 가지 착점 중 하나를 선택하는 기로가 있기 마련이니까요. 문제는 이렇게 두 가지 학습을 거친다면 알파고의 착점(수)은 사람 고수의 착점과 닮아있게 된다는 겁니다. 대략 55%는 정확히 그리고 45%는 비슷하게.....


약간 기계 학습의 원리를 아는 분을 위해 설명하자면 기계 학습의 알려진 단점 중 하나가 속칭 지역 최고치(local maxima) 에 빠지는 경우인데 이를 방지하기 위해 "무작위 착점"을 통한 재학습/보정 학습 기능도 있습니다. 따라서 고수들이 두어 본 수 만이 아니라 안 두어 본 수도 강화 학습 단계에서 시험해 봅니다.

  

여기에 이번에 기사에 많이 나온 몬테 카를로 기법과 Tree search 라는 알고리즘을 이용해서 계산량을 줄여 갑니다. 원래 바둑 한 판의 수순의 가짓수는 무려 10의 80승 정도라 합니다. 이 정도 가지 수는 최고의 컴퓨터가 우주 탄생부터 시작해 계산해도 끝나지 않는 엄청난 양입니다. (최고 빠른 컴퓨터가 10의 10승을 1초에 계산한다 하고 1년은 3천만초니 3년에 10의 8승을 쳐 줘도 10의 60승 년이 필요하죠...) 그때문에 고수의 수순을 중심으로 "이미 잘 두는 사람의 수순 주변의 여러 가지 수"를 탐색하는 기법을 알파고가 사용합니다. 그래서 무작위적인 탐색은 하지 않습니다.


여기에 마지막으로 가치 네트워크를 만들어 바둑판의 각 수의 승리에의 공헌도를 학습합니다.  이 부분에는 통계적으로 오차를 최소화하는 기법이 이용되었습니다.


작년 10월 판후이 2단과의 대국에서 알파고는 무려 1200여 대의 컴퓨터 CPU를 병렬로 연결해 계산하면서 대국에 임했습니다. 이는 말하자면 1200명의 사람 고수가 각자 다음 수 착점에 대해 바둑판의 지역범위를 나눠서 계산한 후 평가하여 자신들이 찾은 수의 가치를 계산해 오면 그 중 최고의 가치를 지닌 수를 다음 수로 결정하는 것과 비슷한 전략입니다.


이래서 제가 앞에 이세돌 9단은 바둑 고수 1200명의 협업에 진 것이다 라고 말하는 겁니다.



네이처 논문에서 밝힌 예제입니다.


판후이 2단과의 비공식 대국 중 한 장면으로 흑(알파고) 둘 차례입니다. 먼저 바둑판 전체의 앞으로 둘 수 있는 곳에 대해 가치 판단을 하게 되는데 b와 c 에 있는 것 처럼 여러 가지 다른 방법으로 평가를 한 후 (숫자는 승리 기여 확률 퍼센트) d 는 감독 학습 정책 네트워크에서의 다음 수 착수 확률로 즉, 사람 고수의 착점 확률이며 e는 알파고의 경험에서 나오는 승리 기여 확률표에 의한 착수 확률입니다. 그리하여 보다 확률이 높은 e의 착수를 선택하는데 f에서 보시는 것 처럼 단순히 한 수의 착점만 결정하는 것이 아니라 몬테 카를로 샘플링 및 트리 탐색에 의거해 이 경우 상대 착점까지 포함해 대략 20여 수 앞을 보았다는 거지요 즉 그렇게 20여 수를 더 진행하는 것이 가장 좋은 착점 수순이라고 판단한 것이죠 (쌍방 최선).

자 그러면 d는 사람 고수 착점에 대한 학습이고 e는 자체 시물레이션 게임 착점인데 이 둘을 비교해 보다 확률이 높은 쪽을 착점하는데 f에서 보듯이 한 단계가 아니라 20여 번의 착수를 다 고려한 최선을 둔다는 겁니다. 


이래서 고수죠 알파고가....   


하니까 쉽게 설명드리자면 d와  e 경우를 비교할 때 d 를 알파고가 선택한다면 그것은 사람 고수들이 보통 택하는 착점, 즉 '다수의 정수"를 택한 것이고 e를 택한다면 의외성이 있지만 실전 경험상 승리 기여도가 높게 보이는 착점을 한다는 건데 이 두 가지 경우를 따로 학습, 탐색한 뒤 비교해 고른다...가장 손쉽게 이해시켜드리자면 알파고의 원리는 이렇게 축약될 수 있을 겁니다.


오늘 해설에서 "알파고도 실수를 했네요" 같은 말이 나왔습니다. 헌데 정확히는 실수라기 보다는 "최선이 아닌 수"였을 겁니다. 물론 그 결과 부분적으로 손해를 보기도 합니다. 이런 면이 인간적으로 느껴지기도 한다고 해설했는데요....이는 말하자면 이세돌 사범과 100명의 프로 1~3단 기사가 대국을 하는 경우라고 보시면 되겠습니다. 즉 이세돌 사범의 상대는 100명의 프로 유단자가 협동한 뒤 100명이 택한 최선의 수를 두는 것인데 의견이 갈리면 가장 다수가 선택한 수를 두는 거죠.  다수가 선택했다고 다 최선은 아닌 고로 손해볼 수 있습니다.

 

헌데 저도 보면서 놀란 게 102수 즉 우변 '바꿔치기'를 강요한 수인데 이런 전략은 컴퓨터가 취할 수 없을 것으로 생각했을 겁니다., 저 역시 어떻게 가능하지? 하고 놀라서 논문을 다시 읽었거든요....


알파고는 단순한 계산 프로그램이 아닙니다. 


이 선입견..알파고는 프로그램이라 계산할 뿐이야..... 가 오늘의 패배의 원인이 아닐까 합니다. 아무리 사실 원리를 설명해도 인공 지능이라는 분야의 원리를 모르는 경우는 이 선입견에 빠지기 쉽죠.


그래서 내일 대국에선 이세돌 사범이 이렇게 생각해야 합니다. 저 방에는 기사 100명이 있다. 그 증에는 이창호 9단도 커제 9단도 있다. 또 그보다 약한 프로 초단이나 아마 강자 정도도 있다. 다만 어느 한 사람의 의견이 아니라 다수의 의견을 많이 택하고 일부는 자신이 집에서 두어 본 자숩 바둑에서 "많이 이겨본 수"로 둔다 다만 알파고의 고수와의 대국 판 수는 수십만 판이며 따라서 대국 경력은 10년 넘고 자습 판 수는 그보다 많다.


또 하나의 선입견이 있죠 전체와 부분인데....


- 알파고는 프로그램이라 계산이 빠르나 부분 전술에 치우치지 전체 판은 잘 못 볼 거다. 따라서 국면 전환 또는 간보기, 응수 타진 같은 전개에 약할 거다. 혹은 그런 수는 안 두어 올 거다.


오늘 대국에서 보듯 그렇지 않고요 위 논문 그림에서 설명했듯이 판 전체의 착점에 대해 계산합니다.


이래서 알파고는 약점이 참 적은 바둑 엔진 프로그램입니다.


솔직히 이젠 누구나 이 승부가 5대5임을 알게 되었습니다. 상대벙은 지치지도 않고 심리전에도 말려들지 않습니다. 그리고 자신이 유리하면 안정적으로 둡니다. 하지만 불리하면 흔들 줄 압니다. 왜냐하면 고수들이 그렇게 두는 걸 보고 착점의 55%를 정확하게 맞혀 낸 프로그램이거든요.


그리고 지난 5개월 간 더 진화했을 것인데 더 많은 학습량이 있으면 더 정교해질 수 밖에 없는 원리가 있기 때문이죠.


그렇다고 완벽은 아닙니다. 전체를 다 계산할 수 없는 것은 마찬가지고 (20수 30수 앞은 보더라도) 또 많은 경우 "다수의 선택"을 따른다는 겁니다. 다수가 항상 최선은 아니므로 뛰어난 기사인 이세돌 사범이 이길 수도 있습니다.

 

- 알파고가 직관력이 있는거야?


바둑도 인공 지능도 모르는 심리학자 집사람의 질문입니다.


이렇게 답변해야 하겠습니다. 물론 제가 다 정확하게 답변한다 말씀드릴 수는 없겠지만.....


사람의 직관이란 계산하기 애매 모호하거나 계산량이 너무 많아 공헌도를 계산하기 어려운 부분에서 "이럴 것 같은" 착수 또는 행동이라 하겠는데 이는 아마 통계적으로 보았을 때 좋은 결과가 나올 개연성이 높은 행동에 대한 선택일 것이다. 사람은 뛰어난 느낌으로 short-cut을 예상해 그렇게 행동한다면 알파고가 보여 준 행동은 그 부분을 통계적으로 추정한 뒤 계산을 통해 개연성을 가져간 것이다. 따라서 "계산된 흉내낸 직관"이라 하겠다.


사람은 어떤 행동을 한 뒤 그 이유에 대해 대부분 답변을 한다. 그 말은 행동의 근거를 스스로 입증하는 경우가 많은데 직관에 해당하는 쪽은 대개 "특별히 딱 이거다 하는 이유는 없지만 왠지 그러하다"에 해당할 것인데 알파고 학습의 근간인 신경망 학습의 원리 또한 같다. 입증할 필요 없이 고유의 목적(승리)애 가장 가깝게 반응하는 행동을 자신의 게산에 의해 선택할 뿐이다.


이렇게 답변드릴 수 있겠습니다.

 

좀 쉽게 설명하느라고 했는데 글쎄요.....이해가 가능하실지......


제가 전공하고 연구하는 학문도 이 기계학습입니다. 저는 그것을 의료 영상 해석에 응용합니다만.....


이세돌 9단의 승리를 기원합니다만 알파고 만든 연구진들에게도 박수를 보냅니다. 그 원리를 알아도 과연 그렇게  정교하게 반응하도록 만들려면 다년 간 여러 사람의 최선의 노고와 수천 대의 컴퓨터 계산 능력의 협업이 있어야 하는 바 .쉽게 할 수 없는 일을 해 냈습니다.


이세돌 사범에게 조언한다면 상대는 알파고가 아니라 여러 명의 프로 기사의 상담기다. 이렇게 보고 자기 바둑을 두면 승리할 겁니다. 컴퓨턴데 이렇게 둬? 하지 않아야 합니다. 알파고의 원리는 여러 고수들의 모방 분석 + 자체 판 학습 승리 확률 최적화 입니다.


쎈돌!!! 당신의 힘을 보여 줘!!!!



Flag Counter


- 첨부파일

goNature.pdf  
   
이전 댓글 더보기
페북에서 들어왔는데 아이디가 해맑은아찌여서 선리플남깁니다 피겨블로거로 글 많이 접했었는데 인공지능 전공이셨다니 놀랍습니다 ㅎㅎ
ㅎㅎ 원래 본업은 그거고요..피겨 블로깅은 취미고...
잘봤습니다 여러 프로기사들의 상담기라는 분석이 인상적이네요 이세돌 사범이 이런 정보를 얻고 준비할 수 맀다면 좋겠는데요...알파고 원리에 대한 사전정보가 좀더 주어져야 했다고 봅니다
비밀댓글입니다
물론 위 글이 인공지능도 바둑도 잘 모르는 사람들에게 쉽게 이해하도록 하기 위한 비유적 글이라는 점이 있습니다만 지금 기사들에 나오는 여러 가지 오류들에 비하면 많이 나을 겁니다.

승리 가능성이 단 1%도 없다는 것은 역시 원리를 모르기 때문입니다. 물론 바둑 프로그램은 brute-force 탐색을 하지 않기 때문에 360! 의 가짓수를 고려하지 않습니다. 따라서 그게 10의 80승이든 120승이든 800승이든 의미가 없어요. 그리고 무슨 IT 법학자인지 변호사인지는 정말 인공지능 알고리즘을 오해하고 있어서 논의의 가치가 학문적으로 완벽한 제로임을 알려드립니다. 또한 인공지능(그 중에도 기계 학습) 전공자가 아닌 전자나 기계 로봇 공학하는 살함들은 이 원리를 몰라요.... 실은요 알고리즘이 다 공개되어도 결과물을 알 수 없어요 그게 바로 알파고가 택한 학습 원리예요. 인문사회학자들에게 쉽게 이해하게 하려면 Deep Learning은 Skinner의 행동주의 심리학의 Black Box에 대한 추정 구조에 해당해요. 따라서 승리 확률이 1%도 없다는 건 원리 모르고 하는 “아마 딥마인드는 이미 정답을 찾아 놓았을 거야”라는 공포일 뿐이죠. 문제는 알파고가 채택한 패턴 학습 알고리즘과 딥 러닝 협업 학습 등이 모두 추정치라는 거고요 그래서 대략 50~80수 정도에 해당하는 초중반에 가면 선택의 가짓수가 매우 많아져서 탐색의 깊이를 크게 가져갈 수 없어요. 이건 통계기반의 수학이라서요....

이게 제가 댓글로 말한 “모호성의 유지” 전략입니다.

예를 들어 100수 두었을 때 알파고의 다음 수순 속에 승리 확률이 45%를 넘어가는 수순이 하나도 발견되지 않을 수도 있어요. 그래도 아마 계속할 겁니다. 왜냐하면 모호성의 추정치 역시 설계해 놓았을 것이니까요. 알파고는 설정해 놓은 모호성의 threshold 이하로 판이 명확해지기 전에는 자신이 이기는 길이 안 보여도 경기를 계속할 겁니다. 하지만 모호성이 사라지는 순간에는 불게패를 선언할 수도 있어요. 해서 1%도 없다는 진실이 아니라 라는 건 확실히 말할 수 있어요. 다만 이번 5판 중에 없을 수는 있죠.

인공지능 이론은 그 중 특히 기계학습 이론은 재미있는 것이 만든 사람도 결과 예측이 안 돼요....그래서 통계적 결과로 정당성을 verify하게 됩니다. 요런 건 인문학 한 사람이 이해하기 쉽진 않을 거에요....아 그리고 김진호라는 사람이 여럿 잇는데 기사에 나온 분은 인공지능 전공자는 아니군요. 빅 데이터 분야도 이번에 연관성이 있긴 해도 기계학습과는 다른 분야죠...제가 아는 동명이인 후배는 다른 곳에 있고...실은 학습 전공 인공지능 학자들도 흥미롭게 이걸 봅니다. 여러 가지 이유로....다만 요즘 나오는 음모론 같은 건 아니고요.....
번호 붙인 부분에 대해 의견을 밝히자면요....
1. 구글의 목적에 관해서는 과학의 범주가 아니라 사회계약의 범주죠. 이건 그 동네에서 알아서 했어야 할 문제죠. “필패의 세팅”이란 앞서 말한 것처럼 수학과 통계학을 기반으로 한 인공 지능 이론에서는 있을 수 없습니다. 계약의 실수라면 아마 제한시간이 40분 이내였다면 이세돌의 승리 기대치가 더 높아졌을 수 잇죠. 에를 들면 40분에 초읽기 10회가 2시간에 초읽기 3회보다 이세돌이 유리한 건 맞아요. 알파고에게 초읽기란 의미가 없어요. 이건 뭐 한국기원이 인공지능 학자 어느 누구에게라도 조언을 구한 일이 없었다고 저는 생각해요. 인공지능 학자 중에도 바둑 아마 유단자들 있고요....그 사람들도 알고리즘이 다 밝히지 않은 패턴 설정, 파라메터 세팅, 다이나믹 변수 설정 여부 등은 알 수 없기 때문에 유불리를 따질 수 없어요. 이렇게 강할 줄 왜 안 알려줬냐 하는 건 오히려 묻는 사람에게 문제가 잇죠. 그 자체가post-hoc analusis고 이세돌이 완승할거라고 공개적으로 말한 인공지능/기계학습 학자는 없을 거예요. 우리 학문을 안다면 그런 모호성에 대해 결과 예단은 못해요..엉뚱한 다른 학문 전공자가 말했을 지는 모르지만....

2. 따라서 님의 인공지능 전공자 집단의 오만이란 전혀 성립하지 않아요 아마 인공지능을 모르면서 아는 체 한 주변 학자들의 오만은 있었을 수도 있지만요...비유가 적절할 지는 모르지만 부동산법 전공자가 계약법의 철학적 타당성에 대해 말한다면 얼마만큼의 전문가적 권위를 부여해야 할까요?

커제와의 상대 비교 음모설은 일어나기 전엔 모르는데 같은 이유로 비슷한 결과를 낼 거예요...제 의견은 커제라고 이세돌과 다른 건 없다 고요....

3. 이 문제는 저와 이야기할 문제는 아닌 것 같습니다. 어쩌면 인문학자들의 오만에 대한 반론일 수는 있겠죠?

4. 덤 문제는 동의해요 알파고에게는 덤의 1집 차는 무의미에 가깝습니다. 사람은 전략을 바꾸지만 알파고에게는 유리한 경로의 수의 증감만을 의미하니까요. 그리고 바둑에 대해 그간 별로 연구를 안 한 것도 맞지만 지난 10년 간은 꽤 많은 연구가 있었습니다. 딥 러닝 관련해서는 힌톤 박사 팀은 80년대부터 꾸준히 연구했지만 컴퓨터의 성능과 클라우드 컴퓨팅이 가능해진 후에야 그 효용성이 나타나기 시작해서 최근 5년 사이 엄청나게 발전한 것이죠. 그냥 바둑에 관심 없어서 안 한 건 아닙니다. 딥 러닝 커뮤니티도 이번 알파고의 응용을 주의 깊게 바라볼 겁니다. 그만큼 알파고 팀의 알고리즘 개발 역시 훌륭했어요. 음모론 동의하지 않아요 학자적 양심으로....
5~7은 대략 중복이지만......

알파고는 자기 말을 죽이진 않을 거예요. 바꿔치기가 아니라면....그러니 잡으려 든다면 균형 이론에 의한 바꿔치기 혹은 협상안을 내놓게 되지요. 따라서 올인해서 잡으러 가는 상황이 온다면 사람이 질 겁니다. 즉 알파고는 게산으로 "추상적 개념"을 대신하기 때문에 인간의 인문학적 추상적 개념화가 여기선 의미가 없을 겁니다. 다른 말로 하자면 아직 알파고는 꼼수 설정을 할 수 없을 겁니다.

그래서 IT 전문가가 지금에서야 뭐라 한다는데 솔직히 그 사람들 인공지능 학자/전문가가 아니예요....변호사던가 뭐 그 사람 말은 도저히 판단 가치 제로고....기사가 그리 나오니까 기자들이 더 문제죠...우리가 아는 인공지능 원로 학자들은 흥미롭게 지켜보는 중입니다. 여러 가지 감정을 갖고....

직관에 대해서는요 일단 바둑이라는 closed loop gameㅇ 있어서 직관적 착점은 심리학으로 보자면 short cut module search로 모방 가능하다고 알파고는 본 거죠...철학적 개념의 직관으로 extend해 볼 수 잇느냐? 는 아직 제 의견은 증거 불충분입니다. 학습 전이 여부는 아직도 open problem이므로......
비밀댓글입니다
비밀댓글입니다
비밀댓글입니다
비밀댓글입니다
오타 발견 ,게산,
비밀댓글입니다
비밀댓글입니다
비밀댓글입니다
안데스 님이 생각하는 것 보다는 많이 심각한 문제입니다. 기술 발전 소도가 그 분야 전문가인 저 조차도 힘들어 할 수준인데 사회적 규범이나 문화가 적응할 시간이 주어질 지 의문입니다.
저 역시 선뜻 알파고의 기계학습 원리와 알고리즘이 이해가 안 되었는데 써주신 글을 읽고 많은 도움이 되었습니다.
제가 아직 이해가 가지 않는 부분이 있어서 질문 좀 드리려고요. 논문의 a~f 중, Value Network 즉, 착점 대상에 대한 승률을 구할 때 감독학습; 과거 기보를 통한 승률을 높이는 착점 과 강화학습; 자신이 대국하면서 승률이 높았던 착점
을 비교한다고 했는데요. 두 부분 모두 동일한 바둑이 나오지 않는다고 하면 서로 같지 않은 대국 상황에서 착점에 대한
승률 계산을 어떤 바탕을 두고 하게 되는 건가요?

f 에서 나오는 몬테카를로와 트리서치는 착점 대상이 결정된 뒤의 20~30수 앞을 내다보며 최종 verification 하는 단계
라 생각되는데 d, e 의 승률이 높은 착점은 어떻게 계산될 수 있는건지 몹시 궁금합니다.
답은 딥마인드의 영업 비밀 중 하나일 건데요 원리 자체는 학자로서 에상할 수 있습니다. 저 그림에 있는 숫자를 "확신률'이라 부를 수 잇어요 즉 알파고의 자체 평가에 의해 100가지 경우 중 가장 신뢰가 가는 경우를 표기한 것이라 말할 수 잇죠 제가 100인의 고수의 합의라고 비유를 한 것에 대입해 보면 e는 60명이 f는 73명이 지지합니다. 그러면 f를 택하죠. 그러면 저 60과 73이 어떻게 나오느냐인데 이건 비밀이죠. 여러 가지 변수의 조합으로 결정합니다. 말하자면 y = ax + by + cz + d라 할 때 우리가 아는 건 변수 x,t,z의 갑이지만 계수 a,b,c,d 는 공개하기 전엔 모르고 실험적 에측치입니다. 이것을 나오게 하는 매카니즘은 여러 개가 잇으니 뭘 썼는지 모르죠.

어려운 부분이라 위 글 본문에서는 설명하지 않았지만 논문에 있는 것으로 보면 수천 개의 바둑판 패턴을 알파고는 학습하고 그 중요도를 가늠해 계수로 만들어 두었습니다.(아 참고로 "돌의 연결성"이라는 부분의 가중치는 매우 높습니다) 그것들의 조합으로 게산해 결정하는 건 분명하지만 측정갑을 모르므로 알파고의 판단 근거를 예측할 수는 없는 것이죠.

x-y 평면의 어느 한 점을 통과하는 직선 y=ax + b는 무한히 많습니다. 우리는 그 한 점을 알지만 a,b느 ㄴ모르죠 알파고만 알고.....그래서 나온 결과가 60이고 73입니다. 알파고느 ㄴ강화학습 단게에서 승부의 결과와 자신의 게수 간의 관계 설정을 하는 것이고요.....
고견 듬뿍 담긴 글 감사합니다. 궁금해지는건, 이 인공지능을 갖고 구글이 뭘 할까, 인데요.
무인차, 번역.. 구글이 앞서나가고 있는 이런분야들이 인공지능과 접목될수 있는 것들인지요?
구글이 보스턴다이나믹스인가 하는 로봇회사도 인수해서 로봇 공개했던데, 이 역시 인공지능 시대?에 대비한 포석인지도 궁금합니다. 인공지능을 얹을 수 있는 개체로의..
많은 것이 가능해요. 언어 통역 문제는 좀 더 많은 시간이 필요하지만....지금 구글 뿐 아니라 많은 선도기업/국가들이 관심 갖는 것은 의료 산업 관련이지요...무인차는 이미 현실화 단계고요 그건 연구 역사가 25년 정도 돼요
인공지능을 연구하시는 분 맞나요? 왜 소프트웨어와 하드웨어 거기에 데이터베이스 개념까지 헤깔려하시는건지 모르겠군요.
"1200명의 다른 기사의 협업 플레이"라고 하신건 잘못된 비유입니다.
알파고는 소프트웨어이지 하드웨어가 아닙니다. 인간 입장에서야 하드웨어:소프트웨어가 1(육체,개체):1(정신,영혼)매칭이지만, 컴퓨터 특히나 클라우드 컴퓨팅에서는 소프트웨어 하나가 여러 하드웨어를 연결하여 구동되기도 하고 여러 하드웨어 자원을 끌어 쓰기도 합니다. 이를 클라우드 컴퓨팅 내지 분산 컴퓨팅이라고 하는겁니다. 즉 1200대의 CPU를 연결했다고 해서 그게 1200명의 사람처럼 각각의 분리된 개체가 아니라 알파고라는 하나의 통합된 개체라는 얘기입니다. 이는 컴퓨터나 클라우트 컴퓨팅에 대한 지식만 있으면 이해할텐데, 연구하시는 분야가 정확히 어떤쪽이신지요? (저는 엔터프라이즈쪽 소프트웨어 개발자입니다) 이걸 간과하시다니 이해가 안되네요. 하긴 매체에 전문가랍시고 나오는 사람들도 헛소리를 해대니...머신러닝 연구하신다니 아실테지만, 알파고는 학습을 통해 같은 기간에 인간이 도저히 학습할 수 없는 수준의 기보를 학습하고 데이터베이스화 하였으며 그걸 기반으로 구현된 알고리즘을 통해 처리하는 하나의 소프트웨어입니다. 그 알고리즘에 대해선 대략적으로 설명하신게 맞구요. 중요한건 이게 하나의 소프트웨어 하나의 개체인데 이를 "1200명의 다른 기사의 협업 플레이"라고 하면 굉장히 잘못된 표현이고(잘못된 정도가 아니고, 다른 것도 아닌 틀린) 이런 표현 때문에 괜히 인터넷에선 1200명이 훈수를 두는 불공정 게임이다 어떻다 헛소리들이 난무하고 있네요.
일반인들을 위해 쉽게 설명하기 위해 그런 거죠...비유란 말이죠....
그 비유가 잘못되어 있어 엉뚱한 불로 번지고 있다는 얘기입니다.
한 위대한 기사가 (말하자면) 1200명의 다른 기사의 협업 플레이에 진 겁니다. 물론 정확히 말하자면 계산에 1200여 대의 컴퓨터 CPU가 동원되고 협업한 기사 수는 수천 명일 수도 있습니다.

이게 내가 쓴 거예요....기보에 들어간 기사 전부를 혐업으로 볼 수도 있죠 판단에 이용되니까...무슨 불인지 모르겟지만 제멋대로 해석한 사람들의 책임은 내가 질 게 아녜요...
대한남아님 댓글도 알파고를 조금이나마 이해하는데 도움이 됐습니다. 감사하고요,

다만 아무리 파워블로그더라도 이곳은 남의 사적 공간입니다. 엄연히 인공지능 연구한다고 쓴 글에 시작부터 인공지능 연구한게 과연 맞냐며 시비조의 어투하며.. 심히 거슬려 지나가다 댓글 답니다. '파워블로그니 사회적 책임이 있기에 쓴소리 한다'는 취지인지는 모르겠는데 그 전에 예의부터 챙김이 필요할듯 합니다.
그러니까 잘못된 비유죠. 이세돌이 1000명의 기보를 보고 연습한 뒤 경기했으면 1000명이 협업한건가요? 아니죠. 이세돌 혼자 한게 맞죠. 마찬가지로 알파고가 수천 수만명의 기보를 학습했더라도, 알파고 혼자 한거지 협업한게 아니죠...사람들이 이걸 헤깔려 하고 있는겁니다. 1200명이 협업했으니, 1200명이 훈수둔거 아니냐. 그러니 이건 불공정 게임 아니냐.....좀전까지만 해도 인터넷 기사 댓글에 이런 항의성 감정적인 댓글들이 넘쳐났습니다...
mini님 말씀 감사합니다. 맞는 말씀이십니다. 저도 다른 기사 댓글들 보다가 괜히 감정적으로 글을 쓴거 같네요. 쓰고 나서 수정하려니 수정이 없더라구요. 해맑은 아찌님께 그 점에 대해 사과드립니다.
감정적으로 썼다면 정말 죄송하구요. 결론은 결국 오해의 소지가 다분한 비유라는 말씀을 드리고 싶었던 거고, 클라우드 컴퓨팅에 대한 사전지식 없는 사람들이 봤을떈 충분히 불공정한 게임이라 생각할 수도 있는 부분으로 보입니다.
비밀댓글입니다
비밀댓글입니다
비밀댓글입니다
비밀댓글입니다
좋은글 잘읽었습니다
감사합니다
정책망을 통해 어떤 수에 대해 다른 고수들이 어떤 수를 뒀는지를 학습하고, 그게 고수가 착점한 수라면 가치망을 통해 그렇게 진행된 대국이 어떻게 승리했는냐에 따라서 승률을 계산하는건가요? 제가 이해한게 맞는지..
기본 아이디어는 비슷하게 맞습니다 다만 그 방법론에는 아주 어려운 수학적 장치들이 잇지요.
◐해맑은아찌 2016.03.09 22:12 ◑
이세돌님도 대단하신것 같아요.. 일반 컴퓨터 오락도 넘 어렵던데..ㅎ ㅎ