"나머지 4판도 알파고가 승리할 것"
[뉴스핌=김선엽 기자] 지난해 10월 판 후이를 상대할 때의 알파고가 아니었다. 다섯 달 만에 무서운 속도로 성장해 이세돌 9단을 눌렀다. 아직 경기가 4번이나 남았지만 알파고의 성장 속도는 인간과는 비교할 수 없는 수준인 것이 드러났다.
지난달 23일 이 9단은 알파고의 실력을 “3단 정도에서 왔다 갔다 하지 않을까 싶다”고 평했다. 알파고와 판후이가 펼친 대국을 본 소감이었다.
그러나 알파고의 성장 속도는 인간의 상상을 뛰어넘었다. 지난 4개월 간 알파고는 기보 100만여 개를 학습해 실력을 키운 것으로 알려졌다.
특히 알파고는 이번 대국에서 '기계스럽게' 두기보다는 오히려 매우 '인간적인' 바둑 기술을 선보인 것으로 평가받고 있다.
알파고와의 대결에서 패배를 기록한 이세돌 9단(오른쪽)이 9일 오후 서울 종로구 포시즌스호텔 서울에서 열린 '구글 딥마인드 챌린지 매치'에서 대국을 마친 뒤 기자회견에 참석해 취재진의 질문에 답하고 있다.<사진=이형석 사진기자> |
이날 TV중계를 진행한 김효정 프로는 "복잡한 싸움을 알파고가 유연하게 했다"며 "사람이 두는 듯한 느낌을 받았다"고 말했다.
이처럼 알파고가 기존 인공지능 바둑 프로그램에 비해 탁월한 실력을 보일 수 있었던 것은 강화학습과 인공신경망 덕분이다.
사람이 1년 동안 공부하는 기보의 수는 1000개지만, 알파고는 5주 만에 프로기사들의 기보 16만개를 학습한다.
소프트웨어정책연구소 추형석 선임연구원은 "그동안 쌓여온 바둑의 정수를 알파고는 순식간에 학습했다"며 "이에 그치지 않고 스스로 대국하여 훈련을 했으며 이것이 강화학습"이라고 설명했다.
착수를 결정하는 부분에는 기존 몬테카를로 트리 탐색(Monte Calro Tree Search, MCTS) 기법에 정책망과 가치망을 동원했다.
MCTS는 바둑 인공지능에서 가장 널리 사용되는 알고리즘으로 무한대에 가까운 탐색의 폭과 깊이를 줄이는 역할을 한다. 탐색의 폭을 줄이는 것은 정책(policy)으로, 다음 수를 어디에 두는 것이 가장 좋은가에 대한 역할을 한다. 탐색의 깊이는 가치(value) 값으로 정해진다.
이것은 현재 대국에서 승산을 근사적으로 표현한다. 따라서 MCTS의 성능은 정책과 가치의 정확도에 따라 좌우된다. 알파고는 이 정책과 가치를 딥러닝으로 구현한 것이다.
김성완 양산대학교 게임콘텐츠학과 겸임교수는 "알파고가 오늘 경기 이후로도 학습하면서 그 실력을 일취월장 늘려나갈 것"이라며 "첫 판을 이기지 못했기에 나머지 4판도 이기지 못할 가능성이 커졌다"고 말했다.
[뉴스핌 Newspim] 김선엽 기자 (sunup@newspim.com)