구글 딥마인드, 네이처에 소개
'AI신기원'... 스스로 바둑 깨우쳐
인간 최고수들을 잇달아 격파한 바둑 프로그램 '알파고'를 능가하는 최신 버전 '알파고 제로'가 공개됐다.
구글 딥마인드의 창업자인 데미스 허사비스 최고경영자(CEO) 등 이 회사 소속 연구원 17명은 18일 이런 내용을 포함한 '인간 지식 없이 바둑을 마스터하기'(Mastering the game of Go without human knowledge)라는 논문을 과학 학술지 '네이처'에 발표했다.
알파고 제로는 바둑 규칙 외에는 아무런 사전 지식이 없는 상태의 신경망에서 출발한다. 바둑판만 놓고 '셀프 바둑'을 두면서 스스로 바둑의 이치를 터득하는 것이다. 승률을 높이는 좋은 수가 어떤 것인지 데이터를 스스로 쌓으면서 알파고 제로가 바둑을 이해하는 수준이 점점 높아진다.
이 학습 방식은 생물의 뇌에서 실제로 작동하는 '강화 학습'과 유사하다. 개에게 먹이를 주면서 '앉아' 등 특정 행동을 훈련시키는 것과 비슷하다. 작년 3월 '구글 딥마인드 챌린지'에서 이세돌 9단을 4대 1로 이긴 버전('알파고 리'로 지칭)과 비교해 보면, 알파고 제로는 독학 36시간만에 이 버전의 실력을 넘어섰다.
알파고 제로는 교과서나 기보는커녕 대국 상대조차 없이 순수한 독학으로 바둑을 익혔는데도, 인간 고수들과 기존 알파고 버전들을 압도하는 능력을 갖추게 됐다.
이는 인간이 미리 정해 놓은 정석을 외우거나 기보를 학습하는 방식으로 바둑을 배웠던 기존 버전들과는 다른 점으로, '인간의 한계를 뛰어넘는' 인공지능 연구의 중요한 이정표가 될 것이라고 연구진은 강조했다.