알파고를 분석하며 배우는 인공지능

딥러닝, 몬테카를로 트리탐색, 듀얼 네트워크, 강화 학습 구조 이해하기

알파고를 통해 인간의 지혜를 넘어선 한 수의 비밀을 탐구한다!

바둑계의 양대 산맥이던 이세돌과 커제를 이기고 전설이 된 바둑 인공지능 알파고. 이 책은 알파고를 탄생시키고 성장시킨 딥 러닝, 강화 학습, 몬테카를로 트리 탐색에 대해 자세히 다룹니다. 알파고의 차기 버전인 알파고 제로에 대해서도 알아봅니다. 인간에 의해 개발되고 학습되었지만 인간의 지능을 능가해 버린 인공지능의 구조와 원리를 탐색함으로써 무궁무진한 인공지능의 발전 방향을 모색합니다.

알파고를 통해 인간의 지혜를 넘어선 한 수의 비밀을 탐구한다!

인공지능은 어떻게 인간의 두뇌를 뛰어넘도록 설계되고 진화했을까?

이세돌을 비롯한 많은 프로 바둑기사를 제압한 알파고를 통해 인공지능의 구조와 원리를 파헤친다!

2016년 3월, 이세돌 9단과 알파고의 세기의 대전이 열렸다. 결과는 4승 1패로 알파고의 승리. 2017년 5월에는 커제 9단과 알파고의 대국이 열렸다. 결과는 알파고의 3연승. 이후 알파고의 진화는 계속되었고, 2017년 10월에는 알파고 제로에 관한 논문이 발표되었다. 그리고, 알파고 제로는 기존 알파고에 100연승하였다. 이렇듯 인공지능 기술은 일취월장하고 있으며, 특히 머신 러닝, 딥 러닝, 강화 학습 분야에 주력하고 있다.

저자 오츠키 토모시는 《네이처》에 게재된 알파고 및 알파고 제로에 관한 난해한 학술 논문을 읽고 해석해서 알파고에 이용되는 딥 러닝, 강화 학습, 몬테카를로 트리 탐색과 알파고 제로에 이용되는 듀얼 네트워크의 구조에 대해 알기 쉽게 설명했다. 이 책을 통해 최신 인공지능 기술이 알파고 및 알파고 제로에 어떻게 이용되는지 파악하고, 이를 다양한 연구 개발에 활용하기 위한 아이디어를 얻을 수 있을 것이다. 

책 속으로

머신 러닝이란 컴퓨터에 ‘학습’을 시켜서 어떤 태스크에 대한 컴퓨터의 ‘예측 능력’과 ‘판별 능력’을 향상시켜 나가는 방법이다. 컴퓨터는 모든 국면을 기억할 수 없지만, ‘비슷한 국면에서 유사한 수가 좋은 수가 될 것이다’라는 것을 가정하여 배후에 있는 규칙성을 구하는 것이 목표다. _22쪽

CNN에서는 필터 가중치가 공유되므로 모든 링크에 독립적인 가중치(파라미터)를 주는 전체 결합 네트워크와 비교하면 학습해야 할 파라미터의 수가 적다. 예를 들어, 만일 3 × 3의 필터가 16개인 경우, 파라미터의 수는 입력 16개, 출력이 16장인 경우(16 × 16 × 3 × 3) 약 2,300개가 되며, 이는 1계층 당 약 8만 개나 되는 전체 결합 네트워크보다 압도적으로 적다. _51쪽

Q 학습의 경우 처음에는 모든 가치가 0이라는 초깃값부터 시작한다. 또한, 인접하는 칸의 가치를 바탕으로 가치 함수를 갱신하므로 첫 번째 에피소드에서는 보상을 얻을 수 있는 출구의 직전 칸 가치만이 갱신된다. 그것이 에피소드가 진행됨에 따라 시작 측에 가치가 전달되어 가는 과정을 확인할 수 있다. 결국 최단 경로에 해당하는 칸의 가치가 높아진다. _122쪽

‘CrazyStone’의 개발자 레미 쿨롱에 따르면 몬테카를로 트리 탐색은 단 1줄의 변경으로 굉장히 강해졌다고 언급했다. 그 개선은 플레이 아웃의 결과를 ‘땅 크기의 차이’가 아니라 ‘승리 또는 패배’로 변경한 것이다. ‘승리 또는 패배’보다 ‘땅 크기의 차이’ 쪽이 정보가 많으므로 언뜻 보면 더 나은 평가가 가능해 보인다. 정보를 적게 하는 편이 좀 더 잘된다는 점은 의외로 느껴진다. _186쪽

게임 AI에 강화 학습을 적용할 때의 장점은 지도 학습의 경우 필수가 되는 훈련 데이터가 필요 없다는 점을 들 수 있다. 따라서 원래 플레이 데이터를 얻기 어려운 게임이나 이미 강해져 교사 데이터를 만들기 어려운 AI에 대해서는 효과적인 기술이다. 한편, 강화 학습을 적용하는 다른 장점으로, 아무런 지식도 없는 상태에서 사람과 비슷한 지식수준이나 지금까지 알려지지 않았던 새로운 지식을 획득할 수 있다는 점을 들 수 있다. _248쪽

알파고를 분석하며 배우는 인공지능
댓글
읽어들이는 중...