트렌드북 #24, 단단한 머신러닝

간결한 설명과 최소한의 수학적 지식을 통해 체계적으로 정리한 머신러닝 입문서!

이 책은 인공지능 분야의 명예의 전당이라는 AAAI의 펠로우로 선정된 저자가 머신러닝을 처음 접하는 독자를 위해 2년간 정성을 다해 집필한 책입니다. 이공계 고학년과 대학원의 16주 머신러닝 강의에 맞춰 각 장이 30페이지가 넘지 않는 16개의 장과 수준 있는 연습문제로 구성하였으며 최대한 다양한 독자에게 머신러닝을 소개하기 위해 최소한의 수학적 지식만을 사용하였습니다.

이 책의 주요 목적은 독자들에게 나무와 숲을 함께 볼 수 있는 ‘초급 지도’를 제공해 머신러닝 입문자들이 올바른 방향으로 나갈 수 있도록 도와주는 것입니다. 다양한 머신러닝 알고리즘을 이해하기 쉽도록 이론뿐만 아니라 내부 처리 로직까지 설명하고 있어서 실제 머신러닝 기법의 개념과 원리를 탄탄하게 배울 수 있습니다.

책 속으로

이 책은 머신러닝 교과서입니다. 최대한 많은 독자에게 머신러닝을 소개하고 싶은 마음에 수학적 지식의 사용은 최대한 배제하려 노력했습니다. 하지만 최소한의 확률, 통계, 대수, 최적화, 논리관련 수학 이론은 포함되어 있습니다. 따라서 대학교 4학년 이상의 이공계열 학생이나 대학원생, 그리고 비슷한 배경을 가진 머신러닝에 관심 있는 독자들께 적합할 것 같습니다. 독자들의 편의를 위해 책 말미에는 수학 기초 지식에 관한 간략한 소개도 함께 다루고 있습니다.

과적합을 일으키는 원인은 다양합니다. 그중에서도 학습능력이 너무 뛰어나 훈련 데이터들이 가진 일반적이지 않은 특성까지 학습하는 경우가 가장 흔한 원인입니다. 반대로, 과소적합은 일반적으로 학습능력이 좋지 못해서인 경우가 많습니다. 과소적합은 극복하기 쉽습니다.

실질적으로 정보 이득 규칙은 취할 수 있는 값의 수가 비교적 많은 속성에 유리하게 작용합니다. 이런 편향은 모델에 좋지 못한 영향을 끼칠 수 있습니다. 그래서 유명한 C4.5 의사결정 트리 방법[Quinlan, 1993]은 정보 이득을 사용하는 대신 이득율(gain ratio)이라는 방법을 사용하여 최적의 분할 속성을 선택했습니다. 식 4.2와 동일한 부호로 나타낸다면, 이득율은 다음과 같이 정의할 수 있습니다.

커널 함수는 직접적으로 서포트 벡터 머신과 커널 기법의 최종 성능을 결정합니다. 한 가지 안타까운 것은 커널 함수의 선택 문제는 여전히 해결해야 할 어려운 문제입니다. 다중 커널 학습(multiple kernel learning)은 다수의 커널 함수를 사용하고 학습을 통해 얻은 최적의 컨벡스 조합을 최종 커널 함수로 설정합니다[Lanckriet et al., 2004; Bach et al., 2004]. 이는 사실상 앙상블 학습 메커니즘을 빌려온 것입니다.

트렌드와칭 뉴스레터 구독하시고 최신 정보로 앞서 가세요 [구독하기]

클러스터링은 일종의 전형적인 비지도 학습법입니다. 그러나 현실에서 우리는 클러스터링을 진행하며 지도 학습 정보를 획득할 때가 많습니다. 따라서 준지도 클러스터링(semi-supervised clustering) 방법으로 지도 정보를 활용해 더 좋은 클러스터링 결과를 얻을 수 있습니다.