백과사전 상세 본문
요약 기계 학습 중 컴퓨터가 주어진 상태(state)에 대해 최적의 행동(action)을 선택하는 학습 방법.
강화형 기계 학습은 지도형/비지도형 기계 학습에 이용되는 훈련 데이터 대신, 주어진 상태에 맞춘 행동의 결과에 대한 보상(reward)을 준다. 컴퓨터는 보상을 이용하여 성능을 향상시킨다. 주로 게임이나 로봇 제어 등에 적용된다.
예를 들어, 체스를 두는 컴퓨터 프로그램을 학습시킬 때, 경우의 수가 너무 많고(약35의 100승) 정해진 하나의 답이 없으므로, 학습 훈련 데이터로 입력(주어진 상태)에 대한 출력(가장 적절한 행동)을 제공하기는 쉽지 않다. 하지만 체스 게임이 종료되면 그 직전에 둔 일련의 수(手, 행동)들이 좋았는지 나빴는지를 학습 알고리즘에게 알려 줄 수 있다. 이렇게 행동의 좋고 나쁜 정도를 학습 알고리즘에게 알려 주는 것을 보상(reward) 또는 강화(reinforcement)라고 하며, 이러한 정보를 이용하는 기계 학습이 강화형 기계 학습(이하, '강화 학습')이다.
강화 학습의 대상이 되는 컴퓨터 프로그램을 에이전트(agent)라고도 한다. 에이전트는 주어진 상태(state)에서 자신이 취할 행동(action)을 표현하는 정책(policy)을 수립한다. 에이전트가 최대의 보상을 받을 수 있는 정책을 수립하도록 학습시키는 것이 강화 학습의 목표이다.
강화 학습의 주요 응용 분야로는 게임과 로봇 제어를 들 수 있다. 1992년 IBM의 제럴드 테사우로(Gerald Tesauro)가 강화 학습을 이용하여 개발한 백개먼(Backgammon) 게임(TD-Game)은 인간 챔피언과 유사한 수준에 도달했고, 2016년 딥마인드(DeepMind)가 개발한 강화 학습 기반의 소프트웨어 알파고(AlphaGo)는 세계 정상급 바둑 기사들을 꺾었다. 로봇 제어 분야에서는 2000년대 후반 모형 헬리콥터의 곡예 비행에 강화 학습이 성공적으로 적용되었고, 자율 주행 자동차 개발에도 강화 학습이 이용된다.
※ 강화형 기계 학습에서는 지도형이나 비지도형 기계 학습의 ‘입력’, ‘출력’ 용어를 사용하지 않고 ‘상태(state)', '행동(action)' 단어를 사용한다.
※ 백개먼 게임: 주사위를 굴려 열다섯 개의 말을 전부 자기 쪽 진지로 먼저 모으는 쪽이 이기는 보드 전략게임
※ TD-Game 관련 자료: 제럴드 테사우로(Gerald Tesauro), ‘Temporal Difference Learning and TD-Gammon’, Communications of the ACM, March 1995
본 콘텐츠를 무단으로 이용하는 경우 저작권법에 따라 법적 책임을 질 수 있습니다.
위 내용에 대한 저작권 및 법적 책임은 자료제공처 또는 저자에게 있으며, Kakao의 입장과는 다를 수 있습니다.
출처
TTA는 정보통신 기술 발전과 타분야와의 기술 융합에 따라 무수히 생성되는 정보통신용어를 해설하고 표준화하여, 전문가뿐만 아니라 일반인들이 올바르게 활용할 수 있도록 ..펼쳐보기
컴퓨터/정보통신과 같은 주제의 항목을 볼 수 있습니다.
백과사전 본문 인쇄하기 레이어
[Daum백과] 강화형 기계 학습 – TTA정보통신용어사전, 한국정보통신기술협회
본 콘텐츠의 저작권은 저자 또는 제공처에 있으며, 이를 무단으로 이용하는 경우 저작권법에 따라 법적 책임을 질 수 있습니다.