당신은 주제를 찾고 있습니까 “알파 고 강화 학습 – [쉽게 읽는 강화학습 논문] 알파고 논문리뷰 1편“? 다음 카테고리의 웹사이트 https://you.experience-porthcawl.com 에서 귀하의 모든 질문에 답변해 드립니다: https://you.experience-porthcawl.com/blog. 바로 아래에서 답을 찾을 수 있습니다. 작성자 팡요랩 Pang-Yo Lab 이(가) 작성한 기사에는 조회수 12,063회 및 좋아요 181개 개의 좋아요가 있습니다.
알파 고 강화 학습 주제에 대한 동영상 보기
여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!
d여기에서 [쉽게 읽는 강화학습 논문] 알파고 논문리뷰 1편 – 알파 고 강화 학습 주제에 대한 세부정보를 참조하세요
발표슬라이드: https://github.com/minyoungjun/Pang-yo/raw/master/alphago1.pdf
2편: https://www.youtube.com/watch?v=a4H-P10pVz4
팡요랩(Pangyo Lab)이란?
판교 근처에서 인공지능 및 개발 관련해서 자신이 공부한 내용을 공유하는 스터디입니다. (스터디 내용은 영상으로 촬영됩니다.)
——————————
팡요랩의 첫번째 주제는 알파고 논문 리뷰입니다.
세계최고 바둑 기사 이세돌과의 대결에서 승리한 알파고!
알파고 논문 리뷰를 통해 알파고의 원리를 알아봅시다.
————————
재미있게 배우는 강화 학습 시리즈란?
노승은 연구원이 진행하고 전민영 개발자가 함께 배우는 강화학습 스터디입니다.
1화 요약: 팡요랩과 알파고를 소개합니다.
알파 고 강화 학습 주제에 대한 자세한 내용은 여기를 참조하세요.
알파고 강화학습 원리 – GLBVISION
알파고 강화학습 원리 … 강화학습은 인공지능이 사용할 수 있는 최고의 정책을 찾아내는 방법입니다. 어떻게 행동하는게 가장 좋은 것인지 사람이 컴퓨터 …
Source: glbvis.blogspot.com
Date Published: 2/21/2022
View: 707
“알파고를 만든” 강화 학습 이해하기 – ITWorld Korea
구글 딥마인드(DeepMind)의 알파고(AlphaGo)는 사람들에게 친숙한 이름이다. 알파고는 2015년 프로 2단 바둑 기사와의 시합에서 승.
Source: www.itworld.co.kr
Date Published: 4/22/2021
View: 7288
알파고(AlphaGo) 탄생의 비밀 ‘강화학습 기반 인공지능이란?’
알파고의 출현을 시작으로, 2016년 초까지 진행되었던 딥러닝의 깊이(Deep) 경쟁은 이제 … 이후 딥마인드는 더욱 고도화된 강화학습 알고리즘을 통해 1년 만에 알파 …
Source: www.itlab.co.kr
Date Published: 3/25/2022
View: 1395
‘알파고를 만든’ 강화 학습 이해하기 – CIO Korea
구글 딥마인드(DeepMind)의 알파고(AlphaGo)는 사람들에게 친숙한 이름이다. 알파고는 2015년 프로 2단 바둑 기사와의 시합에서 승리하면서 유명세를 …
Source: www.ciokorea.com
Date Published: 12/13/2022
View: 2190
6년전 세상을 놀라게했던 바둑 인공지능 알파고! 강화학습으로 …
자체학습을 도입한 ‘알파고 제로’를 거쳐 발전하였습니다. 그 중, 이번 포스팅은 강화학습 알고리즘을 활용한 알파고 제로에 대해 다루어보았습니다.
Source: dacon.io
Date Published: 9/18/2021
View: 5246
알파고 이세돌 이길 수 있었던 강화학습 살펴보자 – 네이버 블로그
알파고와 알파제로는 모두 강화 학습(reinforcement learning)을 통해 학습하는데요. 강화 학습 네트워크의 일부로 심층 신경망을 사용해 결과 가능성을 …
Source: m.blog.naver.com
Date Published: 1/24/2021
View: 777
머신러닝의 꽃, 강화학습 – 브런치
Reinforcement Learning | 알파고의 핵심 기술이 무엇인지 아시나요? 알파고는 바둑의 기본 규칙과 3000만 개의 기보를 학습한 후, 스스로 대국하며 …
Source: brunch.co.kr
Date Published: 9/12/2021
View: 3448
[쉽게 읽는 강화학습 논문] 알파고 논문리뷰 1편 134 개의 자세한 …
알파고의 승리를 이끈 AI 기술은 하나 더 있다. 바로 ‘강화학습’이다. 강화학습은 최근 우버 AI 연구팀이 클래식 게임에서 활용해, 게이머나 다른 AI …
Source: ppa.covadoc.vn
Date Published: 1/22/2022
View: 9602
알파고 승리 이끈 강화학습, 로봇·자율주행서 재조명 – IT 조선
알파고의 승리를 이끈 AI 기술은 하나 더 있다. 바로 ‘강화학습’이다. 강화학습은 최근 우버 AI 연구팀이 클래식 게임에서 활용해, 게이머나 다른 AI …
Source: it.chosun.com
Date Published: 6/15/2021
View: 2247
4. 자료와 학습(중급) part1. 머신 러닝(3) : 강화학습 – AI4School
강화 학습(Reinforcement Learning)이라는 말을 들어본 적이 있나요? 2016년 인공지능 프로그램인 알파고와 이세돌 9단의 바둑 대결을 봤나요?
Source: ai4school.org
Date Published: 6/4/2022
View: 2626
주제와 관련된 이미지 알파 고 강화 학습
주제와 관련된 더 많은 사진을 참조하십시오 [쉽게 읽는 강화학습 논문] 알파고 논문리뷰 1편. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.
주제에 대한 기사 평가 알파 고 강화 학습
- Author: 팡요랩 Pang-Yo Lab
- Views: 조회수 12,063회
- Likes: 좋아요 181개
- Date Published: 2018. 7. 22.
- Video Url link: https://www.youtube.com/watch?v=SRVx2DFu_tY
알파고 강화학습 원리
강화학습은 인공지능이 사용할 수 있는 최고의 정책을 찾아내는 방법입니다.
어떻게 행동하는게 가장 좋은 것인지 사람이 컴퓨터에게 직접 알려주지 않아도, 컴퓨터가 직접 시행착오를 겪으며 가장 좋은 정책을 찾아내는 것입니다.
강화학습에는 Agent(에이전트), State(상태), Action(행동), Reward(보상), Environment(환경), policy(정책)와 같은 개념들이 존재합니다.
알파고에 이러한 개념들을 연결지어보면,
Agent(에이전트)는 알파고
State(상태)는 바둑판 상황
Action(행동)은 수를 두는 것
Reward(보상)은 경기의 승/패 결과
Environment(환경)는 바둑의 규칙
Policy(정책)는 알파고의 정책 네트워크
알파고의 정책 네트워크는 다음에 둘 수 있는 수들의 확률을 추천해줍니다. 높은 확률을 가진 수일수록 알파고는 판단과정에 더 큰 비중을 둡니다.
(바둑판을 입력으로 넣으면 어디가 좋을지 확률을 알려준다)
알파고에서 강화학습을 진행할 때, 수많은 경기를 하며 시행착오를 겪습니다. 강화학습 알고리즘은 경기에서 얻은 시행착오를 기반으로 정책 네트워크가 알려주는 확률을 조정합니다. 조정된 확률은 다음 번 경기에 알파고가 더 똑똑하게 움직일 수 있게 해 줍니다.
REINFORCE 알고리즘 알파고에서는 REINFORCE 알고리즘에 기반하여 시행착오와 정책 네트워크의 확률을 조정하는 과정을 진행합니다.
먼저 policy network(정책 네트워크)의 추천에 기반하여 승패가 확정되는 State인 Terminal State까지 자가대전을 진행합니다. 자가대전의 결과로 각 수를 두는 시점 time step t에 해당하는 State, Action, Reward를 얻게 됩니다.
이제 위에서 얻어낸 State, Action, Reward 정보를 바탕으로 정책 네트워크(policy)를 수정할 차례입니다. policy가 뉴럴 네트워크로 만들어져 있어 직관적으로 policy를 업데이트 할 수 없기에, 어떤 방식으로 업데이트를 해야 하는지에 대한 이론이 REINFORCE알고리즘입니다.
해당 알고리즘에서는 policy의 가치를 expectation하는 objective function을 정의하고 objective function의 gradient를 계산하는 수식을 전개하여 정리합니다. ( 해당 알고리즘에서는 policy의 가치를 expectation하는 objective function을 정의하고 objective function의 gradient를 계산하는 수식을 전개하여 정리합니다. ( 참고자료
그 결과로 각 time step t에 해당하는 State, Action, Reward만 있다면 objective function의 gradient를 간단하게 구할 수 있는 수식이 구성되며, 이를 기반으로 policy network를 업데이트하는 것입니다. (a,s,z는 각각 action, state, reward에 해당한다) (알파고에 적용된 수식이며 학습을 용이하게 하기 위한 최적화 기법이 적용되어 있음.)
위처럼 자가대전 진행과 REINFORCE알고리즘 실행을 통해 policy network를 강화하고, 강화된 policy network로 자가대전을 하는 구조를 계속 반복합니다. 계속 반복하면 policy network의 능력이 점진적으로 향상되며 결국 강력한 policy network로 수렴하게 됩니다. 이렇게 알파고는 강력한 바둑 실력을 가질 수 있게 됩니다.
글을 마치며 실제로 이런 기법을 구현할 때에는 이상적으로 동작하지 않는 경우가 많기 때문에 여러 가지 추가적인 기법들이 적용되는 편입니다. 알파고에서 자가대전을 할때는 온전히 자기 자신과 대결하는 것이 아니라, 이전 단계의 좀 더 약한 정책 네트워크들과 대결하는 전략을 사용하기도 했습니다. 알파고는 이세돌 선수에게 4승을 거둘 만큼 강력했지만, 100% 완벽하지 않았습니다. 이세돌 선수와의 4국에서 패배하면서 완전하지 않음을 보여주었습니다. 알파고 제로에서는 알파고의 REINFORCE알고리즘이 아니라 다른 알고리즘이 적용되었습니다. 그 때문에 더욱 강력해졌으며, 알파고가 가지고 있는 몇가지 문제점들을 해결할 수 있게 되었습니다. 참고자료:
https://talkingaboutme.tistory.com/entry/RL-Policy-Gradient-Algorithms
https://dnddnjs.gitbooks.io/rl/content/monte-carlo_policy_gradient__reinforce.html
Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning (REINFORCE)
Policy Gradient Methods for Reinforcement Learning with Function Approximation
글 목록
알파고에서는 REINFORCE 알고리즘에 기반하여 시행착오와 정책 네트워크의 확률을 조정하는 과정을 진행합니다.
에 해당합니다.인공지능이 행동을 할 때는 정책의 도움을 받습니다. 정책은 인공지능이 다음 행동을 선택할 때 어떤 행동이 좋을 지 추천을 해주는 역할을 합니다.
“알파고를 만든” 강화 학습 이해하기
Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
알파고(AlphaGo) 탄생의 비밀 ‘강화학습 기반 인공지능이란?’
2012년을 시작으로 본격화된 딥러닝의 발전은, 2016년을 기점으로 전환점을 맞이했습니다. 딥러닝의 가장 큰 한계였던 깊이(Depth) 의 문제가 해결되며 시각•청각 지능에 대해서는 Human-level 혹은 그 이상의 인공지능이 구현되고 있는데요.
과거 인공 신경망 구현에 있어 알고리즘, 컴퓨팅, 데이터의 한계로 인해 얕은 신경망(Shallow Net)에 그쳤던 딥러닝이 이제는 깊이(Depth)의 한계를 극복했다고 말할 수 있습니다. 알파고의 출현을 시작으로, 2016년 초까지 진행되었던 딥러닝의 깊이(Deep) 경쟁은 이제 학습(Learning)의 경쟁으로 전환되고 있습니다.
l 딥러닝의 경쟁 핵심 변화
강화학습 기반의 인공지능 학습 과정은 과거의 방식과 전혀 다릅니다. 기존 기계학습 기반의 인공지능은 목표 달성 과정을 인간(전문가)이 일일이 모델링하고 구현해야 했습니다. 또한 환경, 목표가 달라지면, 모델을 매번 변경하거나 모델을 전혀 새롭게 설계해야 했는데요. 하지만 강화학습 방법은 인공지능이 스스로 현재의 환경을 인식하고 행동하며 목표를 달성해 나갈 수 있습니다.
게다가 이러한 방식은 범용적으로 활용 가능해, 새로운 환경에서 학습만 반복하게 되면 하나의 알고리즘을 가지고 매우 다양한 환경에 적용 가능한 인공지능을 구현해 낼 수 있는데요.
구글은 이러한 강화학습의 폭발적인 잠재력을 매우 빨리 인지하고, 2014년에 딥마인드를 약 4,500억 원에 인수했습니다. 당시만 해도 딥마인드가 보유한 핵심 기술은 인공지능이 반복 학습을 통해 주어진 목적을 달성하는 방법을 스스로 깨우치게 하는 강화학습 알고리즘이 전부였는데요. 이후 딥마인드는 더욱 고도화된 강화학습 알고리즘을 통해 1년 만에 알파고를(AlphaGo)를 구현해냈습니다.
물론 기본적인 이론들은 매우 오래전부터 제안됐었지만, 딥마인드는 그것을 실제 구현해 내고 인간 수준 혹은 그 이상의 성능으로 검증해냈습니다. 강화학습에 딥러닝을 접목한 ‘Deep Reinforcement Learning’ 을 개발하면서 게임 환경에서 인공지능을 먼저 구현한 것입니다.
이 알고리즘은 인공지능이 처한 환경에서 달성하고자 하는 목표와 각 과정에 보상(Reward) 값만 정해지게 되면, 인공지능이 스스로 보상을 최대로 받으며 목표를 달성하는 방법을 깨우칩니다. 딥마인드가 초기 강화학습 구현하며 검증을 위해 공개한 영상 에서는 학습 초기 과정에서는 게임을 전혀 진행하지 못하지만, 수 시간에 걸친 시행착오를 통해 인간 수준 이상으로 게임을 능숙하게 진행하는 것을 볼 수 있습니다.
아래의 그림처럼, 매 순간 인공지능은 자신이 처한 환경과 행동 가능한 옵션들을 인지하고 각 행동에 대해 정량화된 보상 값을 최고로 달성할 수 있는 행동을 반복적으로 선택하며 최종 목적을 달성해 나갑니다. 알파고의 경우도 수를 둘 때마다 다양한 착점 중 가장 승률이 높을 것으로 계산된 수를 선택하며 바둑을 진행하는 것이며, 매일 128만 번 에 이르는 반복 학습을 통해 바둑을 두는 과정을 깨우쳐 나간 것입니다.
l ‘강화학습 기반의 인공지능’ 스스로 최선의 방법을 선택함
알파고를 시작으로 강화학습에 대한 연구가 활발히 진행되며, 2016년 이후 빠르게 발전하고 있습니다. 이를 가능하게 한데에는 딥마인드, OpenAI와 같은 선행 연구 기관들이 공개한 오픈소스의 역할이 컸습니다. 인공지능 연구자들은 자신들이 개발한 강화학습 알고리즘을 실험하고 검증하기 위한 환경이 필요한데요. 알고리즘 검증을 위해 매번 게임 자체를 개발할 수는 없기 때문입니다. 이러한 어려움을 해결하기 위해 OpenAI는 자신들의 연구결과물을 모두 공개하고 있습니다.
OpenAI는 약 200개 이상의 게임 환경을 오픈소스로 공개 하고 있습니다. Tensorflow, Theano등과 같이 인공지능 구현에 주로 사용되는 개발 환경과 연동되기 때문에, 강화학습 개발자와 연구자들은 단 몇 줄의 코드만 사용하면 다양한 환경에서 자신의 알고리즘을 테스트 하는 것이 가능해졌습니다.
연구자들이 자신이 구현한 인공지능을 동일한 환경에서 성능을 검증하고 경쟁하는 것이 가능해진 것입니다. 이러한 경쟁의 결과로 강화학습 분야의 연구 논문은 매우 빠르게 발표되고 있습니다.
l 오픈소스 환경에 기반한 강화학습 알고리즘의 진화
하루가 다르게 진화하고 있는 강화학습 분야의 연구는 이제 현실 세계의 문제해결을 위해 한 단계 더 발전해가고 있습니다. 단순한 2차원 공간을 넘어 3차원 공간에서 문제를 해결하거나, 로봇과 같이 다수의 기계 부품들이 물리적 조합으로 구동되는 환경에서 강화학습을 적용하려는 시도들이 최근 잇따르고 있습니다.
아직은 Google, UC Berkeley, MIT Robotics 등 소수의 선행 연구소들을 중심으로 강화학습에 대한 연구가 이루어 지고 있지만, 향후 빠르게 발전되어 현실 세계의 문제에 적용 시 인공지능이 인간의 능력을 초월하는 수준으로 구현되는 시기가 매우 앞당겨질 것으로 전망됩니다.
글 | 이승훈 책임연구원([email protected]) | LG경제연구원
* 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.
* 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.
알파고 이세돌 이길 수 있었던 강화학습 살펴보자
앞서 언급했듯이 강화 학습에는 환경과 상호작용하는 에이전트가 사용됩니다. 환경에는 다수의 상태 변수가 존재할 수 있습니다. 에이전트는 정책에 따라 행위를 수행하며, 이 정책은 환경의 상태를 변경시킬 수 있습니다. 환경 또는 학습 알고리즘은 에이전트 보상 또는 벌칙을 전송해 강화를 실현합니다. 이것이 정책을 수정할 수 있고 정책의 수정이 곧 학습을 형성합니다. 배경을 설명하자면 이는 1950년대 초반 리처드 벨만이 연구한 시나리오입니다. 벨만은 최적 제어 및 마르코프 결정 프로세스 문제를 해결하기 위한 동적 프로그래밍(Dynamic programming)을 개발했습니다. 동적 프로그래밍은 다양한 애플리케이션을 위한 많은 중요한 알고리즘의 핵심이며 벨만 방정식은 강화 학습에서 중요한 부분을 차지합니다. 보상은 즉각 좋은 것을 나타내고 있습니다. 반면 가치는 장기적으로 좋은 것을 가리킵니다. 일반적으로 상태의 가치는 미래 보상의 예상된 합계인데요. 행위 선택(정책)은 즉각적인 보상이 아닌 장기적 가치를 기반으로 계산되어야 합니다.
머신러닝의 꽃, 강화학습
알파고의 핵심 기술이 무엇인지 아시나요?
알파고는 바둑의 기본 규칙과 3,000만 개의 기보를 학습한 후, 스스로 대국하며 훈련하는 강화학습 알고리즘을 사용하여 개발되었습니다. 이 강화학습은 머신러닝 분야 중에서도 인공지능을 가장 잘 대표하는 모델로 알려져 있습니다. 구글 딥마인드 팀은 알파고의 후속작으로 기존 알파고를 압도하는 업그레이드 버전 ‘알파고 제로’를 개발하였는데요. 실제로 알파고 제로는 알파고 마스터와 대결하여 100전 89승 11패라는 압도적인 성과를 거두었습니다.
알파고 제로가 기존 버전마저 넘어설 수 있었던 이유는 사람이 가진 선입견을 철저히 배제하고 오로지 보상을 최대화할 수 있는 연산결과에 의한 의사결정만을 우선으로 할 수 있었기 때문입니다.
추가로, 기존 알파고 버전은 사람의 기보와 정석으로 공부했다면 알파고 제로는 독학 과정에서 스스로 기존 정석을 깨닫고 독특한 정석까지 개발하는 업그레이드된 인공지능입니다. 여기에는 강화학습 알고리즘이 큰 역할을 했습니다.
먼저, 머신러닝의 종류에는 어떤 것들이 있는지 알아볼까요?
지도 학습 (Supervised Learning)
지도 학습은 말 그대로 데이터에 대한 학습 데이터가 주어진 상태에서 컴퓨터를 학습시키는 방법입니다. 컴퓨터가 입력 값과 출력 값이 있는 데이터를 가지고 주어진 입력에 맞는 출력을 찾는 학습 방법으로 대표적으로 분류(Classification), 회귀(Regression) 문제 등이 있습니다.
일례로, 강아지와 고양이 사진을 구분하기 위해서 강아지인지 고양이인지의 여부가 이미 기록되어 있는 사진을 이용하여 지도 학습을 수행하고, 그 학습의 결과는 훈련 데이터에 포함되지 않은 사진을 구분하는 데에 적용하는 방식으로 예측하는 것입니다.
출처: 한국정보통신기술협회-정보통신용어사전
비지도 학습 (Unsupervised Learning)
비지도 학습은 데이터에 대한 학습 데이터가 없는 상태에서 오직 입력 데이터만 이용해서 컴퓨터를 학습시키는 방법입니다. 입력된 데이터를 비슷한 그룹으로 묶어 예측하는 모델을 학습합하난 형태로 이루어지며 비지도 학습은 예측이 목적이라기보다는, 데이터의 구성 또는 특징을 밝히는 목적으로 사용되는 그룹핑 알고리즘입니다.
아래 그림처럼 레이블이 없는 데이터를 가지고, 데이터를 잘 표현하는 특징들을 추출해냅니다. 이렇게 추출된 특징들이 고스란히 지도 학습의 성능을 향상하는 데에 이용됩니다. 비지도 학습은 뉴스 카테고리 분류, DNA 분류 등 많은 분야에 응용되고 있습니다.
출처: 한국정보통신기술협회-정보통신용어사전
강화학습 (Reinforcement Learning)
강화학습은 행동에 대한 보상을 받으면서 학습하여 어떤 환경 안에서 선택 가능한 행동들 중 보상을 최대화하는 행동 또는 행동 순서를 선택하는 방법입니다. 즉, 어떤 환경 안에서 정의된 주체(agent)가 현재의 상태(state)를 관찰하여 선택할 수 있는 행동(action)들 중에서 가장 최대의 보상(reward)을 가져다주는 행동이 무엇인지를 학습하는 것입니다. 강화 학습의 예로는 알파고, 각종 게임 등이 있습니다.
ent Lea
출처 : Wikipedia
예를 들어, 알파고는 바둑을 두는 방법을 학습하기 위해 먼저 대량의 과거 바둑 기보를 통해 인간 바둑 기사들을 모방 학습합니다. 그다음에 독립적인 자기 자신을 상대로 수 없이 바둑을 두면서 시행착오를 거쳐 경기력을 개선해 나갑니다. 이 시행착오 과정이 강화학습인 것이죠.
이처럼 강화학습은 agent가 환경으로부터 보상을 받음으로써 학습하지만 이는 사람으로부터 학습을 받는 것이 아니라 변화되는 환경으로부터 보상을 받아 학습한다는 점에서 차이를 보입니다. 사람이 지식을 습득하는 방식 중 하나인 시행착오를 겪으며 학습하는 것과 매우 유사한 방식인데요. 즉, 강화학습은 ‘스스로 지혜를 터득하기’ 의 컨셉으로 볼 수 있는 것이죠.
강화학습의 동작 순서? 관찰-행동-보상
강화학습은 일반적으로 다음과 같은 순서로 학습을 진행합니다.
1. 정의된 주체가 주어진 환경의 현재 상태를 관찰하여 이를 기반으로 행동을 취합니다.
2. 환경의 상태가 변화하면서 정의된 주체는 보상(reward)을 받게 됩니다.
3. 이 보상을 기반으로 정의된 주체는 더 많은 보상을 얻을 수 있는 방향으로 행동을 학습하게 됩니다.
그렇다면, 강화학습의 핵심 원리는 무엇일까요?
이용(exploitation)과 탐험(exploration)의 균형
사람도 그렇듯, 컴퓨터가 상황에 가장 적합한 행동을 찾아나가기까지는 수많은 시행착오가 필요합니다. 경험을 통해 학습하는 강화학습에서 최단 시간에 주어진 환경의 모든 상태를 관찰하고, 이를 기반으로 보상을 최대화할 수 있는 행동을 수행하기 위해서는 이용(exploitation)과 탐험(exploration) 사이의 균형을 적절히 맞추어야 합니다.
여기서 이용이란 현재까지의 경험 중, 현 상태에서 가장 최대의 보상을 얻을 수 있는 행동을 수행하는 것을 말합니다. 이러한 다양한 경험을 쌓기 위해서는 새로운 시도가 필요한데 이러한 새로운 시도를 탐험이라고 합니다. 풍부한 경험이 있어야 더 좋은 선택을 할 수 있게 되지만 반대로 경험을 풍부하게 만들기 위해서는 새로운 시도를 해야 하고 이러한 탐험은 위험 부담을 가지게 됩니다. 왜냐하면 탐험을 위해서는 지금 당장 최선이라고 믿어지는 행동을 포기할 수 있어야 되기 때문입니다. 이처럼 이용과 탐험 사이의 적절한 균형을 갖추는 것이 강화학습의 핵심이 됩니다.
출처 : 딥마인드 홈페이지
즉, 알파고는 이용과 탐험 과정을 반복하면서 시합 중 각 수마다 그 위치에서 가능한 모든 수에 가치 함수를 적용해 이길 가능성의 순위를 매기는 방식인 것이죠.
그렇다면, 강화학습은 기존의 지도 학습/비지도 학습과 어떤 차이를 가질까요?
지도 학습에서는 어떤 도메인의 전문가로부터 적절하게 분류된(labeled) 학습 데이터를 제공받고, 그 학습 데이터를 통해 학습함으로써 새로운 입력에 대해서도 적절한 출력을 보일 것으로 기대하는 원리에서 출발합니다.
반면, 강화학습은 잘 분류된(labeled) 데이터가 아닌 환경과의 상호작용을 통해 얻은 보상(reward)으로부터 학습한다는 점에서 차이가 있습니다. 비지도 학습의 경우, 미분류(unlabled) 데이터의 숨겨진 구조를 찾는 것을 목표로 합니다. 즉, 일련의 규칙을 뽑아내는 것이 목표라면, 강화학습에서는 보상을 최대화하는 것이 목표입니다. 둘 간의 목표가 조금 다르죠.
그리고 위에서 말씀드린 이용과 탐험에 대한 개념 또한 강화학습을 지도학습/비지도학습과 구분 짓는 또 한 가지 차이점이 될 수 있습니다. 결과적으로, 강화학습은 학습 데이터를 통해 올바른 행동을 지시하기보다는 선택 가능한 행동들에 대한 가치를 평가하는 원리라고 보시면 되겠습니다.
또한 강화학습은 수많은 자가학습을 통해 이용과 탐험에 의한 새로운 룰까지 창조해낼 수 있습니다. 즉, 데이터셋 위주로 돌아가는 지도/비지도 학습과는 달리 강화학습의 에이전트는 학습에 필요한 데이터를 능동적으로 취득할 수 있다는 점에서 가장 큰 장점을 보입니다.
강화학습을 위해 사용되는 알고리즘에는 어떤 것이 있을까요?
마르코프 결정 프로세스 (Markov Decision Process , MDP)
강화학습에서 보상을 최대화할 수 있는 방향으로 행동할 수 있도록 이용과 탐험 사이의 적절한 균형을 맞추는 데 사용되는 의사결정 프로세스는 마르코프 결정 프로세스(Markov Decision Process, MDP)인데요.
MDP에서 행위의 주체(agent)는 어떤 상태(state)를 만나면 행동(action)을 취하게 되며, 각 상태에 맞게 취할 수 있는 행동을 연결해 주는 함수를 정책(policy)이라고 합니다. MDP는 행동을 중심으로 가치 평가가 이루어지며, MDP의 가장 큰 목적은 가장 좋은 의사결정 정책(policy). 즉 행동에 따른 가치(value)의 합이 가장 큰 의사결정 정책을 찾아내는 것입니다.
강화학습의 발전
이처럼 강화학습은 알파고에 적용되어 큰 관심을 끌었지만, 아직까지 실제 비즈니스 현장에서 의미 있게 적용된 사례가 많지는 않습니다. 즉, 기술의 성숙도 측면에서 본다면 기계학습과 딥러닝에 비해 강화학습은 이제 막 시작하는 단계로 볼 수 있습니다. 하지만 알파고를 시작으로 금융이나 의료, 개인화된 서비스, 로보틱스 등도 많은 응용 분야에서 꾸준히 연구되고 있습니다.
강화학습의 원리와 알고리즘을 보면 다루기가 쉽지 않은 기술이라는 점에 대해서는 많은 전문가들도 인정하고 있는 부분입니다. 하지만 이제 막 깊이있는 연구가 시작되는 시기라는 점에서 이 어려움들을 돌파하고 또 하나의 안정적인 이론으로 자리 잡는 순간 우리의 일상생활에도 또 한 번의 큰 변화와 영향을 미치게 될 것 같습니다. 곧 여러 분야에서 제2의 알파고가 또 등장하게 되겠죠?
알파 고 강화 학습 | [쉽게 읽는 강화학습 논문] 알파고 논문리뷰 1편 134 개의 자세한 답변
We are using cookies to give you the best experience on our website.
You can find out more about which cookies we are using or switch them off in settings.
알파고 승리 이끈 강화학습, 로봇·자율주행서 재조명
2016년 구글 딥마인드가 개발한 인공지능(AI) 알파고는 당시 세계 최고로 꼽히던 바둑기사 이세돌 9단을 꺾으며 AI 시대 개막을 알렸다. 그와 동시에 알파고의 원리 ‘딥러닝(심층학습)’도 유명세를 탔다.
알파고의 승리를 이끈 AI 기술은 하나 더 있다. 바로 ‘강화학습’이다. 강화학습은 최근 우버 AI 연구팀이 클래식 게임에서 활용해, 게이머나 다른 AI보다 뛰어난 성적을 받아 다시 주목받는다.
최근 우버의 AI 연구팀은 자체 개발한 강화학습 기반 AI가 고전 게임에서 사람이나 다른 AI 모델보다 높은 점수를 획득하는 것에 성공했다고 발표했다. 연구에 활용된 게임은 ‘복수(1981)’와 ‘핏볼(1982)’이다. 두 게임 모두 높은 난도로 유명한 게임이다.
강화학습은 행동심리학에서 나온 AI 알고리즘이다. 원리는 간단하다. AI가 더 높은 점수(보상)가 될 때까지 게임(행동)을 계속해서 반복한다. 특히 위아래와 같은 행동 목록만 입력하면 된다. 별도로 게임의 규칙을 입력할 필요가 없다.규칙을 하나하나 입력할 필요가 없는 특징 덕에 강화학습은 로봇, 자율주행차 등 AI가 현실에서 사용되기 위한 필수 기술로 꼽힌다. 하지만 큰 한계가 있다. 강화학습은 모든 행동을 하나하나 수행하며 최고의 방법을 찾기 때문에, 무한에 가까운 계산이 필요하다. 다시 말해 AI가 행동을 정하는 데 오랜 시간이 걸린다.이를 해결한 대표적인 사례가 알파고다. 알파고는 딥러닝을 통해 ‘그럴듯한 최고의 방법(근사값)’을 찾아내 효율적으로 강화학습의 답을 찾아냈다. 이를 통해 이세돌 9단에게 승리를 따낸 것이다.그리고 우버 AI 연구팀은 알파고보다 더 효율적인 강화학습을 선보이며 기술 한계를 돌파했다.앞서 밝혔듯이 강화학습은 모든 행동을 하나하나 수행하기 때문에 실시간 반응은 불가능에 가깝다. 실제 알파고도 이세돌 9단과의 경기에서 실제 바둑 기사처럼 시간을 쓰며 대국했다. 최근 강화학습 AI는 일부 행동을 생략해 실시간 대응에 나섰지만, 최고의 행동을 자주 놓치며 한계에 부딪혔다.우버 AI 연구팀은 이런 생략 과정에서 최고의 행동을 놓치지 않는 기술을 개발했다. 또 강화학습 AI가 일부 행동을 고민하는 것에 시간이 길어지는 경우를 막기 위한 최적화 방법도 새롭게 소개했다. 그들은 AI가 과거에 사용한 방법과 새로운 방법을 동시에 고민하도록 설계해 AI 최적화를 이끌었다.그 결과 우버의 강화학습 AI는 게이머는 물론 기존 AI보다 뛰어난 결과를 얻는 것에 성공했다.우버 AI 연구팀은 이번 연구가 로봇과 자율주행차 발전에 큰 영향을 끼칠 것으로 자평했다. 로봇과 자율주행차는 완전 자동주행을 하기 위해서는 새롭게 마주하는 환경에서도 오류 없이 최고의 선택을 이어가야 한다. 실시간으로 최고의 답을 내놓는 강화학습이 열쇠라는 것이 연구팀의 설명이다.연구팀은 “기존 AI는 미리 학습한 상황이 아니면 성능이 떨어진다”며 “구출 로봇처럼 위험한 환경에 계속해서 노출되는 상황에 사용되기 어렵다”고 영국 공영방송 BBC와의 인터뷰에서 말했다. 이어 그들은 “강화학습이 실시간으로 답을 내놓는다면 활약할 수 있다”며 “이미 자율주행차에서도 잠재된 실수를 미리 발견하는 등 성과가 이어지고 있다”고 덧붙였다.송주상 기자 [email protected]
키워드에 대한 정보 알파 고 강화 학습
다음은 Bing에서 알파 고 강화 학습 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.
이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!
사람들이 주제에 대해 자주 검색하는 키워드 [쉽게 읽는 강화학습 논문] 알파고 논문리뷰 1편
- 알파고
- 강화학습
- 인공지능
- AI
- Reinforcement learning
- RL
- 팡요랩
YouTube에서 알파 고 강화 학습 주제의 다른 동영상 보기
주제에 대한 기사를 시청해 주셔서 감사합니다 [쉽게 읽는 강화학습 논문] 알파고 논문리뷰 1편 | 알파 고 강화 학습, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.