강화하습 프레임워크의 일반성을 과대평가하는 것은 어렵다. 예를 들어, 우리는 감독되는 학습 문제를 RL 문제로 제기할 수 있다. 분류에 문제가 있었다고 가정할때 우리는 각 클래스에 해당하는 하나의 동작으로 강화하급 에이전트를 만들 수 있다. 그런 다음 우리는 원래 감독된 문제로부터 손실 기능과 정확히 동등한 보상을 주는 환경을 조성할 수 있을 것이다. 말하자면, 강화학습은 또한 학습을 감독할 수 없는 많은 문제들을 다룰 수 있다. 예를 들어, 감독된 학습에서 우리는 항상 교육 입력이 올바른 라벨과 연관되기를 기대한다. 그러나 강화학습에서는 각 관측치에 대해 환경이 최적의 작용을 알려준다고 가정하지 않는다. 일반적으로, 우리는 약간의 보상을 받는다. 게다가 환경은 우리에게 어떤 행동이 보상으로 이어졌는지조차 알려주지 않을 수도 있다. 체스 게임을 예로 들어보자. 유일한 진정한 보상 신호는 우리가 이길 때, 우리가 1의 보상 또는 우리가 질 때, 우리가 -1의 보상을 할 수 있을 때 온다. 따라서 강화 학습자는 결과에 대해 어떤 행동을 할 것인지 또는 책임을 질 것인지를 결정하는 것과 같은 신용 할당 문제를 다루어야 한다. 10월 11일 승진하는 직원도 마찬가지다. 그 승진은 지난 해의 많은 괜찮은 행동들을 반영했을 것이다. 앞으로 더 많은 프로모션을 받으려면 프로모션을 진행하면서 어떤 조치를 취했는지 파악해야 한다. 또한 강화 학습자들은 부분적인 관찰 가능성의 문제를 다루어야 할 수도 있다. 즉, 현재의 관찰이 당신의 현재 상태에 대한 모든 것을 말해주지는 않을 수도 있다. 청소 로봇이 집에 있는 많은 똑같은 옷장들 중 하나에 갇힌 것을 발견했다고 하자. 옷장에 들어가기 전에 로봇의 정확한 위치(따라서 상태)를 유추하려면 그 이전의 상황을 고려해야 할 것이다. 마지막으로, 어느 시점에서든 강화 학습자들은 한 가지 좋은 정책을 알 수 있다. 하지만 시도해보지 않은 더 좋은 정책들이 많이 있을 수 있다. 강화 학습자는 현재 가장 잘 알려진 전략을 정책으로 활용할 것인지 아니면 단기간의 보상을 포기할 가능성이 있는 전략을 탐색해야하는지 선택을 지속적으로 직면하게 된다. 일반적인 강화 학습 문제는 매우 일반적인 설정이다. 작용은 이후의 관찰에 영향을 미친다. 보상은 선택된 행동에 해당하는 경우에만 관찰된다. 환경은 완전하거나 부분적으로 관찰될 수 있다. 이 모든 복잡성을 한 번에 설명하는 것은 연구자들에게 너무 많은 것을 요구할 수 있다. 게다가, 모든 실제적인 문제들이 이 모든 복잡성을 보여주는 것은 아니다. 그 결과, 연구자들은 학습 강화 문제에 대한 많은 특별한 사례들을 연구했다. 환경이 충분히 관찰되면 우리는 강화학습 문제를 마르코프 의사결정 과정(MDP)이라고 부른다. 현재 상태가 이전의 행동에 의존하지 않을 때,우리는 그 문제를 contextual bandit problem 라고 한다. 상태를 인지못할 때 처음에 알 수 없는 보상이 주어졌을 때, 이 문제는 classic multi-armed bandit problem이라고 한다. 비록 많은 딥러닝 방법들이 최근의 발명품들이지만, 인간은 수 세기 동안 데이터를 분석하고 미래의 결과를 예측하고자 하는 열망을 품어 왔다. 사실, 자연과학의 많은 부분이 이것에 뿌리를 두고 있다. 예를 들어 베르누이 분포는 제이콥 베르누이(1655~1705)의 이름을 따서 지었고, 가우스 분포는 칼 프리드리히 가우스(1777~1855)에 의해 발견되었다. 예를 들어, 그는 보험 계산에서부터 의료 진단에 이르는 수많은 문제들에 오늘날에도 여전히 사용되고 있는 최소한의 제곱 알고리즘을 발명했다. 이러한 도구는 자연과학에서 실험적인 접근방식을 낳았다. 예를 들어 저항기의 전류와 전압에 관한 옴의 법칙은 선형 모델에 의해 완벽하게 설명된다. 중세에도 수학자들은 견적에 대한 예리한 직관을 가지고 있었다. 예를 들어, 제이콥 쾨벨(1460-1533)의 기하학 서적에는 16개의 성인 남성의 발 길이를 평균하여 평균 발 길이를 구한다고 나와 있다. 통계는 데이터의 수집과 가용성으로 시작되었다. 거물 중 하나인 로널드 피셔 (1890-1962)는 유전학에서의 이론과 적용에 크게 기여했다. 그의 알고리즘(선형 판별 분석 등)과 공식(Fisher Information Matrix 등)의 상당수는 오늘날에도 여전히 자주 사용되고 있다(Fisher Information Matrix(피셔 정보 매트릭스)는 그가 1936년에 발표한 Iris 데이터 세트도 여전히 기계학습 알고리즘을 설명하기 위해 사용된다. 피셔는 또한 우생학의 지지자였고 도덕적으로 의심스러운 데이터를 사용한 산업과 자연과학에서의 생산적 사용을 우리는 잊는 말아야 한다. 기계 학습에 대한 두 번째 영향은 정보 이론(Claude Shannon, 1916-2001)과 앨런 튜링(1912-1954)을 통한 계산 이론에서 비롯되었다. 튜링은 유명한 논문 Computing 기계와 인텔리전스에 "기계들이 생각할 수 있는가?"라는 질문을 던졌다(마인드, 1950년 10월).그가 튜링 테스트라고 묘사한 바로는 기계로부터의 응답과 텍스트 상호 작용에 기반을 둔 인간을 구별을 인간이 어렵다면 기계는 지적능력이 있다고 간주 할 수 있다고 한다. 또 다른 영향은 신경과학과 심리학에서 찾을 수 있다. 결국 인간은 지적인 행동을 분명히 보여 준다. 따라서 이 능력을 설명할 수 있는지, 그리고 역설계할 수 있는지를 묻는 것은 타당하다. 이러한 방식에서 영감을 받은 가장 오래된 알고리즘 중 하나는 도널드 헵(1904-1985)에 의해 공식화되었다. 그의 획기적인 저서 행동의 조직[Hebb & Hebb, 1949년]에서 그는 뉴런이 긍정적인 강화로 배운다고 주장했다. 이것은 헤비안 학습 규칙으로 알려지게 되었다. 로젠블라트의 퍼셉트론 학습 알고리즘의 원형이며, 오늘날 딥러닝을 뒷받침하는 바람직한 행동을 강화하고 바람직하지 않은 행동을 감소시켜 신경망에서 매개변수의 좋은 설정을 얻는 확률적 그라데이션 강하 알고리즘의 기초를 다졌다.
인공지능과 좋은 사례 (0) | 2020.07.27 |
---|---|
인공지능과 역사 (0) | 2020.07.23 |
인공지능 비지도 학습 (0) | 2020.07.09 |
인공지능과 순위 (0) | 2020.07.08 |
인공지능과 분류 (0) | 2020.07.04 |
댓글 영역