때때로 우리는 단지 각각의 예를 버킷이나 실제 값에 할당하지 않으려는 경우가 있습니다. 정보 검색 분야에서는 일련의 품목에 순위를 매기고 싶다. 웹 검색을 예로 들어보면, 목표가 특정 페이지가 쿼리와 관련이 있는지 여부를 결정하는 것보다는, 어떤 검색 결과가 특정 사용자와 가장 관련성이 높은가가 더 관련이 있다. 우리는 관련 검색 결과의 순서에 정말 신경을 쓴다.그리고 우리의 학습 알고리즘은 더 큰 집합에서 순서가 정해진 하위 집합을 만들 필요가 있다. 다시 말해서, 만약 우리가 알파벳으로부터 처음 5글자를 생산하도록 요구 받는다면, A B C D E와 C A B E D 사이에 차이가 있다. 결과 집합이 같더라도 집합 내의 순서가 중요하다. 이 문제에 대한 가능한 한 가지 해결책은 먼저 설정의 모든 요소에 해당하는 관련 점수를 부여한 다음 최고 등급의 요소를 검색하는 것이다. 그러한 점수 제도의 초기 사례로 구글 검색 엔진의 비밀 소스인 페이지랭크는 실지 질의에 의존하지 않는다는 점이 특이했다. 여기서 그들은 관련 항목 집합을 식별하기 위해 간단한 관련성 필터에 의존했고, 그리고 나서 데어터링크에서 쿼리 용어를 포함하는 결과를 명령했다. 오늘날, 검색 엔진은 질의 의존적 관련성 점수를 얻기 위해 머신러닝과 행동 모델을 사용한다. 이 과목을 전담하는 학술회의가 모두 있다. ecommender 시스템은 또 다른 문제는 검색과 랭킹과 관련이 있다. 사용자에게 일련의 관련 항목을 표시하는 것이 목표로써는 유사하다. 주요 차이점은 추천자 시스템의 맥락에서 특정 사용자에 대한 개인화를 강조하는 것이다. 예를 들어, 영화 추천의 경우, SciFi 팬의 결과 페이지와 Peter Sellers 평론가의 결과 페이지는 크게 다를 수 있다.소매 제품, 음악 또는 뉴스 추천 사항과 같은 다른 추천 사항 설정에서도 유사한 문제가 나타난다. 고객이 특정 제품을 얼마나 좋아하는지(예: Amazon, IMDB, GoodReads 등)를 직접적인 피드백을 제공하는 경우도 있다. 다른 경우에는, 예를 들어, 재생목록의 제목을 건너뛰어 암묵적인 피드백을 제공하는데, 이는 불만을 나타낼 수도 있지만, 단지 노래가 맥락에서 부적절했다는 것을 나타낼 수도 있다. 이 시스템들은 가장 간단한 공식에서 사용자 u와 제품 p에 주어진 예상 등급 또는 구매 확률과 같은 일부 점수 y를 추정하도록 훈련된다. 그러한 모델이 주어지면, 어떤 사용자라도 가장 큰 점수 y를 가진 객체 세트를 검색할 수 있으며, 이것은 고객에게 추천할 수 있다.산체계는 상당히 발전되어 있고 그러한 점수를 계산할 때 상세한 사용자 활동과 항목 특성을 고려한다. 그들의 엄청난 경제적 가치에도 불구하고 예측모델을 시스템은 심각한 개념적 결함에 시달린다.첫째, 우리는 검열된 피드백만을 관찰한다. 사용자는 많은 아이템을 가지고 있지만 별3개 시청률이라는 눈에 띄게 적은 아이템을 가지고 영화의 우선순위를 정한다. 게다가, 현재의 구매 습관은 종종 현재 시행 중인 권장 알고리즘의 결과인 반면, 학습 알고리즘이 항상 이 세부사항을 고려하는 것은 아니다. 따라서 피드백 루프는 다음에서 형성될 수 있다. (구매량이 많기 때문에) 더 나은 것으로 간주되는 것으로 되고 그리고 나서 그들을 더 자주 추천하는 추천 시스템이 우선순위 정한다. 검열, 인센티브, 피드백 루프를 어떻게 다룰 것인가에 대한 이러한 많은 문제들은 항상 중요한 오픈 연구 과제이다. 지금까지 우리는 일정한 수의 입력을 하고 일정한 수의 출력을 생성하는 문제를 살펴보았다. 집값을 사각 스크린, 침실 수, 목욕탕 수, 시내를 걷는 시간 등 고정된 기능등으로 예측하기 전에 영상(고정 치수가 있는 영상)에서 각 고정 등급에 속하는 예측 확률로 매핑하거나, 사용자 및 제품 ID를 가져와 별 등급을 예측하는 것도 이야기해 봤다. 이 경우, 일단 출력을 생성하기 위해 고정 길이 입력이 모델에 공급되면, 모델은 방금 본 것을 즉시 잊어버린다. 만약 우리의 입력들이 정말로 모두 같은 차원을 가지고 있고 연속적인 입력들이 정말로 서로 아무 상관도 없다면, 이거면 괜찮을 것이다. 하지만 비디오 스니펫은 어떻게 처리해야 할까? 이 경우 각 조각은 다른 수의 프레임으로 구성될 수 있다. 그리고 이전 또는 이후의 프레임에 대해 각 틀에서 일어나는 프레임이 더 강해질 수도 있고 추측을 할 수 있다. 언어도 마찬가지다. 가장 흥미 있는 딥러닝 문제 중 하나는 소스 언어로 문장을 입력하고 다른 언어로 번역될 것을 예측하는 작업기계 번역이다. 이러한 문제들은 의학에서도 발생한다. 우리는 중환자실에 있는 환자들을 감시하고 앞으로 24시간 안에 사망할 위험이 어느 정도 임계값을 초과할 경우 경보를 발하는 모델을 원할 수도 있다. 우리는 확실히 이 모델이 매 시간마다 환자의 이력에 대해 알고 있고 단지 가장 최근의 측정에 근거한 예측을 원하는것이지 모든 것을 알고 싶은 것은 아니다. 이러한 문제들은 기계학습의 가장 흥미로운 응용분야 중 하나이며 시퀀스 학습의 예들이다. 입력 시퀀스를 수집하거나 출력 시퀀스(또는 둘 다)를 방출하는 모델이 필요하다. 이러한 후자의 문제들은 때때로 스퀀스2스퀀스 문제들로 언급된다. 이러한 후자의 문제들은 때때로 스퀀스2스퀀스 문제들로 언급된다. 언어 번역은 대표적인 스퀀스2스퀀스 문제이다. 구어체에서 본문을 옮겨 쓰는 것도 하나의 문제가 예시가 된다. 모든 유형의 시퀀스 변환을 고려할 수는 없지만, 다음과 같은 여러 가지 특별한 경우를 언급할 가치가 있다.
인공지능과 강화학습 (0) | 2020.07.12 |
---|---|
인공지능 비지도 학습 (0) | 2020.07.09 |
인공지능과 분류 (0) | 2020.07.04 |
인공지능과 회귀분석 (0) | 2020.06.30 |
인공지능과 객관적 기능 (0) | 2020.06.28 |
댓글 영역