일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 프로그래머스
- 파이썬
- 인도가격
- 책읽는케이크
- 요한하리
- 독후감
- 통화정책파급경로
- RL
- 재무엑셀
- pandas
- SQL
- dataanalysis
- 집중하는법
- 카카오
- 파생상품평가모형
- agviewer
- 통화주의학파
- 블라인드테스트
- 독서모임
- 증권투자권유자문인력
- 코딩테스트
- ldbc
- Nas
- python
- 주식
- 도둑맞은집중력
- potatoeseater
- montecarlo
- 재무제표
- ReinforcementLearning
- Today
- Total
이것저것 담는 블로그
bandits 알고리즘의 이해 및 강화학습과의 차이 본문
Multi arm bandit 은 쉽게 말해 slot machine이 한 개인 것
Contextual bandits은 machine이 여러 개라서 상태가 여러 개임
강화학습과의 다른 점은 에이전트가 환경을 바꾸지 못한다 즉 state 가 변하지 않는 환경임
단순 MAB는 state/context 등 환경에 대한 정보를 전혀 고려하지 않으며,
CB는 환경에 대한 정보를 일컬어 state 대신 context라고 한다.
Action이 환경을 바꿀 수 있는가?로 용어을 구분한 것 같다.
Slot 한 개가 bandit 이라고 불리고
Machine이 가진 arm이 실제로 수행되는 각각의 action임
contextual bandits 의 GitHub repo 중에 가장 눈에 띄는 vowpal wabbit인데
온라인 러닝 라이브러리라고 생각해도 될거같다
https://github.com/VowpalWabbit/vowpal_wabbit
보니까 구글 클라우드에서도 contextual bandits 알고리즘을 쉽게 쓸 수 있나보다
AutoML 활용해서 raw data에서 자동으로 feature engineering, architect search, hyper parameter tuning, model selection, ensembling, tuning 등의 기능을 제공한다
contextual bandits은 크게 direct method(DM), inverse propensity score (IPS)로 쓸 수 있는데,
DM은 contexts로부터 reward를 추정한 값으로 policy value를 평가하고,
IPS는 historical data로부터 이전에 선택된 action이 잘못 선택되었던 경우를 반영해 가중치를 조정한다.
따라서 DM을 활용하는 경우는 reward에 대한 정확한 모델이 있어야만하고, IPS는 과거 정책에 대한 정확한 모델이 필요하다.
보통 reward를 정확한 모델로 계산하긴 어렵기 때문에 IPS를 활용하며 만약 과거 정책이 평가 대상 정책과 크게 다르면 편차가 커진다는 점을 유념해야한다.
앞서 언급한 마이크로소프트의 vowpal wabbit은 doubly robust estiomation을 써서, 두 방법의 한계점을 극복했다.
Regret is an expected difference between an expectation of the sum of rewards when using an optimal policy and the sum of collected rewards using the contextual bandit policy learned from data.
Ref
https://sumniya.tistory.com/12
'IT > Machine Learning' 카테고리의 다른 글
머신러닝 시그니처 프로젝트 1 (0) | 2024.10.20 |
---|---|
Neural Architecture Search : A Survey 논문 요약 및 리뷰 - Part 2 (5) | 2021.08.19 |
Neural Architecture Search : A Survey 논문 요약 및 리뷰 - Part 1 (0) | 2021.08.02 |