Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- SQL
- ReinforcementLearning
- 블라인드테스트
- dataanalysis
- 책읽는케이크
- 통화주의학파
- potatoeseater
- 요한하리
- 재무제표
- python
- 인도가격
- 통화정책파급경로
- 카카오
- 파이썬
- pandas
- 주식
- 도둑맞은집중력
- 프로그래머스
- 독서모임
- 파생상품평가모형
- 집중하는법
- RL
- Nas
- 증권투자권유자문인력
- 재무엑셀
- agviewer
- ldbc
- montecarlo
- 코딩테스트
- 독후감
Archives
- Today
- Total
목록mab (1)
이것저것 담는 블로그
bandits 알고리즘의 이해 및 강화학습과의 차이
Multi arm bandit 은 쉽게 말해 slot machine이 한 개인 것 Contextual bandits은 machine이 여러 개라서 상태가 여러 개임 강화학습과의 다른 점은 에이전트가 환경을 바꾸지 못한다 즉 state 가 변하지 않는 환경임 단순 MAB는 state/context 등 환경에 대한 정보를 전혀 고려하지 않으며, CB는 환경에 대한 정보를 일컬어 state 대신 context라고 한다. Action이 환경을 바꿀 수 있는가?로 용어을 구분한 것 같다. Slot 한 개가 bandit 이라고 불리고 Machine이 가진 arm이 실제로 수행되는 각각의 action임 contextual bandits 의 GitHub repo 중에 가장 눈에 띄는 vowpal wabbit인데 온라인..
IT/Machine Learning
2022. 9. 19. 09:20