일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Nas
- 블라인드테스트
- agviewer
- SQL
- 주식
- 프로그래머스
- 인도가격
- 통화정책파급경로
- pandas
- python
- 카카오
- 증권투자권유자문인력
- 책읽는케이크
- 코딩테스트
- dataanalysis
- 집중하는법
- 파생상품평가모형
- potatoeseater
- RL
- 도둑맞은집중력
- ldbc
- 재무제표
- 독서모임
- montecarlo
- 통화주의학파
- 요한하리
- 재무엑셀
- ReinforcementLearning
- 파이썬
- 독후감
- Today
- Total
목록RL (2)
이것저것 담는 블로그
Multi arm bandit 은 쉽게 말해 slot machine이 한 개인 것 Contextual bandits은 machine이 여러 개라서 상태가 여러 개임 강화학습과의 다른 점은 에이전트가 환경을 바꾸지 못한다 즉 state 가 변하지 않는 환경임 단순 MAB는 state/context 등 환경에 대한 정보를 전혀 고려하지 않으며, CB는 환경에 대한 정보를 일컬어 state 대신 context라고 한다. Action이 환경을 바꿀 수 있는가?로 용어을 구분한 것 같다. Slot 한 개가 bandit 이라고 불리고 Machine이 가진 arm이 실제로 수행되는 각각의 action임 contextual bandits 의 GitHub repo 중에 가장 눈에 띄는 vowpal wabbit인데 온라인..

이전 Part 1에 이어서 NAS에 대해 더 알아보자. Neural Architecture Search : A Survey 논문 요약 및 리뷰 - Part 1 이 글은 Neural Architecture Search : A Survey, Thomas Elsken et al., 2019 논문을 요약하고 리뷰하는 첫번째 포스트이다. 논문 원본은 아래에서 볼 수 있다. Neural Architecture Search: A Survey Deep Learn.. miidsummer.tistory.com 3. Search Strategy 인공신경망을 탐색하기 위한 전략으로는 random search, Bayesian optimization, evolutionary methods, reinforcement learni..