'RL' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록RL (2)

이것저것 담는 블로그

bandits 알고리즘의 이해 및 강화학습과의 차이

Multi arm bandit 은 쉽게 말해 slot machine이 한 개인 것 Contextual bandits은 machine이 여러 개라서 상태가 여러 개임 강화학습과의 다른 점은 에이전트가 환경을 바꾸지 못한다 즉 state 가 변하지 않는 환경임 단순 MAB는 state/context 등 환경에 대한 정보를 전혀 고려하지 않으며, CB는 환경에 대한 정보를 일컬어 state 대신 context라고 한다. Action이 환경을 바꿀 수 있는가?로 용어을 구분한 것 같다. Slot 한 개가 bandit 이라고 불리고 Machine이 가진 arm이 실제로 수행되는 각각의 action임 contextual bandits 의 GitHub repo 중에 가장 눈에 띄는 vowpal wabbit인데 온라인..

IT/Machine Learning 2022. 9. 19. 09:20

Neural Architecture Search : A Survey 논문 요약 및 리뷰 - Part 2

이전 Part 1에 이어서 NAS에 대해 더 알아보자. Neural Architecture Search : A Survey 논문 요약 및 리뷰 - Part 1 이 글은 Neural Architecture Search : A Survey, Thomas Elsken et al., 2019 논문을 요약하고 리뷰하는 첫번째 포스트이다. 논문 원본은 아래에서 볼 수 있다. Neural Architecture Search: A Survey Deep Learn.. miidsummer.tistory.com 3. Search Strategy 인공신경망을 탐색하기 위한 전략으로는 random search, Bayesian optimization, evolutionary methods, reinforcement learni..

IT/Machine Learning 2021. 8. 19. 00:34

이전 Prev 1 Next 다음

목록RL (2)

이것저것 담는 블로그

티스토리툴바