//wpko
두번째문단
"마르코프 결정 과정은 이산 시간 확률 제어 과정(discrete time stochastic control process)이다. "
세번째문단
"마르코프 결정 과정은 마르코프 연쇄(마르코프_연쇄,Markov_chain)의 확장된 형태로 볼 수 있다. (일반화,generalization?) 마르코프 연쇄와의 차이점은 의사결정자의 선택이 개입된 행동이 존재한다는 것과, 의사결정자에게 동기를 부여하는 보상이 존재한다는 점이다. 바꾸어 말하면, 각 상태에서 오직 한 가지 행동만이 가능하며 모든 전이에 대한 보상이 같은 마르코프 결정 과정은 마르코프 연쇄와 동일하다. "
즉 Markov chain에 중간 과정에 의사결정 등(결정,decision)의 변수를 집어넣은?
두번째문단
"마르코프 결정 과정은 이산 시간 확률 제어 과정(discrete time stochastic control process)이다. "
세번째문단
"마르코프 결정 과정은 마르코프 연쇄(마르코프_연쇄,Markov_chain)의 확장된 형태로 볼 수 있다. (일반화,generalization?) 마르코프 연쇄와의 차이점은 의사결정자의 선택이 개입된 행동이 존재한다는 것과, 의사결정자에게 동기를 부여하는 보상이 존재한다는 점이다. 바꾸어 말하면, 각 상태에서 오직 한 가지 행동만이 가능하며 모든 전이에 대한 보상이 같은 마르코프 결정 과정은 마르코프 연쇄와 동일하다. "
즉 Markov chain에 중간 과정에 의사결정 등(결정,decision)의 변수를 집어넣은?
tmp links ko ¶
https://yjjo.tistory.com/23?category=1011004
https://yjjo.tistory.com/19
https://yjjo.tistory.com/24
https://medium.com/curg/강화학습을-위한-마르코프-결정-과정-mdp-과-벨만-기대-방정식-d205388f3015
... 즉 rel. 강화학습,reinforcement_learning
https://yjjo.tistory.com/19
https://yjjo.tistory.com/24
https://medium.com/curg/강화학습을-위한-마르코프-결정-과정-mdp-과-벨만-기대-방정식-d205388f3015
... 즉 rel. 강화학습,reinforcement_learning
https://untitledtblog.tistory.com/139
MDP의 기본이 되는 모델은 Markov_reward_process ... 그걸 먼저 설명.
MDP의 기본이 되는 모델은 Markov_reward_process ... 그걸 먼저 설명.
마르코프_보상과정 ?