마르코프_결정과정,Markov_decision_process,MDP



//wpko
두번째문단
"마르코프 결정 과정은 이산 시간 확률 제어 과정(discrete time stochastic control process)이다. "
세번째문단
"마르코프 결정 과정은 마르코프 연쇄(마르코프_연쇄,Markov_chain)의 확장된 형태로 볼 수 있다. (일반화,generalization?) 마르코프 연쇄와의 차이점은 의사결정자의 선택이 개입된 행동이 존재한다는 것과, 의사결정자에게 동기를 부여하는 보상이 존재한다는 점이다. 바꾸어 말하면, 각 상태에서 오직 한 가지 행동만이 가능하며 모든 전이에 대한 보상이 같은 마르코프 결정 과정은 마르코프 연쇄와 동일하다. "
즉 Markov chain에 중간 과정에 의사결정 등(결정,decision)의 변수를 집어넣은?