登錄

馬爾可夫決策過程

百科 > 經(jīng)營決策 > 馬爾可夫決策過程

1.馬爾可夫決策過程概述

馬爾可夫決策過程是基于馬爾可夫過程理論的隨機動態(tài)系統(tǒng)的最優(yōu)決策過程。馬爾可夫決策過程是序貫決策的主要研究領(lǐng)域。它是馬爾可夫過程與確定性的動態(tài)規(guī)劃相結(jié)合的產(chǎn)物,故又稱馬爾可夫型隨機動態(tài)規(guī)劃,屬于運籌學(xué)中數(shù)學(xué)規(guī)劃的一個分支。

馬爾可夫決策過程是指決策者周期地或連續(xù)地觀察具有馬爾可夫性的隨機動態(tài)系統(tǒng),序貫地作出決策。即根據(jù)每個時刻觀察到的狀態(tài),從可用的行動集合中選用一個行動作出決策,系統(tǒng)下一步(未來)的狀態(tài)是隨機的,并且其狀態(tài)轉(zhuǎn)移概率具有馬爾可夫性。決策者根據(jù)新觀察到的狀態(tài),再作新的決策,依此反復(fù)地進行。馬爾可夫性是指一個隨機過程未來發(fā)展的概率規(guī)律與觀察之前的歷史無關(guān)的性質(zhì)。馬爾可夫性又可簡單敘述為狀態(tài)轉(zhuǎn)移概率的無后效性。狀態(tài)轉(zhuǎn)移概率具有馬爾可夫性的隨機過程即為馬爾可夫過程。馬爾可夫決策過程又可看作隨機對策的特殊情形,在這種隨機對策中對策的一方是無意志的。馬爾可夫決策過程還可作為馬爾可夫型隨機最優(yōu)控制,其決策變量就是控制變量。

2.馬爾可夫決策過程的發(fā)展概況

50年代R.貝爾曼研究動態(tài)規(guī)劃時和L.S.沙普利研究隨機對策時已出現(xiàn)馬爾可夫決策過程的基本思想。R.A.霍華德(1960)和D.布萊克韋爾(1962)等人的研究工作奠定了馬爾可夫決策過程的理論基礎(chǔ)。1965年,布萊克韋爾關(guān)于一般狀態(tài)空間的研究和E.B.丁金關(guān)于非時齊(非時間平穩(wěn)性)的研究,推動了這一理論的發(fā)展。1960年以來,馬爾可夫決策過程理論得到迅速發(fā)展,應(yīng)用領(lǐng)域不斷擴大。凡是以馬爾可夫過程作為數(shù)學(xué)模型的問題,只要能引入決策和效用結(jié)構(gòu),均可應(yīng)用這種理論。

3.馬爾可夫決策過程的數(shù)學(xué)描述

周期地進行觀察的馬爾可夫決策過程可用如下五元組來描述:{S,(A(i),i∈S,q,γ,V},其中S 為系統(tǒng)的狀態(tài)空間(見狀態(tài)空間法); A(i)為狀態(tài)i(i∈S)的可用行動(措施,控制)集;q為時齊的馬爾可夫轉(zhuǎn)移律族,族的參數(shù)是可用的行動;γ是定義在Γ(Г呏{(i,ɑ):a∈A(i),i∈S}上的單值實函數(shù);若觀察到的狀態(tài)為i,選用行動a,則下一步轉(zhuǎn)移到狀態(tài) j的概率為q(j│i,ɑ),而且獲得報酬γ(j,ɑ),它們均與系統(tǒng)的歷史無關(guān);V是衡量策略優(yōu)劣的指標(biāo)(準(zhǔn)則)。

4.馬爾可夫決策過程的策略

策略是提供給決策者在各個時刻選取行動的規(guī)則,記作π=(π0,π1,π2,…, πn,πn+1…),其中πn是時刻 n選取行動的規(guī)則。從理論上來說,為了在大范圍尋求最優(yōu)策略πn,最好根據(jù)時刻 n以前的歷史,甚至是隨機地選擇最優(yōu)策略。但為了便于應(yīng)用,常采用既不依賴于歷史、又不依賴于時間的策略,甚至可以采用確定性平穩(wěn)策略。

5.馬爾可夫決策過程的指標(biāo)

衡量策略優(yōu)劣的常用指標(biāo)有折扣指標(biāo)和平均指標(biāo)。折扣指標(biāo)是指長期折扣〔把 t時刻的單位收益折合成0時刻的單位收益的βt(β < 1)倍〕期望總報酬;平均指標(biāo)是指單位時間的平均期望報酬。

采用折扣指標(biāo)的馬爾可夫決策過程稱為折扣模型。業(yè)已證明:若一個策略是β折扣最優(yōu)的,則初始時刻的決策規(guī)則所構(gòu)成的平穩(wěn)策略對同一β也是折扣最優(yōu)的,而且它還可以分解為若干個確定性平穩(wěn)策略,它們對同一β都是最優(yōu)的?,F(xiàn)在已有計算這種策略的算法。

采用平均指標(biāo)的馬爾可夫決策過程稱為平均模型。業(yè)已證明:當(dāng)狀態(tài)空間S 和行動集A(i)均為有限集時,對于平均指標(biāo)存在最優(yōu)的確定性平穩(wěn)策略;當(dāng)S和(或)A(i)不是有限的情況,必須增加條件,才有最優(yōu)的確定性平穩(wěn)策略。計算這種策略的算法也已研制出來。

評論  |   0條評論