學習是一種典型的強化學習,其學習效率較低,尤其是當狀態空間和決策空間較大時。
當代的強化學習理論是基於多巴*獎賞系統。
本文提出了一種基於反應式行為控制的智能控制器,以強化學習作為智能控制器的學習算法。
一百利用Q強化學習算法對模糊規則中各行為的值函數進行在線增量學習,實現模糊決策的逐步求精。
強化學習是這種情況下的常用技術,而更多的傳統情形下需要使用效用函數。