SAUM-skrypt, mgr, PROJEKTY AUTOMATYKA, Project automatyka
[ Pobierz całość w formacie PDF ]
//-->PROGRAM ROZWOJOWYPOLITECHNIKI WARSZAWSKIEJPaweł WawrzyńskiSterowanie adaptacyjnei uczenie maszynowepreskryptGrudzień 2012Projekt wspó³finansowany przez Uniê Europejsk¹ w ramach Europejskiego Funduszu Spo³ecznegoIIPublikacja dystrybuowana jest bezpłatnieSpis treściI.1.1.1.2.1.3.1.4.1.5.2.1.2.2.2.3.2.4.Preliminaria345589111113152021222628Rozdział 1. Wprowadzenie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Przykłady zagadnień, w których pojawia się potrzeba adaptacji i uczenia się . . . . . . .Cel skryptu i poruszane zagadnienia . . . . . . . . . . . . . . . . . . . . . . . . . . . .Trzy dziedziny składające się na zawartość skryptu . . . . . . . . . . . . . . . . . . . . .Adaptacja i uczenie się jako droga do inteligentnego zachowania się maszyn i programówOrganizacja skryptu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Aproksymatory i zagadnienie aproksymacji . . . . . . . . . . . .Zagadnienie uczenia na zbiorze nieskończonym, on-line . . . . . .Perceptron wielowarstwowy . . . . . . . . . . . . . . . . . . . . .Najszybszy spadek i stochastyczny najszybszy spadek . . . . . . .Algorytm gradientu prostego . . . . . . . . . . . . . . . . . . . .Procedura Robbinsa-Monro . . . . . . . . . . . . . . . . . . . . .Uczenie się przy użyciu aproksymacji stochastycznej . . . . . . . .Zagadnienia praktyczne związane z używaniem sieci neuronowychuczących się . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .w systemach. . . . . . . .............................Rozdział 2. Aproksymacja funkcji i podstawowe mechanizmy adaptacji. . . . . . . . . . . .2.5.2.6.. . . .II. Uczenie się ze wzmocnieniemRozdział 3. Podstawy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3.1.3.2.3.3.4.1.Proces Decyzyjny Markowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .AlgorytmyQ-LearningiSARSA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Rozszerzenie algorytmówQ-LearningiSARSAdo ciągłych przestrzeni stanów i decyzji .Parametryzowane rozkłady prawdopodobieństwaRozkład logitowy . . . . . . . . . . . . . . . .Wielopunktowy rozkład logitowy . . . . . . . .Normalna zmienna losowa . . . . . . . . . . . .Normalny wektor losowy . . . . . . . . . . . .Algorytm REINFORCE punktowy . . . . . . .Stacjonarna polityka decyzyjna . . . . . . . . .Algorytm REINFORCE statyczny . . . . . . . .Algorytm REINFORCE epizodyczny . . . . . .Polityka stacjonarna . . . . . . . . . . . . . . .............................................................................................................................................................................................................................33333639434345454648495052535759596062Rozdział 4. Optymalizacja stochastycznego wyboru. . . . . . . . . . . . . . . . . . . . . . .4.2.4.3.4.4.4.5.Rozdział 5. Algorytm Aktor-Krytyk. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5.1.5.2.5.3.Aktor, Krytyk i idea algorytmu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Klasyczny Aktor-Krytyk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Aktor-Krytyk(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .IVSpis treści6767687173747778798181828284868889Rozdział 6. Aktor-Krytyk z kompatybilną aproksymacją. . . . . . . . . . . . . . . . . . . .6.1.6.2.6.3.6.4.6.5.7.1.7.2.7.3.Optymalizacja średniej nagrody . . . . . . . . . . . . . .Gradient polityki . . . . . . . . . . . . . . . . . . . . . .Aktor-Krytyk z kompatybilną aproksymacją . . . . . . .Naturalny Aktor-Krytyk . . . . . . . . . . . . . . . . . .Dyskonto ograniczenie wariancji estymatora gradientu......................................................................................................................................................................Rozdział 7. Wielokrotne przetwarzanie obserwacji. . . . . . . . . . . . . . . . . . . . . . . .AlgorytmQ-Learningz powtarzaniem doświadczenia . . . . . . . . . .Próbkowanie ważnościowe . . . . . . . . . . . . . . . . . . . . . . . .Algorytm Aktor-Krytyk z powtarzaniem doświadczenia . . . . . . . . .Inkrementacyjne algorytmy z Aktorem . . . . . . . . . . . . . . . . . .Powtarzanie doświadczenia w inkrementacyjnym algorytmie z AktoremKlasyczny Aktor-Krytyk, estymatoryϕorazψ. . . . . . . . . . . . . .Uogólniony Aktor-Krytyk, estymatoryϕorazψ. . . . . . . . . . . . .Aktor-Krytyk z powtarzaniem doświadczenia, implementacja . . . . . .Optymalizacja estymatora wskaźnika jakości . . . . . . . . . . . . . . .7.4.Rozdział 8. Podsumowanie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .III.9.1.Sterowanie adaptacyjne95................................................................................................................................................................................................................................................................................................................................................................................................................. 95. 95. 95. 96. 96. 97. 99. 99. 104..............107108108110112114117121122122127129130133Rozdział 9. Obiekty dynamiczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Wstęp . . . . . . . . . . . . . . . . . . . . . . . . .Obiekt dynamiczny . . . . . . . . . . . . . . . . . .Model referencyjny i sterownik . . . . . . . . . . . .Zagadnienie adaptacji . . . . . . . . . . . . . . . . .Liniowe obiekty SISO . . . . . . . . . . . . . . . . .Ogólny obiekt SISO i jego opis . . . . . . . . . . . .Reprezentacja systemu SISO w przestrzeni stanów . .Interpretacja i własności systemów SISO . . . . . . .Dyskretna aproksymacja obiektów o ciągłej dynamice9.2.9.3.Rozdział 10. Stabilność i funkcja Lapunowa. . . . . . . . . . . . . . . . . . . . . . . . . . . 10710.1. Ogólna postać typowego schematu adaptacji . . . . . .System nieautonomiczny . . . . . . . . . . . . . . . .10.2. Stabilność . . . . . . . . . . . . . . . . . . . . . . . .10.3. Funkcja Lapunowa . . . . . . . . . . . . . . . . . . . .10.4. Stabilność w kontekście funkcji Lapunowa . . . . . . .Funkcja Lapunowa dla stacjonarnego systemu liniowego11.1. Liniowy obiekt SISO pierwszego rzędu11.2. Uogólnienie . . . . . . . . . . . . . .Dysuksja . . . . . . . . . . . . . . . .11.3. Obiekty liniowe wyższych rzędów . .................................................Rozdział 11. Sterowanie adaptacyjne z modelem referencyjnym. . . . . . . . . . . . . . . . 117Rozdział 12. Zaawansowane schematy adaptacji. . . . . . . . . . . . . . . . . . . . . . . . . 12712.1. Obiekty o nieliniowej dynamice . . . . . . . . . .12.2. Obiekty z nieobserwowalnymi pochodnymi stanuObiekty drugiego rzędu . . . . . . . . . . . . . .Obiekty dowolnego rzędu . . . . . . . . . . . . .Rozdział 13. Samostrojące się regulatory. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13513.1. Dynamika liniowo parametryzowalna . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13513.2. Liniowe najmniejsze kwadraty . . . . . . . . . . . .Własności . . . . . . . . . . . . . . . . . . . . . . .13.3. Najmniejsze kwadraty z wykładniczym zapominaniemWłasności . . . . . . . . . . . . . . . . . . . . . . .13.4. Adaptacyjny dobór współczynnika zapominania . . ................................................................................................137138139140141IV. Inne podejścia do adaptacjiRozdział 14. Aproksymowane programowanie dynamiczne. . . . . . . . . . . . . . . . . . . 145Rozdział 15. Stochastyczne sterowanie adaptacyjne. . . . . . . . . . . . . . . . . . . . . . . 147Rozdział 16. Sterowanie z iteracyjnym uczeniem się. . . . . . . . . . . . . . . . . . . . . . . 149Rozdział 17. Filtr Kalmana. . . .17.1. Model . . . . . . . . . . .17.2. Algorytm . . . . . . . . . .17.3. Wyprowadzenia . . . . . .17.4. Rozszerzony Filtr Kalmana.....................................................................................................................................................................153153154155156Bibliografia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 [ Pobierz całość w formacie PDF ] |