8 (905) 200-03-37 Владивосток
с 09:00 до 19:00
CHN - 1.14 руб. Сайт - 17.98 руб.

[Официальное подлинное] укрепление обучения и оптимального контроля издательства Tsinghua University Press [美] Demon P Международный университет знаменитого университета.

Цена: 1 769руб.    (¥98.34)
Артикул: 622576497873

Вес товара: ~0.7 кг. Указан усредненный вес, который может отличаться от фактического. Не включен в цену, оплачивается при получении.

Этот товар на Таобао Описание товара
Продавец:中交盛世图书专营店
Рейтинг:
Всего отзывов:0
Положительных:0
Добавить в корзину
Другие товары этого продавца
¥1392 500руб.
¥ 109.8 87.841 580руб.
¥791 421руб.
¥ 69 55.2993руб.

  название книги: ——
  издательство:  Tsinghua University Press
  дата публикации 2020
  номер ISBN: 9787302540328

Цель этой книги состоит в том, чтобы рассмотреть большие и сложные проблемы с принятием решений.Эта книга обсуждается, зависит от приблизительных решений для создания субэксерельной стратегии с достаточной производительностью.Эти методы в совокупности называются расширенным обучением, или их также можно назвать приблизительным динамическим планированием и нейронным динамическим планированием.
Тема этой книги создает взаимодействие оптимального контроля и искусственного интеллекта.Одна из целей этой книги - изучить общую границу между этими двумя областями и установить мост, к которому можно получить доступ к любому полевым вопросам.

Димитрит П. Берцека, профессор пожизненного MIT в Соединенных Штатах, академик Национальной инженерной академии и приглашенный профессор в Комплексе Университета Цинхуа и исследования сетевой системы.Известные авторы в области электротехники и компьютерных наук, созданные более чем дюжиной лучших учебников и монографий, таких как «нелинейное планирование», «оптимизация сети» и «выпуклость оптимизации».

 

Dimitri P. Bertseka, профессор пожизненного MIT, академик Национальной академии инженерной академии, профессора медицинского и сетевого исследовательского исследования системы Университета Цинхуа, всемирно известных авторов в области электротехники и компьютерных наук, авторизованный «нелинейный план «,« Оптимизация сети »,« Выпуклый »оптимизация более чем дюжины лучших учебников и монографий.Цель этой книги состоит в том, чтобы рассмотреть большие и сложные проблемы с принятием решений.Эта книга обсуждается, зависит от приблизительных решений для создания субэксерельной стратегии с достаточной производительностью.Эти методы в совокупности называются расширенным обучением, или их также можно назвать приблизительным динамическим планированием и нейронным динамическим планированием.

Тема этой книги создает взаимодействие оптимального контроля и искусственного интеллекта.Одна из целей этой книги - изучить общую границу между этими двумя областями и установить мост, к которому можно получить доступ к любому полевым вопросам.

 

1. Exact Dynamic Programming
1.1. DeterministicDynamicProgramming            p. 2
1.1.1. DeterministicProblems               p. 2
1.1.2. TheDynamicProgrammingAlgorithm         p. 7
1.1.3. Approximation inValue Space            p. 12
1.2. StochasticDynamicProgramming              p. 14
1.3. Examples,Variations, and Simplifications          p. 18
1.3.1. Deterministic ShortestPathProblems         p. 19
1.3.2. DiscreteDeterministicOptimization          p. 21
1.3.3. Problemswith aTermination State          p. 25
1.3.4. Forecasts                      p. 26
1.3.5. Problems with Uncontrollable State Components    p. 29
1.3.6. PartialState Information andBelief States       p. 34
1.3.7. LinearQuadraticOptimalControl           p. 38
1.3.8. SystemswithUnknownParameters -Adaptive     
Control                      p. 40
1.4. ReinforcementLearning andOptimalControl - Some     
Terminology                       p. 43
1.5. Notes and Sources                    p. 45
2. Approximation in Value Space
2.1. ApproximationApproaches inReinforcementLearning     p. 50
2.1.1. General Issues ofApproximation inValue Space     p. 54
2.1.2. Off-Line andOn-LineMethods            p. 56
2.1.3. Model-Based Simplification of the Lookahead     
Minimization                    p. 57
2.1.4. Model-Free off-Line Q-Factor Approximation     p. 58
2.1.5. Approximation inPolicy Space onTop of       
ApproximationinValue Space            p. 61
2.1.6. When is Approximation in Value Space Effective?    p. 62
2.2. Multistep Lookahead                   p. 64
??ii
viii Contents
2.2.1. Multistep Lookahead and Rolling Horizon       p. 65
2.2.2. Multistep Lookahead and Deterministic Problems    p. 67
2.3. Problem Approximation                  p. 69
2.3.1. Enforced Decomposition               p. 69
2.3.2. Probabilistic Approximation - Certainty Equivalent   
Control                      p. 76
2.4. Rollout and the Policy Improvement Principle        p. 83
2.4.1. On-Line Rollout for Deterministic Discrete       
Optimization                    p. 84
2.4.2. Stochastic Rollout and Monte Carlo Tree Search    p. 95
2.4.3. Rollout with an Expert              p. 104
2.5. On-Line Rollout for Deterministic Infinite-Spaces Problems -  
Optimization Heuristics                 p. 106
2.5.1. Model Predictive Control              p. 108
2.5.2. Target Tubes and the Constrained Controllability    
Condition                    p. 115
2.5.3. Variants of Model Predictive Control        p. 118
2.6. Notes and Sources                   p. 120
3. Parametric Approximation
3.1. Approximation Architectures               p. 126
3.1.1. Linear and Nonlinear Feature-Based Architectures   p. 126
3.1.2. Training of Linear and Nonlinear Architectures    p. 134
3.1.3. Incremental Gradient and Newton Methods      p. 135
3.2. Neural Networks                    p. 149
3.2.1. Training of Neural Networks            p. 153
3.2.2. Multilayer and Deep Neural Networks        p. 157
3.3. Sequential Dynamic Programming Approximation      p. 161
3.4. Q-Factor Parametric Approximation            p. 162
3.5. Parametric Approximation in Policy Space by        
Classification                      p. 165
3.6. Notes and Sources                   p. 171
4. Infinite Horizon Dynamic Programming
4.1. An Overview of Infinite Horizon Problems         p. 174
4.2. Stochastic Shortest Path Problems            p. 177
4.3. Discounted Problems                  p. 187
4.4. Semi-Markov Discounted Problems            p. 192
4.5. Asynchronous Distributed Value Iteration         p. 197
4.6. Policy Iteration                    p. 200
4.6.1. Exact Policy Iteration               p. 200
4.6.2. Optimistic and Multistep Lookahead Policy      
Iteration                     p. 205
4.6.3. Policy Iteration for Q-factors            p. 208
Contents i??
4.7. Notes and Sources                   p. 209
4.8. Appendix: MathematicalAnalysis            p. 211
4.8.1. Proofs for Stochastic ShortestPathProblems     p. 212
4.8.2. Proofs forDiscountedProblems           p. 217
4.8.3. ConvergenceofExact andOptimistic         
Policy Iteration                 p. 218
5. Infinite Horizon Reinforcement Learning
5.1. Approximation in Value Space - Performance Bounds    p. 222
5.1.1. LimitedLookahead                p. 224
5.1.2. Rollout and Approximate Policy Improvement    p. 227
5.1.3. ApproximatePolicy Iteration            p. 232
5.2. FittedValue Iteration                  p. 235
5.3. Simulation-BasedPolicy IterationwithParametric      
Approximation                     p. 239
5.3.1. Self-Learning andActor-CriticMethods       p. 239
5.3.2. Model-Based Variant of a Critic-Only Method    p. 241
5.3.3. Model-FreeVariant of aCritic-OnlyMethod     p. 243
5.3.4. Implementation Issues ofParametricPolicy      
Iteration                     p. 246
5.3.5. Convergence Issues ofParametricPolicy Iteration -   
Oscillations                    p. 249
5.4. Q-Learning                      p. 253
5.4.1. Optimistic Policy Iteration with Parametric Q-Factor  
Approximation- SARSAandDQN         p. 255
5.5. AdditionalMethods -TemporalDifferences        p. 256
5.6. Exact andApproximateLinearProgramming       p. 267
5.7. Approximation inPolicy Space              p. 270
5.7.1. Training byCostOptimization -PolicyGradient,    
Cross-Entropy,andRandomSearchMethods     p. 276
5.7.2. Expert-BasedSupervisedLearning         p. 286
5.7.3. ApproximatePolicy Iteration,Rollout, and      
ApproximationinPolicySpace           p. 288
5.8. Notes and Sources                   p. 293
5.9. Appendix: MathematicalAnalysis            p. 298
5.9.1. Performance Bounds for Multistep Lookahead     p. 299
5.9.2. Performance Bounds for Rollout           p. 301
5.9.3. Performance Bounds for Approximate Policy      
Iteration                     p. 304
6. Aggregation
6.1. AggregationwithRepresentativeStates          p. 308
6.1.1. Continuous State and Control Space Discretization  p. 314
6.1.2. Continuous State Space - POMDP Discretization   p. 315
?? Contents
6.2. AggregationwithRepresentativeFeatures         p. 317
6.2.1. Hard Aggregation and Error Bounds         p. 320
6.2.2. AggregationUsingFeatures             p. 322
6.3. Methods for Solving theAggregateProblem        p. 328
6.3.1. Simulation-BasedPolicy Iteration          p. 328
6.3.2. Simulation-Based Value Iteration          p. 331
6.4. Feature-BasedAggregationwith aNeuralNetwork     p. 332
6.5. BiasedAggregation                   p. 334
6.6. Notes and Sources                   p. 337
6.7. Appendix: MathematicalAnalysis            p. 340
References                        p. 345
Index                           p. 369

Turning to the succor of modern computing machines, let us
renounce all analytic tools.
Richard Bellman [Bel57]
From a teleological point of view the particular numerical solution
of any particular set of equations is of far less importance than
the understanding of the nature of the solution.
Richard Bellman [Bel57]
In this book we consider large and challenging multistage decision problems,
which can be solved in principle by dynamic programming (DP for short),
but their exact solution is computationally intractable. We discuss solution
methods that rely on approximations to produce suboptimal policies with
adequate performance. These methods are collectively known by several
essentially equivalent names: reinforcement learning, approximate dynamic
programming, and neuro-dynamic programming. We will use primarily the
most popular name: reinforcement learning.
Our subject has benefited greatly from the interplay of ideas from
optimal control and from artificial intelligence. One of the aims of the
book is to explore the common boundary between these two fields and to
form a bridge that is accessible by workers with background in either field.
Another aim is to organize coherently the broad mosaic of methods that
have proved successful in practice while having a solid theoretical and/or
logical foundation. This may help researchers and practitioners to find
their way through the maze of competing ideas that constitute the current
state of the art.
There are two general approaches for DP-based suboptimal control.
The first is approximation in value space, where we approximate in some
way the optimal cost-to-go function with some other function. The major
alternative to approximation in value space is approximation in policy
??i
??ii Preface
space, whereby we select the policy by using optimization over a suitably
restricted class of policies, usually a parametric family of some form. In
some schemes these two types of approximation may be combined, aiming
to capitalize on the advantages of both. Generally, approximation in value
space is tied more closely to the central DP ideas of value and policy iteration
than approximation in policy space, which relies on gradient-like
descent, a more broadly applicable optimization mechanism.
While we provide a substantial treatment of approximation in policy
space, most of the book is focused on approximation in value space. Here,
the control at each state is obtained by optimization of the cost over a
limited horizon, plus an approximation of the optimal future cost. The
latter cost, which we generally denote by ? J, is a function of the state where
we may be. It may be computed by a variety of methods, possibly involving
simulation and/or some given or separately derived heuristic/suboptimal
policy. The use of simulation often allows for implementations that do not
require a mathematical model, a major idea that has allowed the use of DP
beyond its classical boundaries.