Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Обучение с подкреплением: введение

Покупка
Артикул: 748313.01.99
Доступ онлайн
1 899 ₽
В корзину
Идея обучения с подкреплением возникла десятки лет назад, но этой дисциплине предстояло пройти долгий путь, прежде чем она стала одним из самых активных направлений исследований в области машинного обучения и нейронных сетей. Сегодня это предмет интереса ученых, занимающихся психологией, теорией управления, искусственным интеллектом и многими другими отраслями знаний. Подход, принятый авторами книги, ставит акцент на практическое использование обучения с подкреплением. В первой части читатель знакомится с базовыми его аспектами. Во второй части представлены приближенные методы решения в условиях ограниченных вычислительных ресурсов. В третьей части книги обсуждается важность обучения с подкреплением для психологии и нейронаук. Издание предназначено для студентов технических вузов, разработчиков, специализирующихся на машинном обучении и искусственном интеллекте, а также представителей нетехнических профессий, которые могут использовать описанные методики в своей работе.
Саттон, Р. С. Обучение с подкреплением: введение : практическое руководство / Р. С. Саттон, Э. Барто ; пер. с анг. А. А. Слинкина. - Москва : ДМК Пресс, 2020. - 552 с. - ISBN 978-5-97060-097-9. - Текст : электронный. - URL: https://znanium.com/catalog/product/1210617 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Ричард С. Саттон, Эндрю Дж. Барто

Обучение с подкреплением

Введение

Reinforcement Learning

An Introduction

Second Edition

Richard S. Sutton and Andrew G. Barto

Обучение с подкреплением

Введение

Второе издание

Ричард С. Саттон, Эндрю Дж. Барто

        Москва, 2020

УДК 004.85
ББК 32.971.3
С21

Саттон Р. С., Барто Э. Дж.
С21 
Обучение с подкреплением: Введение. 2-е изд. / пер. с англ. А. А. Слинкина. – М.: ДМК Пресс, 2020. – 552 с.: ил. 

ISBN 978-5-97060-097-9

Идея обучения с подкреплением возникла десятки лет назад, но этой дисциплине 
предстояло пройти долгий путь, прежде чем она стала одним из самых активных направлений исследований в области машинного обучения и нейронных сетей. Сегодня 
это предмет интереса ученых, занимающихся психологией, теорией управления, 
искусственным интеллектом и многими другими отраслями знаний.
Подход, принятый авторами книги, ставит акцент на практическое использование 
обучения с подкреплением. В первой части читатель знакомится с базовыми его 
аспектами. Во второй части представлены приближенные методы решения в условиях ограниченных вычислительных ресурсов. В третьей части книги обсуждается 
важность обучения с подкреплением для психологии и нейронаук.
Издание предназначено для студентов технических вузов, разработчиков, специализирующихся на машинном обучении и искусственном интеллекте, а также 
представителей нетехнических профессий, которые могут использовать описанные 
методики в своей работе.

УДК 004.85
ББК 32.971.3

Original English language edition published by The MIT Press Cambridge, MA. Copyright © 2018 
Richard S. Sutton and Andrew G. Barto. Russian-language edition copyright © 2020 by DMK Press. 
All rights reserved.

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой 
бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав.

ISBN 978-0-262-03924-6 (англ.) 
Copyright © 2018 Richard S. Sutton and Andrew G. Barto
ISBN 978-5-97060-097-9 (рус.) 
© Оформление, издание, перевод, ДМК Пресс, 2020

Посвящается памяти А. Гарри Клопфа

Содержание

Вступительное слово .................................................................................................... 11

Предисловие ко второму изданию ..................................................................... 12

Предисловие к первому изданию........................................................................ 17

Обозначения ..................................................................................................................... 20

От издательства ............................................................................................................... 25

Глава 1. Введение ........................................................................................................... 26

1.1. Обучение с подкреплением ............................................................................................... 26
1.2. Примеры ............................................................................................................................. 30
1.3. Элементы обучения с подкреплением ............................................................................. 31
1.4. Ограничения и круг вопросов ........................................................................................... 33
1.5. Развернутый пример: игра в крестики-нолики ............................................................... 34
1.6. Резюме ................................................................................................................................ 39
1.7. История ранних этапов обучения с подкреплением ....................................................... 39
Библиографические замечания ............................................................................................... 49

Часть I. ТАБЛИЧНЫЕ МЕТОДЫ РЕШЕНИЯ ............................................... 50

Глава 2. Многорукие бандиты ................................................................................ 51

2.1. Задача о k-руком бандите .................................................................................................. 51
2.2. Методы ценности действий .............................................................................................. 53
2.3. 10-рукий испытательный стенд ........................................................................................ 54
2.4. Инкрементная реализация ................................................................................................ 57
2.5. Нестационарная задача ..................................................................................................... 59
2.6. Оптимистические начальные значения ........................................................................... 60
2.7. Выбор действия, дающего верхнюю доверительную границу ........................................ 62
2.8. Градиентные алгоритмы бандита ..................................................................................... 64
2.9. Ассоциативный поиск (контекстуальные бандиты) ........................................................ 68
2.10. Резюме .............................................................................................................................. 69
Библиографические и исторические замечания .................................................................... 71

Глава 3. Конечные марковские процессы принятия решений .......... 74

3.1. Интерфейс между агентом и окружающей средой .......................................................... 74
3.2. Цели и вознаграждения ..................................................................................................... 80
3.3. Доход и эпизоды ................................................................................................................ 82
3.4. Унифицированная нотация для эпизодических и непрерывных задач ........................ 84
3.5. Стратегии и функции ценности ........................................................................................ 86
3.6. Оптимальные стратегии и оптимальные функции ценности ........................................ 91
3.7. Оптимальность и аппроксимация .................................................................................... 96
3.8. Резюме ................................................................................................................................ 97
Библиографические и исторические замечания .................................................................... 99

Содержание  7

Глава 4. Динамическое программирование ................................................ 102

4.1. Оценивание стратегии (предсказание) .......................................................................... 103
4.2. Улучшение стратегии ....................................................................................................... 107
4.3. Итерация по стратегиям .................................................................................................. 109
4.4. Итерация по ценности ..................................................................................................... 112
4.5. Асинхронное динамическое программирование .......................................................... 115
4.6. Обобщенная итерация по стратегиям ............................................................................ 116
4.7. Эффективность динамического программирования .................................................... 117
4.8. Резюме .............................................................................................................................. 118
Библиографические и исторические замечания .................................................................. 119

Глава 5. Методы Монте-Карло ............................................................................. 122

5.1. Предсказание методами Монте-Карло ........................................................................... 123
5.2. Оценивание ценности действий методом Монте-Карло .............................................. 127
5.3. Управление методом Монте-Карло ................................................................................ 129
5.4. Управление методом Монте-Карло без исследовательских стартов ............................ 132
5.5. Предсказание с разделенной стратегией посредством выборки по значимости ....... 135
5.6. Инкрементная реализация .............................................................................................. 142
5.7. Управление методом Монте-Карло с разделенной стратегией .................................... 143
5.8. *Выборка по значимости с учетом обесценивания ....................................................... 146
5.9. *Приведенная выборка по значимости .......................................................................... 147
5.10. Резюме ............................................................................................................................ 149
Библиографические и исторические замечания .................................................................. 150

Глава 6. Обучение на основе временных различий ............................... 152

6.1. Предсказание TD-методами............................................................................................ 152
6.2. Преимущества TD-методов предсказания ..................................................................... 157
6.3. Оптимальность TD(0) ....................................................................................................... 159
6.4. Sarsa: TD-управление с единой стратегией ................................................................... 162
6.5. Q-обучение: TD-управление с разделенной стратегией ............................................... 165
6.6. Expected Sarsa ................................................................................................................... 167
6.7. Смещение максимизации и двойное обучение ............................................................. 169
6.8. Игры, послесостояния и другие специальные случаи ................................................... 171
6.9. Резюме .............................................................................................................................. 173
Библиографические и исторические замечания .................................................................. 174

Глава 7. n-шаговый бутстрэппинг ....................................................................... 176

7.1. n-шаговое TD-предсказание ............................................................................................ 176
7.2. n-шаговый алгоритм Sarsa ............................................................................................... 181
7.3. n-шаговое обучение с разделенной стратегией ............................................................. 184
7.4. *Приведенные методы с переменным управлением .................................................... 186
7.5. Обучение с разделенной стратегией без выборки по значимости :  
n-шаговый алгоритм обновления по дереву ........................................................................ 188
7.6. *Унифицированный алгоритм: n-шаговый Q(σ) ............................................................ 190
7.7. Резюме ............................................................................................................................... 193
Библиографические и исторические замечания .................................................................. 194

Глава 8. Планирование и обучение табличными методами ............. 195

8.1. Модели и планирование .................................................................................................. 195
8.2. Dyna: объединение планирования, исполнения и обучения ........................................ 198

 Содержание

8.3. Когда модель неверна ...................................................................................................... 203
8.4. Приоритетный проход ..................................................................................................... 206
8.5. Сравнение выборочного и полного обновлений ........................................................... 210
8.6. Траекторная выборка....................................................................................................... 213
8.7. Динамическое программирование в реальном времени .............................................. 216
8.8. Планирование в момент принятия решений ................................................................ 220
8.9. Эвристический поиск ...................................................................................................... 221
8.10. Разыгрывающие алгоритмы.......................................................................................... 224
8.11. Поиск по дереву методом Монте-Карло ....................................................................... 226
8.12. Резюме главы .................................................................................................................. 229
8.13. Резюме части I: оси ........................................................................................................ 230
Библиографические и исторические замечания .................................................................. 233

Часть II. ПРИБЛИЖЕННЫЕ МЕТОДЫ РЕШЕНИЯ .............................. 236

Глава 9. Предсказание с единой стратегией  
и аппроксимацией ....................................................................................................... 238
9.1. Аппроксимация функции ценности ............................................................................... 239
9.2. Целевая функция предсказания (VE
—) ............................................................................. 240
9.3. Стохастические градиентные и полуградиентные методы .......................................... 242
9.4. Линейные методы ............................................................................................................ 246
9.5. Конструирование признаков для линейных методов ................................................... 252
9.5.1. Полиномы ................................................................................................................. 252
9.5.2. Базис Фурье ............................................................................................................... 254
9.5.3. Грубое кодирование.................................................................................................. 257
9.5.4. Плиточное кодирование .......................................................................................... 260
9.5.5. Радиально-базисные функции ................................................................................ 265
9.6. Выбор размера шага вручную ......................................................................................... 266
9.7. Нелинейная аппроксимация функций: искусственные нейронные сети .................... 267
9.8. Алгоритм TD наименьших квадратов ............................................................................ 272
9.9. Аппроксимация функций с запоминанием ................................................................... 274
9.10. Аппроксимация с помощью ядерных функций ........................................................... 276
9.11. Более глубокий взгляд на обучение с единой стратегией : заинтересованность  
и значимость ........................................................................................................................... 278
9.12. Резюме ............................................................................................................................ 280
Библиографические и исторические замечания .................................................................. 281

Глава 10. Управление с единой стратегией и аппроксимацией ...... 288
10.1. Эпизодическое полуградиентное управление ............................................................. 288
10.2. Полуградиентный n-шаговый Sarsa .............................................................................. 292
10.3. Среднее вознаграждение: новая постановка непрерывных задач ............................ 294
10.4. Возражения против постановки с обесцениванием .................................................... 299
10.5. Дифференциальный полуградиентный n-шаговый Sarsa .......................................... 301
10.6. Резюме ............................................................................................................................ 302
Библиографические и исторические замечания .................................................................. 303

Глава 11. *Методы с разделенной стратегией  
и аппроксимацией  ...................................................................................................... 304
11.1. Полуградиентные методы ............................................................................................. 305
11.2. Примеры расходимости в случае с разделенной стратегией ...................................... 307
11.3. Смертельная триада ....................................................................................................... 312

Содержание  9

11.4. Геометрия линейной аппроксимации функций ценности ......................................... 314
11.5. Градиентный спуск по беллмановской ошибке ........................................................... 318
11.6. Беллмановская ошибка необучаема ............................................................................. 322
11.7. Градиентные TD-методы ............................................................................................... 327
11.8. Эмфатические TD-методы ............................................................................................ 330
11.9. Уменьшение дисперсии ................................................................................................. 332
11.10. Резюме .......................................................................................................................... 334
Библиографические и исторические замечания .................................................................. 335

Глава 12. Следы приемлемости ........................................................................... 337

12.1. λ-доход ............................................................................................................................ 338
12.2. TD(λ) ................................................................................................................................ 342
12.3. n-шаговые усеченные λ-доходные методы .................................................................. 346
12.4. Пересчет обновлений: онлайновый λ-доходный алгоритм ........................................ 348
12.5. Истинно онлайновый TD(λ) ........................................................................................... 350
12.6. *Голландские следы в обучении методами Монте-Карло ........................................... 352
12.7. Sarsa(λ) ............................................................................................................................. 354
12.8. Переменные λ и γ ........................................................................................................... 359
12.9. Следы с разделенной стратегией и переменным управлением ................................. 361
12.10. От Q(λ) Уоткинса к Tree-Backup(λ) ............................................................................... 364
12.11. Устойчивые методы с разделенной стратегией со следами приемлемости ............ 367
12.12. Вопросы реализации .................................................................................................... 368
12.13. Выводы .......................................................................................................................... 369
Библиографические и исторические замечания .................................................................. 371

Глава 13. Методы градиента стратегии .......................................................... 373

13.1. Аппроксимация стратегии и ее преимущества ........................................................... 374
13.2. Теорема о градиенте стратегии .................................................................................... 376
13.3. REINFORCE: метод Монте-Карло на основе градиента стратегии ............................. 378
13.4. REINFORCE с базой ......................................................................................................... 381
13.5. Методы исполнитель–критик ....................................................................................... 383
13.6. Метод градиента стратегии для непрерывных задач .................................................. 385
13.7. Параметризация стратегии для непрерывных действий ............................................ 388
13.8. Резюме ............................................................................................................................ 389
Библиографические и исторические замечания .................................................................. 390

Часть III. ЗАГЛЯНЕМ ПОГЛУБЖЕ .................................................................... 392

Глава 14. Психология ................................................................................................. 393

14.1. Предсказание и управление .......................................................................................... 394
14.2. Классическое обусловливание ...................................................................................... 395
14.2.1. Блокирующее обусловливание и обусловливание высшего порядка ................... 397
14.2.2. Модель Рескорлы–Вагнера ..................................................................................... 399
14.2.3. TD-модель ............................................................................................................... 401
14.2.4. Имитирование TD-модели ..................................................................................... 403
14.3. Инструментальное обусловливание ............................................................................. 410
14.4. Отложенное подкрепление ........................................................................................... 415
14.5. Когнитивные карты ....................................................................................................... 416
14.6. Привычное и целеустремленное поведение ................................................................ 418
14.7. Резюме ............................................................................................................................. 423
Библиографические и исторические замечания .................................................................. 425

 Содержание

Глава 15. Нейронауки ................................................................................................ 432

15.1. Основы нейронаук ......................................................................................................... 433
15.2. Сигналы вознаграждения, сигналы подкрепления, ценности и ошибки   
предсказания .......................................................................................................................... 435
15.3. Гипотеза об ошибке предсказания вознаграждения ................................................... 437
15.4. Дофамин ......................................................................................................................... 439
15.5. Экспериментальное подтверждение гипотезы об ошибке предсказания   
вознаграждения ...................................................................................................................... 443
15.6. Параллель между TD-ошибкой и дофамином .............................................................. 447
15.7. Нейронный исполнитель–критик ................................................................................. 452
15.8. Правила обучения критика и исполнителя .................................................................. 456
15.9. Гедонистические нейроны ............................................................................................ 460
15.10. Коллективное обучение с подкреплением ................................................................. 462
15.11. Основанные на модели методы в мозге ..................................................................... 466
15.12. Наркотическая зависимость ........................................................................................ 468
15.13. Резюме .......................................................................................................................... 469
Библиографические и исторические замечания .................................................................. 472

Глава 16. Примеры и приложения ..................................................................... 481

16.1. TD-Gammon .................................................................................................................... 481
16.2. Программы игры в шашки Сэмюэла............................................................................. 486
16.3. Стратегия выбора ставки в программе Watson ............................................................ 489
16.4. Оптимизация управления памятью ............................................................................. 492
16.5. Игра в видеоигры на уровне человека .......................................................................... 497
16.6. Мастерство игры в го ..................................................................................................... 503
16.6.1. AlphaGo .................................................................................................................... 506
16.6.2. AlphaGo Zero ............................................................................................................ 509
16.7. Персонализированные веб-службы .............................................................................. 513
16.8. Парение в восходящих потоках воздуха ...................................................................... 516

Глава 17. Передовые рубежи ................................................................................ 521

17.1. Общие функции ценности и вспомогательные задачи ............................................... 521
17.2. Абстрагирование времени посредством опций ........................................................... 523
17.3. Наблюдения и состояние ............................................................................................... 526
17.4. Проектирование сигналов вознаграждения ................................................................. 532
17.5. Остающиеся вопросы ..................................................................................................... 535
7.6. Экспериментальное подтверждение гипотезы об ошибке предсказания   
вознаграждения ...................................................................................................................... 539
Библиографические и исторические замечания .................................................................. 543
Предметный указатель ............................................................................................. 587

Доступ онлайн
1 899 ₽
В корзину