Обучение с подкреплением: введение
Покупка
Тематика:
Прикладные информационные технологии
Издательство:
ДМК Пресс
Перевод:
Слинкин Алексей Александрович
Год издания: 2020
Кол-во страниц: 552
Дополнительно
Вид издания:
Практическое пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-97060-097-9
Артикул: 748313.01.99
Идея обучения с подкреплением возникла десятки лет назад, но этой дисциплине предстояло пройти долгий путь, прежде чем она стала одним из самых активных направлений исследований в области машинного обучения и нейронных сетей. Сегодня это предмет интереса ученых, занимающихся психологией, теорией управления, искусственным интеллектом и многими другими отраслями знаний. Подход, принятый авторами книги, ставит акцент на практическое использование обучения с подкреплением. В первой части читатель знакомится с базовыми его аспектами. Во второй части представлены приближенные методы решения в условиях ограниченных вычислительных ресурсов. В третьей части книги обсуждается важность обучения с подкреплением для психологии и нейронаук.
Издание предназначено для студентов технических вузов, разработчиков, специализирующихся на машинном обучении и искусственном интеллекте, а также представителей нетехнических профессий, которые могут использовать описанные методики в своей работе.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 09.03.01: Информатика и вычислительная техника
- 09.03.02: Информационные системы и технологии
- 09.03.03: Прикладная информатика
- 09.03.04: Программная инженерия
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Ричард С. Саттон, Эндрю Дж. Барто Обучение с подкреплением Введение
Reinforcement Learning An Introduction Second Edition Richard S. Sutton and Andrew G. Barto
Обучение с подкреплением Введение Второе издание Ричард С. Саттон, Эндрю Дж. Барто Москва, 2020
УДК 004.85 ББК 32.971.3 С21 Саттон Р. С., Барто Э. Дж. С21 Обучение с подкреплением: Введение. 2-е изд. / пер. с англ. А. А. Слинкина. – М.: ДМК Пресс, 2020. – 552 с.: ил. ISBN 978-5-97060-097-9 Идея обучения с подкреплением возникла десятки лет назад, но этой дисциплине предстояло пройти долгий путь, прежде чем она стала одним из самых активных направлений исследований в области машинного обучения и нейронных сетей. Сегодня это предмет интереса ученых, занимающихся психологией, теорией управления, искусственным интеллектом и многими другими отраслями знаний. Подход, принятый авторами книги, ставит акцент на практическое использование обучения с подкреплением. В первой части читатель знакомится с базовыми его аспектами. Во второй части представлены приближенные методы решения в условиях ограниченных вычислительных ресурсов. В третьей части книги обсуждается важность обучения с подкреплением для психологии и нейронаук. Издание предназначено для студентов технических вузов, разработчиков, специализирующихся на машинном обучении и искусственном интеллекте, а также представителей нетехнических профессий, которые могут использовать описанные методики в своей работе. УДК 004.85 ББК 32.971.3 Original English language edition published by The MIT Press Cambridge, MA. Copyright © 2018 Richard S. Sutton and Andrew G. Barto. Russian-language edition copyright © 2020 by DMK Press. All rights reserved. Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. ISBN 978-0-262-03924-6 (англ.) Copyright © 2018 Richard S. Sutton and Andrew G. Barto ISBN 978-5-97060-097-9 (рус.) © Оформление, издание, перевод, ДМК Пресс, 2020
Посвящается памяти А. Гарри Клопфа
Содержание Вступительное слово..................................................................................................... 11 Предисловие ко второму изданию...................................................................... 12 Предисловие к первому изданию........................................................................ 17 Обозначения...................................................................................................................... 20 От издательства................................................................................................................ 25 Глава 1. Введение............................................................................................................ 26 1.1. Обучение с подкреплением................................................................................................ 26 1.2. Примеры.............................................................................................................................. 30 1.3. Элементы обучения с подкреплением.............................................................................. 31 1.4. Ограничения и круг вопросов............................................................................................ 33 1.5. Развернутый пример: игра в крестики-нолики................................................................ 34 1.6. Резюме................................................................................................................................. 39 1.7. История ранних этапов обучения с подкреплением........................................................ 39 Библиографические замечания................................................................................................ 49 Часть I. ТАБЛИЧНЫЕ МЕТОДЫ РЕШЕНИЯ................................................ 50 Глава 2. Многорукие бандиты................................................................................. 51 2.1. Задача о k-руком бандите................................................................................................... 51 2.2. Методы ценности действий............................................................................................... 53 2.3. 10-рукий испытательный стенд......................................................................................... 54 2.4. Инкрементная реализация................................................................................................. 57 2.5. Нестационарная задача...................................................................................................... 59 2.6. Оптимистические начальные значения............................................................................ 60 2.7. Выбор действия, дающего верхнюю доверительную границу......................................... 62 2.8. Градиентные алгоритмы бандита...................................................................................... 64 2.9. Ассоциативный поиск (контекстуальные бандиты)......................................................... 68 2.10. Резюме............................................................................................................................... 69 Библиографические и исторические замечания..................................................................... 71 Глава 3. Конечные марковские процессы принятия решений........... 74 3.1. Интерфейс между агентом и окружающей средой........................................................... 74 3.2. Цели и вознаграждения...................................................................................................... 80 3.3. Доход и эпизоды................................................................................................................. 82 3.4. Унифицированная нотация для эпизодических и непрерывных задач......................... 84 3.5. Стратегии и функции ценности......................................................................................... 86 3.6. Оптимальные стратегии и оптимальные функции ценности......................................... 91 3.7. Оптимальность и аппроксимация..................................................................................... 96 3.8. Резюме................................................................................................................................. 97 Библиографические и исторические замечания..................................................................... 99
Содержание 7 Глава 4. Динамическое программирование................................................. 102 4.1. Оценивание стратегии (предсказание)........................................................................... 103 4.2. Улучшение стратегии........................................................................................................ 107 4.3. Итерация по стратегиям................................................................................................... 109 4.4. Итерация по ценности...................................................................................................... 112 4.5. Асинхронное динамическое программирование........................................................... 115 4.6. Обобщенная итерация по стратегиям............................................................................. 116 4.7. Эффективность динамического программирования..................................................... 117 4.8. Резюме............................................................................................................................... 118 Библиографические и исторические замечания................................................................... 119 Глава 5. Методы Монте-Карло.............................................................................. 122 5.1. Предсказание методами Монте-Карло............................................................................ 123 5.2. Оценивание ценности действий методом Монте-Карло............................................... 127 5.3. Управление методом Монте-Карло................................................................................. 129 5.4. Управление методом Монте-Карло без исследовательских стартов............................. 132 5.5. Предсказание с разделенной стратегией посредством выборки по значимости........ 135 5.6. Инкрементная реализация............................................................................................... 142 5.7. Управление методом Монте-Карло с разделенной стратегией..................................... 143 5.8. *Выборка по значимости с учетом обесценивания........................................................ 146 5.9. *Приведенная выборка по значимости........................................................................... 147 5.10. Резюме............................................................................................................................. 149 Библиографические и исторические замечания................................................................... 150 Глава 6. Обучение на основе временных различий................................ 152 6.1. Предсказание TD-методами............................................................................................ 152 6.2. Преимущества TD-методов предсказания...................................................................... 157 6.3. Оптимальность TD(0)........................................................................................................ 159 6.4. Sarsa: TD-управление с единой стратегией.................................................................... 162 6.5. Q-обучение: TD-управление с разделенной стратегией................................................ 165 6.6. Expected Sarsa.................................................................................................................... 167 6.7. Смещение максимизации и двойное обучение.............................................................. 169 6.8. Игры, послесостояния и другие специальные случаи.................................................... 171 6.9. Резюме............................................................................................................................... 173 Библиографические и исторические замечания................................................................... 174 Глава 7. n-шаговый бутстрэппинг........................................................................ 176 7.1. n-шаговое TD-предсказание............................................................................................. 176 7.2. n-шаговый алгоритм Sarsa................................................................................................ 181 7.3. n-шаговое обучение с разделенной стратегией.............................................................. 184 7.4. *Приведенные методы с переменным управлением..................................................... 186 7.5. Обучение с разделенной стратегией без выборки по значимости : n-шаговый алгоритм обновления по дереву......................................................................... 188 7.6. *Унифицированный алгоритм: n-шаговый Q(σ)............................................................. 190 7.7. Резюме................................................................................................................................ 193 Библиографические и исторические замечания................................................................... 194 Глава 8. Планирование и обучение табличными методами.............. 195 8.1. Модели и планирование................................................................................................... 195 8.2. Dyna: объединение планирования, исполнения и обучения......................................... 198
8 Содержание 8.3. Когда модель неверна....................................................................................................... 203 8.4. Приоритетный проход...................................................................................................... 206 8.5. Сравнение выборочного и полного обновлений............................................................ 210 8.6. Траекторная выборка....................................................................................................... 213 8.7. Динамическое программирование в реальном времени............................................... 216 8.8. Планирование в момент принятия решений................................................................. 220 8.9. Эвристический поиск....................................................................................................... 221 8.10. Разыгрывающие алгоритмы.......................................................................................... 224 8.11. Поиск по дереву методом Монте-Карло........................................................................ 226 8.12. Резюме главы................................................................................................................... 229 8.13. Резюме части I: оси......................................................................................................... 230 Библиографические и исторические замечания................................................................... 233 Часть II. ПРИБЛИЖЕННЫЕ МЕТОДЫ РЕШЕНИЯ............................... 236 Глава 9. Предсказание с единой стратегией и аппроксимацией........................................................................................................ 238 9.1. Аппроксимация функции ценности................................................................................ 239 9.2. Целевая функция предсказания (VE —).............................................................................. 240 9.3. Стохастические градиентные и полуградиентные методы........................................... 242 9.4. Линейные методы............................................................................................................. 246 9.5. Конструирование признаков для линейных методов.................................................... 252 9.5.1. Полиномы.................................................................................................................. 252 9.5.2. Базис Фурье................................................................................................................ 254 9.5.3. Грубое кодирование.................................................................................................. 257 9.5.4. Плиточное кодирование........................................................................................... 260 9.5.5. Радиально-базисные функции................................................................................. 265 9.6. Выбор размера шага вручную.......................................................................................... 266 9.7. Нелинейная аппроксимация функций: искусственные нейронные сети..................... 267 9.8. Алгоритм TD наименьших квадратов............................................................................. 272 9.9. Аппроксимация функций с запоминанием.................................................................... 274 9.10. Аппроксимация с помощью ядерных функций............................................................ 276 9.11. Более глубокий взгляд на обучение с единой стратегией : заинтересованность и значимость............................................................................................................................ 278 9.12. Резюме............................................................................................................................. 280 Библиографические и исторические замечания................................................................... 281 Глава 10. Управление с единой стратегией и аппроксимацией....... 288 10.1. Эпизодическое полуградиентное управление.............................................................. 288 10.2. Полуградиентный n-шаговый Sarsa............................................................................... 292 10.3. Среднее вознаграждение: новая постановка непрерывных задач............................. 294 10.4. Возражения против постановки с обесцениванием..................................................... 299 10.5. Дифференциальный полуградиентный n-шаговый Sarsa........................................... 301 10.6. Резюме............................................................................................................................. 302 Библиографические и исторические замечания................................................................... 303 Глава 11. *Методы с разделенной стратегией и аппроксимацией ....................................................................................................... 304 11.1. Полуградиентные методы.............................................................................................. 305 11.2. Примеры расходимости в случае с разделенной стратегией....................................... 307 11.3. Смертельная триада........................................................................................................ 312
Содержание 9 11.4. Геометрия линейной аппроксимации функций ценности.......................................... 314 11.5. Градиентный спуск по беллмановской ошибке............................................................ 318 11.6. Беллмановская ошибка необучаема.............................................................................. 322 11.7. Градиентные TD-методы................................................................................................ 327 11.8. Эмфатические TD-методы............................................................................................. 330 11.9. Уменьшение дисперсии.................................................................................................. 332 11.10. Резюме........................................................................................................................... 334 Библиографические и исторические замечания................................................................... 335 Глава 12. Следы приемлемости............................................................................ 337 12.1. λ-доход............................................................................................................................. 338 12.2. TD(λ)................................................................................................................................. 342 12.3. n-шаговые усеченные λ-доходные методы................................................................... 346 12.4. Пересчет обновлений: онлайновый λ-доходный алгоритм......................................... 348 12.5. Истинно онлайновый TD(λ)............................................................................................ 350 12.6. *Голландские следы в обучении методами Монте-Карло............................................ 352 12.7. Sarsa(λ).............................................................................................................................. 354 12.8. Переменные λ и γ............................................................................................................ 359 12.9. Следы с разделенной стратегией и переменным управлением.................................. 361 12.10. От Q(λ) Уоткинса к Tree-Backup(λ)................................................................................ 364 12.11. Устойчивые методы с разделенной стратегией со следами приемлемости............. 367 12.12. Вопросы реализации..................................................................................................... 368 12.13. Выводы........................................................................................................................... 369 Библиографические и исторические замечания................................................................... 371 Глава 13. Методы градиента стратегии........................................................... 373 13.1. Аппроксимация стратегии и ее преимущества............................................................ 374 13.2. Теорема о градиенте стратегии..................................................................................... 376 13.3. REINFORCE: метод Монте-Карло на основе градиента стратегии.............................. 378 13.4. REINFORCE с базой.......................................................................................................... 381 13.5. Методы исполнитель–критик........................................................................................ 383 13.6. Метод градиента стратегии для непрерывных задач................................................... 385 13.7. Параметризация стратегии для непрерывных действий............................................. 388 13.8. Резюме............................................................................................................................. 389 Библиографические и исторические замечания................................................................... 390 Часть III. ЗАГЛЯНЕМ ПОГЛУБЖЕ..................................................................... 392 Глава 14. Психология.................................................................................................. 393 14.1. Предсказание и управление........................................................................................... 394 14.2. Классическое обусловливание....................................................................................... 395 14.2.1. Блокирующее обусловливание и обусловливание высшего порядка.................... 397 14.2.2. Модель Рескорлы–Вагнера...................................................................................... 399 14.2.3. TD-модель................................................................................................................ 401 14.2.4. Имитирование TD-модели...................................................................................... 403 14.3. Инструментальное обусловливание.............................................................................. 410 14.4. Отложенное подкрепление............................................................................................ 415 14.5. Когнитивные карты........................................................................................................ 416 14.6. Привычное и целеустремленное поведение................................................................. 418 14.7. Резюме.............................................................................................................................. 423 Библиографические и исторические замечания................................................................... 425
10 Содержание Глава 15. Нейронауки................................................................................................. 432 15.1. Основы нейронаук.......................................................................................................... 433 15.2. Сигналы вознаграждения, сигналы подкрепления, ценности и ошибки предсказания........................................................................................................................... 435 15.3. Гипотеза об ошибке предсказания вознаграждения.................................................... 437 15.4. Дофамин.......................................................................................................................... 439 15.5. Экспериментальное подтверждение гипотезы об ошибке предсказания вознаграждения....................................................................................................................... 443 15.6. Параллель между TD-ошибкой и дофамином............................................................... 447 15.7. Нейронный исполнитель–критик.................................................................................. 452 15.8. Правила обучения критика и исполнителя................................................................... 456 15.9. Гедонистические нейроны............................................................................................. 460 15.10. Коллективное обучение с подкреплением.................................................................. 462 15.11. Основанные на модели методы в мозге...................................................................... 466 15.12. Наркотическая зависимость......................................................................................... 468 15.13. Резюме........................................................................................................................... 469 Библиографические и исторические замечания................................................................... 472 Глава 16. Примеры и приложения...................................................................... 481 16.1. TD-Gammon..................................................................................................................... 481 16.2. Программы игры в шашки Сэмюэла............................................................................. 486 16.3. Стратегия выбора ставки в программе Watson............................................................. 489 16.4. Оптимизация управления памятью.............................................................................. 492 16.5. Игра в видеоигры на уровне человека........................................................................... 497 16.6. Мастерство игры в го...................................................................................................... 503 16.6.1. AlphaGo..................................................................................................................... 506 16.6.2. AlphaGo Zero............................................................................................................. 509 16.7. Персонализированные веб-службы............................................................................... 513 16.8. Парение в восходящих потоках воздуха....................................................................... 516 Глава 17. Передовые рубежи................................................................................. 521 17.1. Общие функции ценности и вспомогательные задачи................................................ 521 17.2. Абстрагирование времени посредством опций............................................................ 523 17.3. Наблюдения и состояние................................................................................................ 526 17.4. Проектирование сигналов вознаграждения.................................................................. 532 17.5. Остающиеся вопросы...................................................................................................... 535 7.6. Экспериментальное подтверждение гипотезы об ошибке предсказания вознаграждения....................................................................................................................... 539 Библиографические и исторические замечания................................................................... 543 Предметный указатель.............................................................................................. 587