Программирование GPU при помощи Python и CUDA
Покупка
Тематика:
Программирование и алгоритмизация
Издательство:
ДМК Пресс
Автор:
Тоуманен Бриан
Перевод:
Боресков Алексей Викторович
Год издания: 2020
Кол-во страниц: 254
Дополнительно
Вид издания:
Практическое пособие
Уровень образования:
ВО - Магистратура
ISBN: 978-5-97060-821-0
Артикул: 748328.01.99
Книга предлагает быстрое погружение в программирование GPU. Вы узнаете, как применять закон Амдала, использовать профилировщик для определения узких мест в коде на Python, настроить окружения для программирования GPU. По мере чтения вы будете запускать свой код на GPU и писать полноценные ядра и функции на CUDA С, научитесь отлаживать код при помощи NSight IDE и получите представление об известных библиотеках от NVIDIA, в частности cuFFT и cuBLAS. Вооружившись этими знаниями, вы сможете написать с нуля глубокую нейронную сеть, использующую GPU, и изучить более основательные тем. Книга предназначена для разработчиков и специалистов по обработке данных, которые хотят познакомиться с основами эффективного программирования GPU для улучшения быстродействия, используя программирование на Python. Желательно общее знакомство с базовыми понятиями математики и физики, а также опыт программирования на Python и любом основанном на С языке программирования.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Магистратура
- 09.04.01: Информатика и вычислительная техника
- 09.04.02: Информационные системы и технологии
- 09.04.03: Прикладная информатика
- 09.04.04: Программная инженерия
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
д-р Бриан Тоуманен Программирование GPU при помощи Python и CUDA
BIRMINGHAM – MUMBAI Dr. Brian Tuomanen Hands-On GPU Programming with Python and CUDA Explore high-performance parallel computing with CUDA
д-р Бриан Тоуманен Москва, 2020 Программирование GPU при помощи Python и CUDA Исследуйте высокопроизводительные параллельные вычисления с помощью CUDA
УДК 004.438Python ББК 32.973.22 Т50 Тоуманен Б. Т50 Программирование GPU при помощи Python и CUDA / пер. с анг. А. В. Борескова. – М.: ДМК Пресс, 2020. – 254 с.: ил. ISBN 978-5-97060-821-0 Книга предлагает быстрое погружение в программирование GPU. Вы узнаете, как применять закон Амдала, использовать профилировщик для определения узких мест в коде на Python, настроить окружения для программирования GPU. По мере чтения вы будете запускать свой код на GPU и писать полноценные ядра и функции на CUDA C, научитесь отлаживать код при помощи NSight IDE и получите представление об известных библиотеках от NVIDIA, в частности cuFFT и cuBLAS. Вооружившись этими знаниями, вы сможете написать с нуля глубокую нейронную сеть, использующую GPU, и изучить более основательные темы. Книга предназначена для разработчиков и специалистов по обработке данных, которые хотят познакомиться с основами эффективного программирования GPU для улучшения быстродействия, используя программирование на Python. Желательно общее знакомство с базовыми понятиями математики и физики, а также опыт программирования на Python и любом основанном на С языке программирования. УДК 004.438Python ББК 32.973.22 Authorized Russian translation of the English edition of Hands-On GPU Programming with Python and CUDA ISBN 9781789136678 © 2018 Packt Publishing. This translation is published and sold by permission of Packt Publishing, which owns or controls all rights to publish and sell the same. Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. ISBN 978-1-78899-391-3 (анг.) © 2018 Packt Publishing ISBN 978-5-97060-821-0 (рус.) © Оформление, издание, перевод, ДМК Пресс, 2020
Содержание Об авторе ...........................................................................................................10 О рецензенте ....................................................................................................11 Предисловие ....................................................................................................12 Глава 1. Почему программирование GPU? ...........................................18 Технические требования ......................................................................................19 Параллелизация и закон Амдала .........................................................................19 Использование закона Амдала ........................................................................21 Множество Мандельброта ................................................................................22 Профилировка вашего кода .................................................................................25 Использование модуля cProfile ........................................................................25 Резюме ...................................................................................................................26 Вопросы .................................................................................................................27 Глава 2. Настройка окружения для программирования GPU ......28 Технические требования ......................................................................................29 Убедитесь, что у вас есть требуемое оборудование ...........................................29 Проверка вашего оборудования (Linux) ..........................................................30 Проверка вашего оборудования (Windows) ....................................................31 Установка драйверов для GPU .............................................................................33 Установка драйверов GPU (Linux) ....................................................................33 Установка драйвера GPU (Windows) ................................................................35 Установка окружения для программирования на С++ .......................................35 Настройка GCC, Eclipse IDE и графических зависимостей (Linux) ................35 Установка Visual Studio (Windows) ..................................................................36 Установка CUDA Toolkit ....................................................................................38 Установка окружения Python для программирования GPU ..............................39 Установка PyCUDA (Linux) ................................................................................40 Создание скрипта для настройки окружения (Windows)...............................40 Установка PyCUDA (Windows) ..........................................................................41 Проверка PyCUDA .............................................................................................42 Резюме ...................................................................................................................42 Вопросы .................................................................................................................43
Содержание Глава 3. Начало работы с PyCUDA ...........................................................44 Технические требования ......................................................................................44 Опрос вашего GPU ................................................................................................45 Опрос вашего GPU при помощи PyCUDA ........................................................46 Использование класса gpuarray модуля PyCUDA .................................................49 Перенос данных в и из GPU при помощи gpuarray .........................................49 Использование основных поэлементных операций через методы gpuarray ...............................................................................................................50 Использование ElementWiseKernel из PyCUDA для выполнения поэлементных операций......................................................................................55 Возвращаемся к множеству Мандельброта ....................................................58 Краткая вылазка в функциональное программирование .............................61 Основа параллельного сканирования и редуцирования ...............................63 Резюме ...................................................................................................................64 Вопросы .................................................................................................................65 Глава 4. Ядра, нити, блоки и сетки ...........................................................66 Технические требования ......................................................................................67 Ядра .......................................................................................................................67 Функция SourceModule из PyCUDA ..................................................................67 Нити, блоки и сетки ..............................................................................................70 Игра «Жизнь» Джона Конвея ...........................................................................70 Синхронизация и взаимодействие нитей ..........................................................77 Использование функции устройства __syncthreads() .....................................77 Использование разделяемой памяти ..............................................................80 Алгоритм параллельной префиксной суммы .....................................................82 Алгоритм наивный параллельной префиксной суммы.................................82 Исключающая префиксная сумма и включающая префиксная сумма ........85 Эффективный алгоритм параллельной префиксной суммы ........................85 Эффективный алгоритм параллельной префиксной суммы (реализация) .....................................................................................................87 Резюме ...................................................................................................................89 Вопросы .................................................................................................................90 Глава 5. Потоки, события, контексты и одновременность.............91 Технические требования ......................................................................................92 Синхронизация устройства CUDA .......................................................................92 Использование класса stream из PyCUDA .......................................................93 Параллельная игра «Жизнь» Конвея при помощи потоков CUDA ................97 События ...............................................................................................................100 События и потоки ...........................................................................................102 Контексты ............................................................................................................103 Синхронизация в текущем контексте ...........................................................104
Содержание 7 Создание контекста ........................................................................................105 Многопроцессность и многонитиевость на стороне хоста .........................106 Различные контексты для параллельности на стороне хоста .....................107 Резюме .................................................................................................................110 Вопросы ...............................................................................................................111 Глава 6. Отладка и профилирование вашего кода на CUDA ......112 Технические требования ....................................................................................113 Использование printf внутри ядер CUDA .........................................................113 Использование printf для отладки ................................................................115 Заполняем пробелы в CUDA C ............................................................................119 Использование NSight IDE для разработки и отладки кода на CUDA C ..........124 Использование NSight c Visual Studio IDE под Windows .............................125 Использование NSight с Eclipse под Linux ....................................................128 Использование NSight для понимания варпа в CUDA .................................131 Использование профайлера nvprof и Visual Profiler ........................................134 Резюме .................................................................................................................136 Вопросы ...............................................................................................................136 Глава 7. Использование библиотек CUDA вместе со Scikit-CUDA .................................................................................137 Технические требования ....................................................................................138 Установка Scikit-CUDA ........................................................................................139 Базовая линейная алгебра при помощи cuBLAS ..............................................139 Функции 1-го уровня AXPY в cuBLAS ............................................................139 Другие функции cuBLAS 1-го уровня ............................................................141 GEMV 2-го уровня в cuBLAS ...........................................................................142 Функции 3-го уровня GEMM в cuBLAS для измерения производительности GPU ..............................................................................144 Быстрое преобразование Фурье при помощи cuFFT .......................................147 Простое одномерное FFT ...............................................................................148 Использование FFT для свертки ....................................................................149 Использование cuFFT для двумерной свертки .............................................150 Использование cuSolver из Scikit-CUDA ............................................................155 Сингулярное разложение (SVD) .....................................................................155 Использование SVD для анализа методом главных компонент (PCA) .......156 Резюме .................................................................................................................158 Вопросы ...............................................................................................................158 Глава 8. Библиотеки функций для GPU CUDA и Thrust .................159 Технические требования ....................................................................................160 Библиотека функций GPU cuRAND ....................................................................160
Содержание Оценка π при помощи метода Монте-Карло ................................................161 CUDA Math API ....................................................................................................165 Краткий обзор определенных интегралов ...................................................165 Вычисление определенного интеграла при помощи метода Монте-Карло ...................................................................................................166 Пишем тесты ...................................................................................................172 Библиотека CUDA Thrust ....................................................................................174 Использование функторов в Thrust ..............................................................176 Резюме .................................................................................................................178 Вопросы ...............................................................................................................178 Глава 9. Реализация глубокой нейросети ...........................................180 Технические требования ....................................................................................181 Искусственные нейроны и нейросети ..............................................................181 Реализация плотного слоя искусственных нейронов ..................................182 Реализация слоя мягкого максимума ...............................................................187 Реализация функции потери перекрестной энтропии ....................................189 Реализация последовательной сети ..................................................................189 Реализация методов вывода ..........................................................................191 Градиентный спуск .........................................................................................193 Подготовка и нормализация данных ............................................................197 Данные Iris ..........................................................................................................197 Резюме .................................................................................................................200 Вопросы ...............................................................................................................200 Глава 10. Работа с компилированным кодом для GPU ................201 Запуск откомпилированного кода при помощи Ctypes ...................................202 Снова возвращаемся к вычислению множества Мандельброта .................202 Компиляция и запуск PTX-кода .........................................................................208 Написание «оберток» для CUDA Driver API .......................................................209 Использование CUDA Driver API ....................................................................213 Резюме .................................................................................................................216 Вопросы ...............................................................................................................217 Глава 11. Оптимизация быстродействия в CUDA ............................218 Динамический параллелизм .............................................................................219 Быстрая сортировка при помощи динамического параллелизма ..............220 Векторные типы данных и доступ к памяти.....................................................222 Потокобезопасные атомарные операции .........................................................224 Перестановки в пределах варпа ........................................................................225 Вставка PTX-ассемблера прямо в код ................................................................228
Содержание 9 Оптимизированная по быстродействию версия суммирования элементов массива ................................................................................................................232 Резюме .................................................................................................................235 Вопросы ...............................................................................................................235 Глава 12. Куда идти далее? ......................................................................237 Расширение знаний о CUDA и программировании GPGPU .............................238 Системы из нескольких GPU ..........................................................................238 Кластерные вычисления и MPI ......................................................................238 OpenCL PyOpenCL ...........................................................................................239 Графика ...............................................................................................................239 OpenGL ............................................................................................................240 DirectX12 .........................................................................................................240 Vulkan ..............................................................................................................240 Машинное обучение и компьютерное зрение .................................................241 Основы ............................................................................................................241 cuDNN ..............................................................................................................241 Tensorflow и Keras ...........................................................................................242 Chainer .............................................................................................................242 OpenCV ............................................................................................................242 Технология блокчейн ..........................................................................................242 Резюме .................................................................................................................243 Вопросы ...............................................................................................................243 Ответы на вопросы ......................................................................................244 Предметный указатель ..............................................................................250
Об авторе Доктор Бриан Тоуманен работал с CUDA и программированием GPU с 2014 г. Он получил степень бакалавра по специальности «Электроинженерия» в университете Вашингтона в Сиэтле, затем некоторое время являлся разработчиком программного обеспечения, после чего продолжил обучение в области математики. В университете Миссури (Колумбия) Бриан защитил кандидатскую диссертацию по математике, где впервые столкнулся с программированием GPU для решения научных задач. Доктор Тоуманен был приглашен в исследовательскую лабораторию министерства армии США по программированию GPU для выяснения вопросов общего назначения и не так давно руководил интеграцией GPU и разработкой стартапа в Мэриленде. Сейчас он работает в качестве специалиста по машинному обучению (Azure CSI) в компании Microsoft в Сиэтле. Я бы хотел поблагодарить профессора Мишеллу Беччи из отдела NCSU ECE и ее студента Эндрю Тодда за помощь, оказанную мне как начинающему программисту GPU в 2014 г. Также хочу выразить особую признательность моему редактору в Packt Акшаде Иер за содействие в написании данного труда и, наконец, профессору Андреасу Клекнеру за составление великолепной библиотеки PyCUDA, которую я активно использовал в своей книге.