Наука о данных: базовый курс
Покупка
Основная коллекция
Тематика:
Информатика. Вычислительная техника
Издательство:
Альпина Паблишер
Год издания: 2020
Кол-во страниц: 222
Возрастное ограничение: 12+
Дополнительно
Вид издания:
Научно-популярная литература
Уровень образования:
ВО - Магистратура
ISBN: 978-5-9614-3170-4
Артикул: 831388.01.99
Цель науки о данных — улучшить процесс принятия решений, находя полезные неочевидные закономерности в больших массивах данных.
Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Эта книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.1
Тематика:
ББК:
УДК:
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Джон Келлехер Брендан Тирни НАУКА О ДАННЫХ Базовый курс
John D. Kelleher and Brendan Tierney DATA SCIENCE The MIT Press | Cambridge, Massachusetts | London, England
Джон Келлехер Брендан Тирни НАУКА О ДАННЫХ Базовый курс Перевод с английского Москва 2020
УДК 004.6 ББК 32.972 К34 ISBN 978-5-9614-3170-4 (рус.) ISBN 978-0262535434 (англ.) © 2018 Massachusetts Institute of Technology © Издание на русском языке, перевод, оформление. ООО «Альпина Паблишер», 2020 УДК 004.6 ББК 32.972 Келлехер Дж. Наука о данных: Базовый курс / Джон Келлехер, Брендан Тирни ; Пер. с англ. — М. : Альпина Паб лишер, 2020. — 222 с. ISBN 978-5-9614-3170-4 Цель науки о данных — улучшить процесс принятия решений, находя полезные неочевидные закономерности в больших массивах данных. Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом. Эта книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем. К34 Все права защищены. Никакая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, включая размещение в сети интернет и в корпоративных сетях, а также запись в память ЭВМ для частного или публичного использования, без письменного разрешения владельца авторских прав. По вопросу организации доступа к электронной библиотеке издательства обращайтесь по адресу mylib@alpina.ru. Переводчик Михаил Белоголовский Научный редактор Заур Мамедьяров Права на публикацию на русском языке получены при содействии Агентства Александра Корженевского (Москва).
СОДЕРЖАНИЕ Предисловие. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Благодарности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11 Глава 1. ЧТО ТАКОЕ НАУКА О ДАННЫХ? . . . . . . . . . . . . . .13 Глава 2. ЧТО ТАКОЕ ДАННЫЕ И ЧТО ТАКОЕ НАБОР ДАННЫХ? . . . . . . . . . . . . .47 Глава 3. ЭКОСИСТЕМА НАУКИ О ДАННЫХ. . . . . . . . . . . .71 Глава 4. ОСНОВЫ МАШИННОГО ОБУЧЕНИЯ . . . . . . . . .93 Глава 5. СТАНДАРТНЫЕ ЗАДАЧИ НАУКИ О ДАННЫХ . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Глава 6. КОНФИДЕНЦИАЛЬНОСТЬ И ЭТИКА . . . . . . . 163 Глава 7. БУДУЩИЕ ТЕНДЕНЦИИ И ПРИНЦИПЫ УСПЕШНОСТИ . . . . . . . . . . . . . 199 Глоссарий. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
ПРЕДИСЛОВИЕ 7 ПРЕДИСЛОВИЕ Цель науки о данных — улучшить процесс принятия решений, основывая их на более глубоком понимании ситуации с помощью анализа больших наборов данных. Как область деятельности наука о данных включает в себя ряд принципов, методов постановки задач, алгоритмов и процессов для выявления скрытых полезных закономерностей в больших наборах данных. Она тесно связана с глубинным анализом данных и машинным обучением, но имеет более широкий охват. Сегодня наука о данных управляет принятием решений практически во всех сферах современного общества. В повседневной жизни вы ощущаете на себе воздействие науки о данных, когда видите отобранные специально для вас рекламные объявления, рекомендованные фильмы и книги, ссылки на предполагаемых друзей, отфильтрованные письма в папке со спамом, персональные предложения от мобильных операторов и страховых компаний. Она влияет на порядок переключения и длительность сигналов светофоров в вашем районе, на то, как были созданы новые лекарства, продающиеся в аптеке, и то, как полиция вычисляет, где может потребоваться ее присутствие. Рост использования науки о данных в обществе об условлен появлением больших данных и социальных сетей, увеличением вычислительной мощности, уменьшением размеров носителей компьютерной памяти и разработкой более эффективных методов анализа и моделирования данных, таких как глубокое обучение. Вместе эти факторы означают, что сейчас процесс сбора, хранения и обработки данных стал как никогда ранее доступен для организаций. В то же время эти технические новшества и растущее применение науки
НАУКА О ДАННЫХ о данных означают, что этические проблемы, связанные с использованием данных и личной конфиденциальностью, тоже вышли на первый план. Цель этой книги — познакомить с наукой о данных на уровне ее основных элементов и с той степенью погружения, которая обеспечит принципиальное понимание вопроса. Глава 1 очерчивает область науки о данных и дает краткую историю ее становления и эволюции. В ней мы также рассмотрим, почему наука о данных стала такой востребованной сегодня, и перечислим факторы, стимулирующие ее внедрение. В конце главы мы развенчаем несколько мифов, связанных с темой книги. Глава 2 вводит фундаментальные понятия, относящиеся к данным. В ней также описаны стандартные этапы проекта: понимание бизнес-целей, начальное изучение данных, подготовка данных, моделирование, оценка и внедрение. Глава 3 посвящена инфраструктуре данных и проблемам, связанным с большими данными и их интеграцией из нескольких источников. Одна из таких типичных проблем заключается в том, что данные в базах и хранилищах находятся на одних серверах, а анализируются на других. Поэтому колоссальное время тратится на перемещение больших наборов данных между этими серверами. Глава 3 начинается с описания типичной инфраструктуры науки о данных для организации и некоторых свежих решений проблемы перемещения больших наборов данных, а именно: метода машинного обучения в базе данных, использования Hadoop для хранения и обработки данных, а также разработки гибридных систем, в которых органично сочетаются традиционное программное обеспечение баз данных и решения, подобные Hadoop. Глава завершается описанием проблем, связанных с интеграцией данных в единое представление для последующего машинного обучения. Глава 4 знакомит читателя с машинным обучением и объясняет некоторые
из наиболее популярных алгоритмов и моделей, включая нейронные сети, глубокое обучение и деревья решений. В главе 5 основное внимание уделяется использованию опыта в области машинного обучения для решения реальных задач, приводятся примеры анализа стандартных бизнес-проблем и того, как они могут быть решены с помощью машинного обучения. В главе 6 рассматриваются этические вопросы науки о данных, последние разработки в области регулирования и некоторые из новых вычислительных методов защиты конфиденциальности в процессе обработки данных. Наконец, в главе 7 описаны сферы, на которые наука о данных окажет наибольшее влияние в ближайшем будущем, изложены принципы, позволяющие определить, будет ли данный конкретный проект успешным.