Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Наука о данных: базовый курс

Покупка
Основная коллекция
Артикул: 831388.01.99
Доступ онлайн
284 ₽
В корзину
Цель науки о данных — улучшить процесс принятия решений, находя полезные неочевидные закономерности в больших массивах данных. Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом. Эта книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.1
Келлехер, Д. Наука о данных: базовый курс / Джон Келлехер, Брендан Тирни ; пер. с англ.. - Москва : Альпина Паблишер, 2020. - 222 с. - ISBN 978-5-9614-3170-4. - Текст : электронный. - URL: https://znanium.ru/catalog/product/1221800 (дата обращения: 28.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Джон Келлехер 
Брендан Тирни

НАУКА 
О ДАННЫХ

Базовый курс

John D. Kelleher
and Brendan Tierney

DATA 
SCIENCE

The MIT Press  |  Cambridge, Massachusetts  |  London, England

Джон Келлехер 
Брендан Тирни

НАУКА 
О ДАННЫХ

Базовый курс

Перевод с английского

Москва
2020

УДК 004.6
ББК 32.972
 
К34

ISBN 978-5-9614-3170-4 (рус.)
ISBN 978-0262535434 (англ.)

© 2018 Massachusetts Institute 
of Technology
© Издание на русском языке, 
перевод, оформление. 
ООО «Альпина Паблишер», 2020

УДК 004.6
ББК 32.972

Келлехер Дж.

Наука о данных: Базовый курс / Джон Келлехер, Брендан 
Тирни ; Пер. с англ. — М. : Альпина Паб лишер, 2020. — 222 с.

ISBN 978-5-9614-3170-4

Цель науки о данных — улучшить процесс принятия решений, находя полезные неочевидные закономерности в больших 
массивах данных. 
Сегодня наука о данных используется практически во всех 
сферах: вы видите подобранные специально для вас рекламные 
объявления, рекомендованные на основе ваших предпочтений 
фильмы и книги, ссылки на предполагаемых друзей в соцсетях, 
отфильтрованные письма в папке со спамом. 
Эта книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора 
и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, 
как работают нейронные сети и машинное обучение, приводят 
примеры анализа бизнес-проблем и того, как их можно решить, 
рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.

К34

Все права защищены. Никакая часть этой книги не может быть воспроизведена в какой бы 
то ни было форме и какими бы то ни было средствами, включая размещение в сети интернет 
и в корпоративных сетях, а также запись в память ЭВМ для частного или публичного использования, без письменного разрешения владельца авторских прав. По вопросу организации 
доступа к электронной библиотеке издательства обращайтесь по адресу mylib@alpina.ru.

Переводчик Михаил Белоголовский

Научный редактор Заур Мамедьяров

Права на публикацию на русском 
языке получены при содействии 
Агентства Александра Корженевского (Москва).

СОДЕРЖАНИЕ

Предисловие. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Благодарности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11

Глава 1. ЧТО ТАКОЕ НАУКА О ДАННЫХ? . . . . . . . . . . . . . .13

Глава 2. ЧТО ТАКОЕ ДАННЫЕ 
И ЧТО ТАКОЕ НАБОР ДАННЫХ?  . . . . . . . . . . . . .47

Глава 3. ЭКОСИСТЕМА НАУКИ О ДАННЫХ. . . . . . . . . . . .71

Глава 4. ОСНОВЫ МАШИННОГО ОБУЧЕНИЯ  . . . . . . . . .93

Глава 5. СТАНДАРТНЫЕ ЗАДАЧИ 
НАУКИ О ДАННЫХ  . . . . . . . . . . . . . . . . . . . . . . . . . . 139

Глава 6. КОНФИДЕНЦИАЛЬНОСТЬ И ЭТИКА . . . . . . . 163

Глава 7. БУДУЩИЕ ТЕНДЕНЦИИ 
И ПРИНЦИПЫ УСПЕШНОСТИ  . . . . . . . . . . . . . 199

Глоссарий. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215


                                    
ПРЕДИСЛОВИЕ      7

ПРЕДИСЛОВИЕ

Цель науки о данных — улучшить процесс принятия решений, основывая их на более глубоком понимании ситуации 
с помощью анализа больших наборов данных. Как область 
деятельности наука о данных включает в себя ряд принципов, методов постановки задач, алгоритмов и процессов для 
выявления скрытых полезных закономерностей в больших 
наборах данных. Она тесно связана с глубинным анализом 
данных и машинным обучением, но имеет более широкий 
охват. Сегодня наука о данных управляет принятием решений практически во всех сферах современного общества. 
В повседневной жизни вы ощущаете на себе воздействие 
науки о данных, когда видите отобранные специально для вас 
рекламные объявления, рекомендованные фильмы и книги, 
ссылки на предполагаемых друзей, отфильтрованные письма 
в папке со спамом, персональные предложения от мобильных 
операторов и страховых компаний. Она влияет на порядок 
переключения и длительность сигналов светофоров в вашем 
районе, на то, как были созданы новые лекарства, продающиеся в аптеке, и то, как полиция вычисляет, где может 
потребоваться ее присутствие.
Рост использования науки о данных в обществе об условлен 
появлением больших данных и социальных сетей, увеличением вычислительной мощности, уменьшением размеров носителей компьютерной памяти и разработкой более 
эффективных методов анализа и моделирования данных, 
таких как глубокое обучение. Вместе эти факторы означают, 
что сейчас процесс сбора, хранения и обработки данных стал 
как никогда ранее доступен для организаций. В то же время 
эти технические новшества и растущее применение науки 

НАУКА О ДАННЫХ

о данных означают, что этические проблемы, связанные 
с использованием данных и личной конфиденциальностью, 
тоже вышли на первый план. Цель этой книги — познакомить 
с наукой о данных на уровне ее основных элементов и с той 
степенью погружения, которая обеспечит принципиальное 
понимание вопроса.
Глава 1 очерчивает область науки о данных и дает краткую историю ее становления и эволюции. В ней мы также 
рассмотрим, почему наука о данных стала такой востребованной сегодня, и перечислим факторы, стимулирующие ее 
внедрение. В конце главы мы развенчаем несколько мифов, 
связанных с темой книги. Глава 2 вводит фундаментальные 
понятия, относящиеся к данным. В ней также описаны стандартные этапы проекта: понимание бизнес-целей, начальное 
изучение данных, подготовка данных, моделирование, оценка 
и внедрение. Глава 3 посвящена инфраструктуре данных 
и проблемам, связанным с большими данными и их интеграцией из нескольких источников. Одна из таких типичных 
проблем заключается в том, что данные в базах и хранилищах находятся на одних серверах, а анализируются на других. Поэтому колоссальное время тратится на перемещение 
больших наборов данных между этими серверами. Глава 3 
начинается с описания типичной инфраструктуры науки 
о данных для организации и некоторых свежих решений 
проблемы перемещения больших наборов данных, а именно: 
метода машинного обучения в базе данных, использования 
Hadoop для хранения и обработки данных, а также разработки 
гибридных систем, в которых органично сочетаются традиционное программное обеспечение баз данных и решения, 
подобные Hadoop. Глава завершается описанием проблем, 
связанных с интеграцией данных в единое представление 
для последующего машинного обучения. Глава 4 знакомит 
читателя с машинным обучением и объясняет некоторые 

из наиболее популярных алгоритмов и моделей, включая 
нейронные сети, глубокое обучение и деревья решений. 
В главе 5 основное внимание уделяется использованию опыта 
в области машинного обучения для решения реальных задач, 
приводятся примеры анализа стандартных бизнес-проблем 
и того, как они могут быть решены с помощью машинного 
обучения. В главе 6 рассматриваются этические вопросы 
науки о данных, последние разработки в области регулирования и некоторые из новых вычислительных методов 
защиты конфиденциальности в процессе обработки данных. 
Наконец, в главе 7 описаны сферы, на которые наука о данных окажет наибольшее влияние в ближайшем будущем, 
изложены принципы, позволяющие определить, будет ли 
данный конкретный проект успешным.


                                    
Доступ онлайн
284 ₽
В корзину