Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Предварительная подготовка данных в Python. Том 2 : План, примеры и метрики качества

Покупка
Артикул: 817237.01.99
В двухтомнике представлены материалы по применению классических методов машинного обучения в различных промышленных задачах. Во втором томе рассматривается сам процесс предварительной подготовки данных, а такженекоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab). Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.
Груздев, А. В. Предварительная подготовка данных в Python. Том 2 : План, примеры и метрики качества : практическое руководство / А. В. Груздев. - Москва : ДМК Пресс, 2023. - 814 с. - ISBN 978-5-93700-177-1. - Текст : электронный. - URL: https://znanium.com/catalog/product/2109520 (дата обращения: 14.05.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
А. В. Груздев

Предварительная 
подготовка данных 
в Python

Том 2 
План, примеры и метрики качества

Москва, 2023
УДК 004.04Python
ББК  32.372
Г90

Груздев А. В.
Г90 
Предварительная подготовка данных в Python. Том 2: План, примеры 
и метрики качества. – М.: ДМК Пресс, 2023. – 814 с.: ил.

ISBN 978-5-93700-177-1

В двухтомнике представлены материалы по применению классических методов 
машинного обучения в различных промышленных задачах.  Во втором томе 
рассматривается сам процесс предварительной подготовки данных, а также 
некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, 
Dask, Docker, Google Colab).
Издание рассчитано на специалистов по анализу данных, а также может быть 
полезно широкому кругу специалистов, интересующихся машинным обучением.

УДК 004.04Python
ББК 32.372

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой 
бы то ни было форме и какими бы то ни было средствами без письменного разрешения 
владельцев авторских прав.

Материал, изложенный в данной книге, многократно проверен. Но, поскольку вероятность 
технических ошибок все равно существует, издательство не может гарантировать 
абсолютную точность и правильность приводимых сведений. В связи с этим издательство 
не несет ответственности за возможные ошибки, связанные с использованием книги.

© Груздев А., 2023
© Оформление, издание, перевод, ДМК Пресс, 2023
ISBN 978-5-93700-177-1
Оглавление

Введение ...............................................................................................7

ЧАСТЬ 4. ПЛАН ПРЕДВАРИТЕЛЬНОЙ  
ПОДГОТОВКИ ДАННЫХ ................................................................ 8

1. Введение .......................................................................................... 8

2. Формирование выборки ............................................................. 10
2.1. Генеральная и выборочная совокупности ...............................................10
2.2. Характеристики выборки ..........................................................................10
2.3. Детерминированные и вероятностные выборки ....................................12
2.4. Виды, методы и способы вероятностного отбора ...................................13
2.5. Подходы к определению необходимого объема выборки ......................14

3. Определение «окна выборки» и «окна созревания» ............. 28

4. Определение зависимой переменной ...................................... 32

5. Загрузка данных из CSV-файлов и баз данных SQL ............... 33

6. Удаление бесполезных переменных, переменных  
«из будущего», переменных с юридическим риском ................. 39

7. Преобразование типов переменных и знакомство  
со шкалами переменных ................................................................. 41
7.1. Количественные (непрерывные) шкалы ..................................................41
7.2. Качественные (дискретные) шкалы ..........................................................43

8. Нормализация строковых значений ......................................... 45

9. Обработка дублирующихся наблюдений ................................. 61

10. Обработка редких категорий ................................................... 62

11. Появление новых категорий в новых данных ...................... 69

12. Импутация пропусков ................................................................ 70
12.1. Способы импутации количественных и бинарных переменных .........70
 Оглавление

12.2. Способы импутации категориальных переменных ..............................71
12.3. Практика ...................................................................................................73

13. Обработка выбросов .................................................................. 90

14. Описательные статистики ......................................................... 94
14.1. Пифагорейские средние, медиана и мода .............................................94
14.2. Квантиль ...................................................................................................95
14.3. Дисперсия и стандартное отклонение ...................................................96
14.4. Корреляция и ковариация .......................................................................97
14.5. Получение сводки описательных статистик в библиотеке pandas .....102

15. Нормальное распределение ...................................................104
15.1. Знакомство с нормальным распределением .......................................104
15.2. Коэффициент островершинности,  
коэффициент эксцесса и коэффициент асимметрии ..................................107
15.3. Гистограмма распределения и график квантиль–квантиль ...............111
15.4. Вычисление коэффициента асимметрии и коэффициента  
эксцесса, построение гистограммы и графика квантиль–квантиль  
для подбора преобразований, максимизирующих нормальность .............112
15.5. Подбор преобразований, максимизирующих нормальность  
для правосторонней асимметрии .................................................................116
15.6. Подбор преобразований, максимизирующих нормальность  
для левосторонней асимметрии ....................................................................128
15.7. Преобразование Бокса–Кокса ...............................................................129

16. Конструирование признаков ..................................................135
16.1. Статическое конструирование признаков исходя  
из предметной области ..................................................................................135
16.2. Статическое конструирование признаков исходя из алгоритма .......170
16.3. Динамическое конструирование признаков исходя  
из особенностей алгоритма ...........................................................................290
16.4. Конструирование признаков для временных рядов ...........................297

17. Отбор признаков .......................................................................433
17.1. Методы-фильтры ...................................................................................436
17.2. Применение метода-фильтра и встроенного метода для отбора  
признаков (на примере соревнования BNP Paribas Cardif Claims 
Management с Kaggle) .....................................................................................444
17.3. Комбинирование нескольких методов для отбора признаков  
(на примере соревнования Porto Seguro’s Safe Driver  
Prediction с Kaggle) ................................................................................... 451

18. Стандартизация .........................................................................475

19. Собираем все вместе ...............................................................486
Оглавление  5

ЧАСТЬ 5. МЕТРИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА МОДЕЛИ ....514

1. Бинарная классификация ..........................................................514
1.1. Отрицательный и положительный классы, порог отсечения ...............514
1.2. Матрица ошибок ......................................................................................514
1.3. Доля правильных ответов, правильность (accuracy) .............................517
1.4. Чувствительность (sensitivity) .................................................................519
1.5. Специфичность (specificity)  ....................................................................521
1.6. 1 – специфичность (1 – specificity) ..........................................................522
1.7. Сбалансированная правильность............................................................523
1.8. Точность (Precision) ..................................................................................524
1.9. Сравнение точности и чувствительности (полноты) ............................525
1.10. F-мера (F-score, или F-measure) ............................................................526
1.11. Варьирование порога отсечения ...........................................................532
1.12. Коэффициент Мэттьюса  
(Matthews correlation coefficient или MCC) ....................................................536
1.13. Каппа Коэна (Cohen's cappa) ..................................................................540
1.14. ROC-кривая (ROC curve) и площадь  
под ROC-кривой (AUC-ROC) ...........................................................................542
1.15. PR-кривая (PR curve) и площадь  
под PR-кривой (AUC-PR) ................................................................................603
1.16. Кривая Лоренца (Lorenz curve) и коэффициент Джини  
(Gini coefficient) ...............................................................................................616
1.17. CAP-кривая (CAP curve) ..........................................................................620
1.18. Статистика Колмогорова–Смирнова (Kolmogorov–Smirnov statistic) .... 623
1.19. Биномиальный тест (binomial test) .......................................................626
1.20. Логистическая функция потерь (logistic loss) ......................................628

2. Регрессия ......................................................................................634
2.1. R2, коэффициент детерминации  
(R-square, coefficient of determination) ..........................................................634
2.2. Метрики качества, которые зависят от масштаба данных  
(RMSE, MSE, MAE, MdAE, RMSLE, MSLE) ........................................................643
2.3. Метрики качества на основе процентных ошибок  
(MAPE, MdAPE, sMAPE, sMdAPE, WAPE, WMAPE, RMSPE, RMdSPE) .............656
2.4. Метрики качества на основе относительных ошибок  
(MRAE, MdRAE, GMRAE) .................................................................................689
2.5. Относительные метрики качества (RelMAE, RelRMSE) .........................697
2.6. Масштабированные ошибки (MASE, MdASE) .........................................698
2.7. Критерий Диболда–Мариано ..................................................................705

ЧАСТЬ 6. ДРУГИЕ ПОЛЕЗНЫЕ БИБЛИОТЕКИ  
И ПЛАТФОРМЫ ............................................................................707

1. Библиотеки баейсовской оптимизации  
hyperopt, scikit-optimize и optuna ................................................707
 Оглавление

1.1. Недостатки обычного поиска по сетке и случайного поиска  
по сетке ............................................................................................................707
1.2. Знакомство с байесовской оптимизацией .............................................708
1.3. Последовательная оптимизация по модели  
(Sequential model-based optimization – SMBO)  .............................................710
1.4. Hyperopt ....................................................................................................716
1.5. Scikit-Optimize ..........................................................................................727
1.6. Optuna .......................................................................................................732

2. Docker ...........................................................................................742
2.1. Введение ...................................................................................................742
2.2. Запуск контейнера Docker .......................................................................743
2.3. Создание контейнера Docker с помощью Dockerfile .............................744

3. Библиотека H2O ..........................................................................749
3.1. Установка пакета h2o для Python ............................................................749
3.2. Запуск кластера H2O ................................................................................749
3.3. Преобразование данных во фреймы H2O ..............................................750
3.4. Знакомство с содержимым фрейма ........................................................751
3.5. Определение имени зависимой переменной и списка  
имен признаков ..............................................................................................753
3.6. Построение модели машинного обучения .............................................753
3.7. Вывод модели ...........................................................................................754
3.8. Получение прогнозов ..............................................................................758
3.9. Построение ROC-кривой и вычисление AUC-ROC .................................759
3.10. Поиск оптимальных значений гиперпараметров по сетке ................760
3.11. Извлечение наилучшей модели по итогам поиска по сетке ...............762
3.12. Класс H2OAutoML ...................................................................................762
3.13. Применение класса H2OAutoML в библиотеке scikit-learn .................771

4. Библиотека Dask .........................................................................783
4.1. Общее знакомство ...................................................................................783
4.2. Машинное обучение с помощью библиотеки dask-ml ..........................792
4.3. Построение конвейера в Dask .................................................................800

5. Google Colab .................................................................................804
5.1. Общее знакомство ...................................................................................804
5.2. Регистрация и создание папки проекта .................................................804
5.3. Подготовка блокнота Colab .....................................................................809
Введение

Настоящая книга является коллекцией избранных материалов из первого модуля 
Подписки – обновляемых в режиме реального времени материалов по 
применению классических методов машинного обучения в различных промышленных 
задачах, которые автор делает вместе с коллегами и учениками.
Автор благодарит Дмитрия Ларько за помощь в подготовке раздела по конструированию 
признаков в четвертой части книги, Уилла Керсена за предоставленные 
материалы к первому разделу шестой части книги.
Во втором томе мы разберем собственно процесс предварительной подготовки 
данных, обсудим некоторые метрики качества, рассмотрим ряд полезных 
библиотек и фреймворков.
Часть 4

План предварительной 
подготовки данных

1. Введение

До этого момента мы знакомились с инструментами – основными питоновски-
ми библиотеками, классами и функциями, необходимыми для предварительной 
подготовки данных и построения моделей машинного обучения. Мы брали 
относительно простые примеры, выполняли предварительную подготовку данных 
и строили модели машинного обучения без глубокого понимания, зачем 
нужна та или иная операция предварительной подготовки и что происходит 
«под капотом» этой операции. В реальной практике мы так действовать не можем, 
нам нужен четкий план действий и глубокое понимание каждого этапа.
План предварительной подготовки данных, как правило, будет состоять из 
двух этапов. Первый этап – операции, которые можно выполнить до разбиения 
на обучающую и тестовую выборки / до цикла перекрестной проверки. 
Второй этап – операции, которые можно выполнить только после разбиения 
на обучающую и тестовую выборки / внутри цикла перекрестной проверки.
Если используются операции, использующие статистики, например укрупнение 
редких категорий по порогу, импутация пропусков статистиками, стандартизация, 
биннинг и конструирование признаков на основе статистик (frequency 
encoding, likelihood encoding), они должны быть осуществлены после разбиения 
на обучающую и тестовую выборки или внутри цикла перекрестной проверки. 
Если мы используем случайное разбиение на обучающую и тестовую выборки 
и выполняем перечисленные операции до разбиения, получается, что 
для вычисления среднего и стандартного отклонения по каждому признаку 
для стандартизации, правил биннинга, частот и вероятностей положительного 
класса зависимой переменной в категориях признака использовались все 
наблюдения набора, часть из которых потом у нас войдет в тестовую выборку 
(по сути, выборку новых данных).
Если мы используем перекрестную проверку и выполняем перечисленные операции 
до перекрестной проверки, получается, что в каждом проходе перекрестной 
проверки для вычисления среднего и стандартного отклонения по каждому 
признаку для стандартизации, правил биннинга, частот и вероятностей положительного 
класса зависимой переменной в категориях признака использовались 
1. Введение  9

все наблюдения набора, часть из которых у нас теперь находится в тестовом блоке (
по сути, выборке новых данных). В таких случаях в Python используем классы 
ColumnTransformer и Pipeline. Случайное разбиение на обучающую и тестовую выборки 
и перекрестная проверка используются для сравнения конвейеров базовых 
моделей со значениями гиперпараметров по умолчанию. При подборе гиперпара-
метров лучшей практикой является комбинированная проверка, сочетающая случайное 
разбиение на обучающую и тестовую выборки и перекрестную проверку.

До разбиения на обучающую и тестовую выборки / до цикла перекрестной 
проверки

После разбиения на обучающую и тестовую выборки / внутри цикла 
перекрестной проверки

Рис. 1 План предварительной подготовки данных
 План предварительной подготовки данных

2. Формирование выборки

2.1. Генеральная и выборочная совокупности

Генеральная совокупность, или популяция (population), – совокупность 
всех объектов (единиц), относительно которых предполагается делать выводы 
при изучении конкретной задачи.
Генеральная совокупность состоит из всех объектов, которые имеют качества, 
свойства, интересующие исследователя. Например, в исследованиях теле-
зрительской аудитории, проводимых компанией Mediascope, генеральной совокупностью 
будет население России в возрасте 4 лет и старше, проживающее 
в городах от 100 000 и более. А в исследованиях читательской аудитории, проводимых 
этой же компанией, генеральной совокупностью будет уже население 
России в возрасте 16 лет и старше, проживающее в городах от 100 000 и более. 
В исследованиях политических предпочтений в преддверии президентских 
выборов генеральной совокупностью будет население России в возрасте 18 лет 
и старше (поскольку право голосовать гражданин получает с 18 лет). В банковском 
скоринге генеральной совокупностью считаются все потенциально возможные 
заемщики банка. В таких случаях принято считать, что объем генеральной 
совокупности у нас неизвестен.
Выборка, или выборочная совокупность (sample), – набор объектов, выбранных 
с помощью определенной процедуры из генеральной совокупности 
для участия в исследовании.
Цель проведения выборочных обследований – на основе выборки сформировать 
суждение обо всей генеральной совокупности.
Допустим, нам необходимо провести исследование, цель которого – убедиться, 
что груши на дереве созрели. Решение заключается в том, чтобы сорвать 
несколько груш с дерева и попробовать их. Генеральная совокупность – 
все груши на дереве. Выборочная совокупность – сорванные груши с дерева. 
Если все сорванные груши созрели, то с большой вероятностью можно сделать 
вывод, что и все остальные груши на дереве тоже созрели. Если необходимо 
узнать, все ли груши созрели во всем саду, то это будет уже другая генеральная 
совокупность – груши во всем саду. Исследование будет состоять в том, чтобы 
срывать и пробовать груши с разных деревьев.

2.2. Характеристики выборки

Перечень всех единиц наблюдения генеральной совокупности с базовой информацией 
представляет основу выборки. Базовая информация – набор 
характеристик, известных до проведения обследования для каждого элемента 
основы выборки (например, фамилия, имя и отчество респондента, адрес 
предприятия, регион проведения интервью и другие характеристики).
Элементы отбора при формировании выборочной совокупности называются 
единицами отбора. Объект, признаки которого подлежат регистрации, называется 
единицей наблюдения. Обычно единицей наблюдения в социологических 
опросах является конкретный человек, который будет отвечать на вопрос 
анкеты. Единица наблюдения может совпадать или не совпадать с единицей 
2. Формирование выборки  11

отбора. При простой случайной выборке единицы отбора и единицы наблюдения 
совпадают. В случае использования многоступенчатой выборки сначала 
отбираются регионы, потом населенные пункты, затем предприятия или адреса 
проживания семей (все они и будут единицами отбора), и лишь на последнем 
этапе будут отобраны конкретные единицы наблюдения – респонденты.
Количество элементов выборки называется объемом (размером) выборки.
Соответствие характеристик выборки характеристикам популяции или генеральной 
совокупности в целом называется репрезентативностью. Репрезентативность 
определяет, насколько возможно обобщать результаты исследования 
с привлечением определенной выборки на всю генеральную совокупность, 
из которой она была отобрана. Корректный вывод обо всей генеральной 
совокупности можно сделать только на основании репрезентативной выборки. 
Поэтому при формировании выборки должен быть такой отбор элементов, 
чтобы выборка была репрезентативной.
В США одним из наиболее известных исторических примеров нерепрезентативной 
выборки считается случай, произошедший во время президентских 
выборов в 1936 году.
Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких 
предшествующих выборов, ошибся в своих предсказаниях, разослав 
десять миллионов пробных бюллетеней своим подписчикам, а также людям, 
выбранным по телефонным книгам всей страны и людям из регистрационных 
списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 миллиона) 
голоса были распределены следующим образом:
57 % отдавали предпочтение кандидату-республиканцу Альфу Лэндону;
40 % выбрали действующего в то время президента-демократа Франклина 
Рузвельта.
На действительных же выборах, как известно, победил Рузвельт, набрав более 
60 % голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая 
увеличить репрезентативность выборки, – так как им было известно, что 
большинство их подписчиков считают себя республиканцами, – они расширили 
выборку за счёт людей, выбранных из телефонных книг и регистрационных 
списков. Однако они не учли современных им реалий и в действительности набрали 
ещё больше республиканцев: во время Великой депрессии обладать телефонами 
и автомобилями могли себе позволить в основном представители среднего 
и высшего класса (то есть большинство республиканцев, а не демократов).
В нашем игрушечном примере, когда нам нужно было убедиться, что груши 
на дереве созрели, примером нерепрезентативной выборки были бы груши, 
сорванные только с одной, южной стороны дерева. А если бы нам необходимо 
было узнать, все ли груши созрели во всем саду, то примером нерепрезентативной 
выборки были бы груши, сорванные с деревьев, которые росли поблизости (
допустим, мы поленились пройти в глубь сада).
Отклонение результатов оценки значений, полученных с помощью выборки, 
от истинных неизвестных значений в генеральной совокупности называется 
ошибкой выборки.
В выборочных обследованиях мы будем оперировать статистиками. Статистика – 
это некоторая функция от выборочных наблюдений, например минимальное 
значение, среднее арифметическое, стандартное отклонение и др. 
Допустим, минимальный вес груши, средний вес груши. 
 План предварительной подготовки данных

Исследование всех объектов генеральной совокупности называется сплошным 
обследованием. Наиболее точные оценки могут быть получены при 
сплошном наблюдении, однако могут быть сложности. Основные проблемы, возникающие 
при сплошном наблюдении: ограничение по времени, ограничение 
финансовых ресурсов, ограничение человеческих ресурсов (здесь речь идет о физических 
и интеллектуальных ресурсах как опрашивающих, так и опрошенных).
Понятно, что мы не можем для получения рейтингов кандидатов на пост 
Президента РФ физически опросить все население России в возрасте от 18 лет 
и старше. Однако даже если сплошное обследование можно организовать, оно 
не гарантирует получения надежных результатов. Примером, когда сплошное 
обследование потерпело неудачу, была сплошная перепись населения России 
1897 г. Когда анализировалась численность населения по возрастам, то получалось, 
что максимальные численности (пики) имели возрасты, кратные 5 и в 
особенности кратные 10. Большая часть населения в те времена была неграмотна 
и свой возраст помнила только приблизительно, с точностью до пяти или до 
десяти лет. Чтобы все-таки узнать, каково было распределение по возрастам 
на самом деле, нужно было не увеличивать объем данных, а, наоборот, создать 
выборку из нескольких процентов населения и провести комплексное исследование, 
основанное на перекрестном анализе нескольких источников: документов, 
свидетельств и личных показаний. Это дало бы гораздо более точную 
картину, нежели сплошная перепись. Для решения проблем, возникающих при 
сплошном обследовании, как раз и используют выборочные обследования.

2.3. Детерминированные и вероятностные выборки

По способу отбора выборки делятся на:
 
 детерминированные;
 
 вероятностные.
Детерминированный отбор – выборочный метод, в котором не применяется 
процедура случайного отбора единиц генеральной совокупности. Этот метод 
основан на индивидуальных суждениях исследователя. Примерами  являются 
экспертный отбор, квотный отбор, отбор методом «снежного кома».
Выборка по методу «снежного кома» строится следующим образом. У каждого 
респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, 
которые подходили бы под условия отбора и могли бы принять учас тие 
в исследовании. Таким образом, за исключением первого шага, выборка формируется 
с участием самих объектов исследования. Метод часто применяется, 
когда необходимо найти и опросить труднодоступные группы респондентов 
(например, респондентов, имеющих высокий доход, респондентов, принадлежащих 
к одной профессиональной группе, респондентов, имеющих какие-либо 
схожие хобби/увлечения и т. д.). 
При квотной выборке генеральная совокупность сначала разделяется на непересекающиеся 
группы. Затем пропорционально из каждой группы выбираются 
единицы наблюдения на основании предпочтений отбирающего. Например, 
интервьюер может получить задание отобрать 200 женщин и 300 мужчин 
возрастом от 45 до 60 лет. Это значит, что внутри каждой квоты интервьюер 
отбирает респондентов по своим предпочтениям.
2. Формирование выборки  13

Описанный второй шаг формирования квотной выборки относит её к детерминированному 
типу. Отбор элементов в квотную выборку не является 
случайным и может быть ненадёжным. Например, интервьюеры могут в первую 
очередь пытаться опрашивать тех людей, которые выглядят наиболее отзывчивыми 
или живут поблизости. Соответственно, менее отзывчивые люди 
или репонденты, живущие в труднодоступных местах, криминогенных районах, 
в которых интервьер побоится опрашивать, имеют меньше шансов попасть 
в выборку.
Квотная выборка полезна, когда время ограничено, отсутствует основа для 
формирования вероятностной выборки, бюджет исследования небольшой или 
когда точность результатов не слишком важна.
Вероятностный отбор – выборочный метод, в котором состав выборки формируется 
случайным образом. В вероятностном отборе каждая единица генеральной 
совокупности имеет определенную вероятность включения в выборку. 
Нас будут интересовать вероятностные выборочные методы.

2.4. виДы, метоДы и способы вероятностноГо отбора

По виду отбора различают следующие вероятностные выборки:
 
 выборки с индивидуальным отбором;
 
 выборки с групповым отбором;
 
 выборки с комбинированным отбором.
Выборки с индивидуальным отбором осуществляют отбор из генеральной 
совокупности каждой единицы наблюдения в отдельности. Например, при обследовании 
удовлетворенности сотрудников предприятия размером заработной 
платы осуществляется отбор сотрудников.
Выборки с групповым отбором осуществляют отбор групп единиц. Например, 
при обследовании удовлетворенности сотрудников предприятия размером 
заработной платы осуществляется отбор отделов предприятия.
По методу отбора различают:
 
 выборки без возвращения (бесповторный отбор);
 
 выборки с возвращением (повторный отбор).
В выборках без возвращения (бесповторный отбор) отобранный элемент не 
возвращается в генеральную совокупность, из которой осуществлялся отбор. 
В выборках с возвращением (повторный отбор) отобранный объект возвращается 
в генеральную совокупность и имеет шанс быть отобранным повторно. 
Использование повторного метода дает бóльшую ошибку выборки, чем использование 
бесповторного. 
По способам отбора различают:
 
 простой случайный отбор;
 
 систематический отбор;
 
 вероятностно-пропорциональный отбор;
 
 расслоенный случайный отбор;
 
 кластерный (серийный) отбор.
Более подробное обсуждение этих способов выходит за рамки книги, разберем 
здесь лишь процедуру простого случайного отбора.
 План предварительной подготовки данных

При проведении простого случайного отбора каждая единица генеральной 
совокупности имеет известную и равную вероятность отбора. В простом случайном 
отборе каждая единица отбирается независимо от другой. Для отбора 
используется таблица случайных чисел или компьютерная программа.
Здесь отметим, что к повторному отбору приравнивается простой случайный 
отбор из генеральной совокупности, объем которой неизвестен. При вычислении 
необходимого объема выборки для построения моделей банковского 
скоринга как раз предполагают, что имеет место повторный отбор.

2.5. поДХоДы к опреДелению необХоДимоГо 

объема выборки

Необходимый объем выборки может быть известен по результатам предыдущих 
аналогичных исследований. Если же объем выборки неизвестен, его необходимо 
рассчитать. 

2.5.1. Определение объема выборки согласно теории 
выборочных обследований
Согласно теории выборочных обследований объем необходимой выборки зависит 
от задаваемой точности оценки параметров, дисперсии оцениваемых 
параметров и способа отбора. Общее правило следующее: чем больше дисперсия 
оцениваемых параметров, тем больший объем выборки необходим для 
того, чтобы обеспечить требуемую точность. Поэтому предварительно по отобранным 
данным необходимо рассчитать дисперсию оцениваемых переменных. 
В зависимости от величины надежности выбирают значение стандартного 
нормального распределения.
В банковском скоринге для построения качественной модели данные о «хороших» 
и «плохих» клиентах максимально должны отражать поток клиентов с улицы.
Предположим, мы хотим быть уверенными на 95 %, что соотношение «хороших» 
и «плохих» заемщиков в обучающей выборке отражает генеральную 
совокупность заемщиков. В таких случаях обычно используют следующую 
формулу определения объема выборки для оценки генеральной доли при повторном 
случайном отборе (при этом предполагается, что выборка значительно 
меньше генеральной совокупности):

n
z w
w

w
2

2
1

,

где:
n – минимальный объем выборки;
zγ – значение стандартного нормального распределения, определяемое в зависимости 
от выбранного доверительного уровня (доверительной вероятности);
w – доля «плохих» на предварительной выборке (может быть получена, исходя 
из опыта имеющихся априорных знаний);
∆w – максимально допустимая предельная ошибка оценки доли «плохих» заемщиков (
предельная ошибка выборки).