К вопросу валидации модели логистической регрессии в кредитном скоринге
Покупка
Основная коллекция
Тематика:
Логистика
Издательство:
Науковедение
Автор:
Сорокин А.
Год издания: 2014
Кол-во страниц: 14
Дополнительно
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Интернет-журнал «НАУКОВЕДЕНИЕ» Выпуск 2, март – апрель 2014 Опубликовать статью в журнале - http://publ.naukovedenie.ru Институт Государственного управления, права и инновационных технологий (ИГУПИТ) Связаться с редакцией: publishing@naukovedenie.ru 1 http://naukovedenie.ru 173EVN214 УДК 330.43, 519.2, 519.86 Сорокин Александр Сергеевич ФБГОУ ВПО «Московский государственный университет экономики, статистики и информатики» Россия, Москва1 Доцент кафедры Математической статистики и эконометрики Московский финансово-промышленный университет «Синергия» Россия, Москва2 Доцент кафедры Бизнес-статистики Кандидат экономических наук E-Mail: alsorokin@mail.ru К вопросу валидации модели логистической регрессии в кредитном скоринге Аннотация: Построение автоматизированных скоринговых систем позволяет банкам снизить индивидуальные кредитные риски. Использования скоринговых систем на базе статистических моделей наряду с экспертными оценками андеррайтеров является распространенной практикой. Метод логистической регрессии — наиболее часто используемый метод для построения скоринговых систем в банках. В статье рассматриваются вопросы применения логистической регрессии для классификации заемщиков в кредитном скоринге. Важным заключительным этапом построения скоринговой системы является этап ее валидации, который заключается в проверке достоверности полученной модели на обучающей, контрольной выборке и реальных данных. Валидация скориновой модели должна производиться на основе системы критериев качества. В данной статье, во-первых, систематизируются методы оценки достоверности скоринговой модели. Во-вторых, проводится сравнительный анализ методов оценки эффективности ранжирования заемщиков по модели логистической регрессии, а также по скоринговой карте, построенной на основе логистической регрессии. В третьих, дается обзор стратегий валидации скоринговых моделей. Кроме того, рассматриваются такие вопросы как анализ ROC-кривых, анализ распределения скоринговых баллов, расчет статистики Колмогорова-Смирнова, коэффициента Джини, коэффициента дивергенции коэффициента разделения. Авторские выводы и рекомендации могут быть использованы специалистами по управлению рисками в коммерческих банках при построении скоринговых систем и проверки их работы. Ключевые слова: Кредитный риск; кредитный скоринг; логистическая регрессия; коммерческий банк; управление рисками; валидация модели; статистика КолмогороваСмирнова; классификация заемщиков; качество классификации; ROC-анализ. Идентификационный номер статьи в журнале 173EVN214 1 119501, г. Москва, ул. Нежинская, 7, МЭСИ, кафедра Математической статистики и эконометрики 2 125190, г. Москва, Ленинградский пр-кт, д. 80, МФПУ «Синергия», кафедра Бизнес-статистики
Интернет-журнал «НАУКОВЕДЕНИЕ» Выпуск 2, март – апрель 2014 Опубликовать статью в журнале - http://publ.naukovedenie.ru Институт Государственного управления, права и инновационных технологий (ИГУПИТ) Связаться с редакцией: publishing@naukovedenie.ru 2 http://naukovedenie.ru 173EVN214 Одна из ключевых задач при управлении индивидуальными кредитными рисками в банке — оценка вероятности дефолта по кредиту у потенциальных заемщиков. Для оценки этой вероятности могут применяться различные статистические модели, но наибольшее распространение на практике получила модель логистической регрессии: , (1) где pi — вероятность наступления дефолта по кредиту для i-го заемщика; — значение j-ой независимой переменной; b0 — независимая константа модели, bj — параметры модели. Зависимой переменной в модели логистической регрессии, как правило, выступает вероятность наступления просрочки по кредиту более 90 дней, а независимыми данные по кредиту, социально-демографические данные о заемщике, данные бюро кредитных историй. На основе полученных оценок коэффициентов логистической регрессии строится скоринговая карта, переводящая коэффициенты модели в скоринговые баллы. Именно по набранному суммарному скоринговому баллу происходит ранжирование заемщиков и принимается решение о выдачи кредита. Заключительным этапом построения модели логистической регрессии является проверка ее достоверности и апробация на реальных данных. О степени валидации (от англ. от англ. validity — доказанность, обоснованность, пригодность) модели логистической регрессии говорит способность ее правильно классифицировать заемщиков, способность модели отличать «хороших» заемщиков от «плохих». Модель должна давать корректные прогнозы не только на обучающей совокупности, но и на практике при ее применении. Одна из стратегий валидации модели — формирование случайным образом двух выборок: обучающей — по ней строится модель, и тестовой — используется для проверки модели. Проверку достоверности модели, как правило, производят на обучающей и контрольной выборке в пропорциях примерно 70–80% и 30–20% соответственно от исходных данных для построения модели. Хорошая модель должны давать приемлемые результаты точности и на обучающей, и на контрольной выборке. Схожие показатели, полученные на обеих выборках — признак того, что на практике модель будет выдавать верные прогнозы. Более сложная стратегия валидации модели может предполагать формирование трех и более выборок. Например, первая выборка используется для оценки параметров модели. Вторая выборка — для проверки модели. Если получаются значительные отклонения результатов по обучающей и тестовой выборке, то из них удаляются выбросы или переменные, влияющие на эти отклонения, а затем строится новая модель по объединенной первой и второй выборке. Результаты новой модели проверяются на заранее зарезервированной третьей выборке. Оценка дискриминирующей способности модели логистической регрессии может быть выполнен на основе анализ таблицы классификации. Таблица классификации представляет собой таблицу сопряженности из двух строк и двух столбцов между переменными фактических и предсказанных значений зависимой переменной. Обычно в такой таблице сопряженности приводятся не суммы по строкам и столбцам, а процент корректных предсказаний по категориям зависимой переменной и общий процент всех предсказаний по модели (см. таблицу 1). ) ( ) 2 ( 2 ) 1 ( 1 0 1 ln k k i i i i i x b x b x b b p p ) ( j ix