Выявление инцидентов информационной безопасности и мошеннических транзакций методами машинного обучения
Покупка
Основная коллекция
Издательство:
Южный федеральный университет
Год издания: 2023
Кол-во страниц: 116
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-9275-4515-5
Артикул: 830456.01.99
Пособие посвящено рассмотрению подходов по применению методов обработки естественного языка sentiment analysis для обнаружения угроз информационной безопасности в сети интернет, а также выявлению мошеннических транзакций с помощью методов машинного обучения. Пособие предназначено для студентов высших учебных заведений, обучающихся по специальности 10.05.04 - Информационно-аналитические системы безопасности (специализация: «Автоматизация информационно-аналитической деятельности») по курсу «Математические методы анализа больших данных» и направлению 10.03.01 - Информационная безопасность (направленность: «Информационно-аналитические системы безопасности») по курсу «Модели и методы инженерии знаний».
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 10.03.01: Информационная безопасность
- ВО - Специалитет
- 10.05.04: Информационно-аналитические системы безопасности
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ Федеральное государственное автономное образовательное учреждение высшего образования "ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ" Инженерно-технологическая академия А. Н. ЦЕЛЫХ Э. М. КОТОВ ВЫЯВЛЕНИЕ ИНЦИДЕНТОВ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ И МАШЕННИЧЕСКИХ ТРАНЗАКЦИЙ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ Учебное пособие Ростов-на-Дону − Таганрог Издательство Южного федерального университета 2023
Содержание 2 УДК 004.056.5(075.8) ББК 32.97я73 Ц349 Печатается по решению кафедры информационно-аналитических систем безопасности Института компьютерных технологий и информационной безопасности Южного федерального университета (протокол № 9 от 25 мая 2023 г.) Рецензенты: доктор технических наук, профессор, заведующий кафедрой информатики Таганрогского института имени А. П. Чехова (филиал) РГЭУ (РИНХ) Я. Е. Ромм доктор технических наук, профессор, профессор кафедры информационно-аналитических систем безопасности Южного федерального университета А. В. Боженюк Целых, А. Н. Ц349 Выявление инцидентов информационной безопасности и мо шеннических транзакций методами машинного обучения : учебное пособие / А. Н. Целых, Э. М. Котов ; Южный федеральный университет. − Ростов-на-Дону ; Таганрог : Издательство Южного федерального университета, 2023. − 116 с. ISBN 978-5-9275-4515-5 Пособие посвящено рассмотрению подходов по применению мето дов обработки естественного языка sentiment analysis для обнаружения угроз информационной безопасности в сети интернет, а также выявлению мошеннических транзакций с помощью методов машинного обучения. Пособие предназначено для студентов высших учебных заведений, обучающихся по специальности 10.05.04 − Информационно-аналитические системы безопасности (специализация: «Автоматизация информационноаналитической деятельности») по курсу «Математические методы анализа больших данных» и направлению 10.03.01 − Информационная безопасность (направленность: «Информационно-аналитические системы безопасности») по курсу «Модели и методы инженерии знаний». УДК 004.056.5(075.8) ББК 32.97я73 ISBN 978-5-9275-4515-5 © Южный федеральный университет, 2023 © Целых А. Н., Котов Э. М., 2023 © Оформление. Макет. Издательство Южного федерального университета, 2023
Содержание 3 СОДЕРЖАНИЕ ВВЕДЕНИЕ ………………………………………………………. 6 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ……………………………………... 10 1.1. Обработка естественного языка NLP ……………………… 10 1.2. Понятие Sentiment Analysis и подходы к классификации тональности текстов ……………………………………………... 11 1.3. Этапы процесса анализа текстов …………………………... 14 1.4. Подходы к классификации тональности текста …………... 14 1.5. Виды анализа настроений ………………………………….. 17 1.6. Существующие инструменты для анализа настроений ….. 19 1.7. Предварительная обработка текста ………………………... 20 1.8. Общие методы обработки естественного языка, используемые для предварительной обработки текстов ……………… 22 1.9. Применение Brand24 ………………………………………... 30 2. АЛГОРИТМЫ И ИНСТРУМЕНТЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ……………………. 34 2.1. Сервис Brand24 ……………………………………………… 34 2.2. Kaggle notebook ……………………………………………... 35 2.3. Библиотека NLTK …………………………………………... 36 2.4. Датасет Sentiment140 ……………………………………….. 37 2.5. Инструмент векторизации TfidfVectorizer ………………… 39 2.6. Определение тональности текста с помощью алгоритмов машинного обучения ……………………………………………. 40 2.7. Метрики для оценки методов машинного обучения ……... 44 3. ТЕСТИРОВАНИЕ МЕТОДОВ И АНАЛИЗ РЕЗУЛЬТАТОВ …………………………………….. 47 4. МЕТОДЫ ОБНАРУЖЕНИЯ МОШЕННИЧЕСКИХ ТРАНЗАКЦИЙ ………………………….. 56
Содержание 4 4.1. Проблемы обнаружения мошенничества в финансовой сфере 56 4.2. Этапы обнаружения мошеннических транзакций методами машинного обучения ……………………………………………... 57 4.3. Методы обнаружения мошеннических транзакций ………. 59 4.4. Инструменты обнаружения мошеннических транзакций ... 60 4.5. Алгоритмы машинного обучения, используемые для обнаружения мошеннических транзакций …………………………... 62 4.5.1. Деревья решений ……………………………………………… 62 4.5.2. Random Forest …………………………………………………. 63 4.5.3. Метод опорных векторов ………………………………….. 64 4.5.4. Метод k-ближайших соседей ……………………………… 65 4.5.5. Наивный Байес ………………………………………………... 66 4.5.6. Adaptive Boosting ……………………………………………... 66 4.5.7. CatBoost ………………………………………………………… 67 4.5.8. XGBoost ………………………………………………………… 68 4.5.9. LightGBM ………………………………………………………. 68 4.6. Метрики, используемые для оценки методов машинного обучения ………………………………………………………….. 69 5. ПРОЕКТИРОВАНИЕ МОДЕЛИ ОБНАРУЖЕНИЯ МОШЕННИЧЕСКИХ ТРАНЗАКЦИЙ ………………………….. 71 5.1. Описание используемого набора данных …………………. 71 5.2. Описание используемых библиотек Python ………………. 73 5.2.1. Библиотека Pandas ………………………………………….. 73 5.2.2. Библиотека NumPy …………………………………………... 73 5.2.3. Библиотека Matplotlib ………………………………………. 74 5.2.4. Библиотека Seaborn …………………………………………. 74 5.2.5. Графическая библиотека Plotly …………………………… 75 5.2.6. Библиотека Scikit-learn ……………………………………... 75 5.3. Описание выбранных методов машинного обучения ……. 75 5.3.1. Метод Random Forest ……………………………………….. 75 5.3.2. Метод AdaBoost ……………………………………………… 77 5.3.3. Методы XGBoost, CatBoost и LightGBM ………………… 80 5.4. Обобщение на другие функции потерь ……………………. 82
Содержание 5 6. ПРИМЕР РЕАЛИЗАЦИИ ВЫЯВЛЕНИЯ МОШЕННИЧЕСКИХ ТРАНЗАКЦИЙ ………………………….. 94 6.1. Предварительный анализ данных ………………………….. 94 6.2. Определение параметров прогнозирования и целевых значений ……………………………………………………………… 97 ЗАКЛЮЧЕНИЕ ……………………………………………………. 110 СПИСОК ЛИТЕРАТУРЫ ………………………………………... 112
Введение 6 ВВЕДЕНИЕ В настоящее время информационная безопасность стала одной из самых актуальных проблем как в рамках бизнес-сектора, так и для обычных пользователей интернета. Утечки персональной информации, атаки злонамеренных программ и вирусов, социальная инженерия – все это является лишь небольшим списком возможных угроз информационной безопасности в интернете. Для предотвращения этих проблем и обнаружения возможных угроз необходимо регулярно применять новые технологии и инструменты. В условиях стремительного роста пользовательских текстов в Ин тернете автоматическое извлечение полезной информации из многочисленных документов вызывает интерес у исследователей во многих областях, в частности в области обработки естественного языка. Данные, полученные из разговоров, заявлений или даже твитов, яв ляются примерами неструктурированных данных. Неструктурированные данные не вписываются четко в традицион ную структуру строк и столбцов реляционных баз данных и представляют подавляющее большинство данных, доступных в реальном мире. Такими данными довольно трудно манипулировать. Тем не менее, благодаря достижениям в машинном обучении, в настоящее время мы говорим уже не только об интерпретировании текста или речи на основе ключевых слов, но и понимании смысла этих слов (когнитивный метод). Таким образом можно обнаружить фигуры речи, такие как ирония, или даже производить анализ настроений текста. Сегодня организации имеют большие объемы голосовых и тексто вых данных из различных каналов связи, таких как электронные письма, текстовые сообщения, новостные ленты социальных сетей, видео, аудио и многое другое. NPL может помочь с множеством задач. Одним из наиболее актуальных подходов к борьбе с угрозами ин формационной безопасности является использование методов обработки
Введение 7 естественного языка sentiment analysis. Они могут использоваться для автоматического анализа и классификации текстов, например, для обнаружения угроз информационной безопасности в социальных сетях, на форумах и в других онлайн-сообществах. Данная работа посвящена применению методов обработки есте ственного языка sentiment analysis для обнаружения угроз информационной безопасности в сети Интернет. В работе были поставлены цели и задачи, которые были выполнены при использовании современных методов обработки естественного языка. Были проанализированы тексты с помощью методов sentiment analysis, что позволило выявить угрозы информационной безопасности. Также были выбраны алгоритмы обработки естественного языка для повышения точности обнаружения угроз. Результаты работы могут быть использованы в качестве основы для дальнейших исследований и разработок в области информационной безопасности для обеспечения безопасности пользователей в онлайн-среде и социальных сетях. Одной из целей данной работы является применении методов обра ботки естественного языка sentiment analysis для обнаружения угроз информационной безопасности в сети Интернета. Для достижения этой цели были поставлены следующие задачи: 1. Изучение современных методов обработки естественного языка, используемых для анализа текстов. 2. Анализ и классификация текстов, используя методы sentiment analysis, для выявления угроз информационной безопасности. 3. Выбор алгоритмов обработки естественного языка для улучше ния точности обнаружения угроз информационной безопасности. 4. Тестирование методов и анализ результатов. 5. В итоге данная работа может иметь практическую значимость для обеспечения безопасности пользователей в онлайн-среде и социальных сетях. Кроме того, данная работа посвящена актуальной проблеме: выявле ние мошеннических транзакций с помощью методов машинного обучения. В современной России проблема мошеннических транзакций явля ется крайне актуальной и серьезной. Каждый год сотни тысяч клиентов банков становятся жертвами мошенников.
Введение 8 В результате обмана люди теряют свои сбережения, подвергаются риску кражи личных данных и идентификации, теряют доверие к финансовым учреждениям. Однако такие транзакции наносят ущерб не только клиентам, но и представляют серьезную угрозу для самого банковского сектора. Ежегодно из-за мошеннических операций банки теряют миллионы рублей, а также доверие своих клиентов и репутацию. С каждым годом мошеннические транзакции для банков стано вятся все более актуальной и сложной проблемой. Согласно данным Центрального банка России, количество мошеннических операций в России выросло на 18 % в 2020 г. по сравнению с предыдущим годом. Всего было зарегистрировано более 1,5 млн случаев мошенничества с использованием банковских карт. Общий ущерб от мошенничества составил более 17 млрд рублей. Наиболее востребованным методом мошенничества был фишинг, который составил около 70 % всех мошеннических операций. Кроме того, в 2020 г. было зарегистрировано более 55 тыс. случаев мошенничества с использованием электронных кошельков, а также более 10 тыс. случаев мошенничества, связанных с использованием мобильных приложений, в 2021 и 2022 гг. количество мошеннических транзакций только увеличивалось. В результате банки вынуждены не только обучать своих клиентов вовремя реагировать на признаки обмана, но и использовать различные методы защиты, такие как двухфакторная аутентификация и мониторинг транзакций, некоторые также используют методы машинного обучения для обнаружения мошеннических операций. Эти методы позволяют автоматически отслеживать и анализиро вать транзакции, выявлять аномалии и потенциально подозрительные операции. Однако, несмотря на то что использование машинного обучения может помочь в борьбе с мошенничеством, оно не является универсальным решением и требует постоянного совершенствования и адаптирования к новым методам обмана. В настоящее время, с развитием технологий и расширением досту па к финансовым услугам, растет и количество мошеннических действий в финансовой сфере. Именно поэтому актуальность проблемы выявления
Введение 9 мошеннических транзакций растет с каждым годом, и решение этой проблемы становится все более важным. Для решения данной проблемы были использованы методы ма шинного обучения, которые позволяют выявлять несанкционированные действия на основе анализа данных. Необходимо было произвести анализ модели на несбалансирован ном наборе данных, а также проверить ее работу на избыточной и недостаточной выборках. Были проанализированы основные методы классификации. Для предотвращения переобучения была использована перекрестная проверка, что позволило добиться более стабильных результатов и улучшить качество работы модели. Кроме того, реализация модели была осуществлена с помощью языка программирования Python. Этот язык программирования является одним из самых популярных и эффективных инструментов для работы с данными, что позволило добиться более эффективной работы модели. И в итоге был проведен анализ полученных результатов, который показал, что использование методов машинного обучения позволяет добиться высокого качества распознавания мошеннических транзакций в финансовой сфере. Тем не менее использование методов машинного обучения являет ся важным шагом в борьбе с мошенничеством, и может быть эффективным дополнением к другим методам защиты. Итак, в данной работе преследуется еще одна цель – исследование современных методов машинного обучения, с помощью которых возможно обнаружение мошеннических транзакций, выявление самого эффективного, изучение алгоритма его работы. В соответствии с этой целью определены следующие задачи. 1. Изучить и проанализировать российскую и зарубежную литерату ру по теме мошенничества в финансовом секторе с целью сбора информации. 2. Изучить и проанализировать литературу о различных методах машинного обучения, которые используются для обнаружения мошеннических операций. 3. Выявить наиболее эффективный метод для данной цели. 4. На примере набора данных с транзакциями и кода на языке Python продемонстрировать работу выбранного метода.
1. Теоретические основы обработки естественного языка 10 ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА 1.1. Обработка естественного языка NLP Обработка естественного языка (Natural Language Processing, NLP) – это технология машинного обучения, которая дает компьютерам возможность интерпретировать, обрабатывать и понимать человеческий язык. Обработку естественного языка можно разделить на две пересека ющиеся подобласти: понимание естественного языка (NLU), которое фокусируется на семантическом анализе или определении предполагаемого значения текста, и генерация естественного языка (NLG), которая фокусируется на генерации текста машиной [1]. Основные варианты использования NPL. 1. NLP позволяет распознавать и предсказывать болезни на основе электронных медицинских карт и речи пациента. Этот метод исследуется при состояниях здоровья, которые варьируются от сердечно-сосудистых заболеваний до депрессии и даже выявление признаков психического заболевания [2] в онлайн-комментариях. 2. Например, Amazon Comprehend Medical – это сервис, использу ющий NLP для извлечения болезненных состояний, назначения лекарств и результатов лечения из записей пациентов, отчетов о клинических испытаниях и других электронных медицинских карт [3]. 3. Организации могут определить, что клиенты говорят об услуге или продукте, идентифицируя и извлекая информацию из таких источников, как социальные сети. Анализ настроений может предоставить много информации о выборе клиентов и их факторах принятия решений. Также анализ настроений может классифицировать не только враждебные намерения, но и конкретные категории, такие как угрозы, оскорбления, непристойности и ненависть к определенным личностям. Так, например Facebook использует NLP для обнаружения и фильтрации разжигания ненависти. 4. Входными данными для такой модели является текст, а выход ными данными обычно являются вероятности каждого класса токсично