Выявление инцидентов информационной безопасности и мошеннических транзакций методами машинного обучения

Ознакомиться

Выявление инцидентов информационной безопасности и мошеннических транзакций методами машинного обучения

Покупка

Основная коллекция

Тематика: Защита информации. Компьютерная безопасность

Издательство: Южный федеральный университет

Авторы: Целых Александр Николаевич, Котов Эдуард Михайлович

Год издания: 2023

Кол-во страниц: 116

Дополнительно

Вид издания: Учебное пособие

Уровень образования: ВО - Бакалавриат

ISBN: 978-5-9275-4515-5

Артикул: 830456.01.99

Доступ онлайн

174 ₽

В корзину

Как еще получить доступ?

Студенту или преподавателю

Отправьте заявку на получение ключа доступа в библиотеку Вашего учебного заведения

Представителю организации

Отправьте заявку на подключение к Znanium по договору

Купить в составе основной коллекции от 899 ₽

Аннотация
Оглавление
Коллекции
Классификаторы
Аффилиация
Бибзапись
Фрагменты

Пособие посвящено рассмотрению подходов по применению методов обработки естественного языка sentiment analysis для обнаружения угроз информационной безопасности в сети интернет, а также выявлению мошеннических транзакций с помощью методов машинного обучения. Пособие предназначено для студентов высших учебных заведений, обучающихся по специальности 10.05.04 - Информационно-аналитические системы безопасности (специализация: «Автоматизация информационно-аналитической деятельности») по курсу «Математические методы анализа больших данных» и направлению 10.03.01 - Информационная безопасность (направленность: «Информационно-аналитические системы безопасности») по курсу «Модели и методы инженерии знаний».

Тематика:

0604: Защита информации. Компьютерная безопасность

ББК:

3297: Вычислительная техника

УДК:

004: Информационные технологии. Вычислительная техника...

ОКСО:

ВО - Бакалавриат
10.03.01: Информационная безопасность
ВО - Специалитет
10.05.04: Информационно-аналитические системы безопасности

ГРНТИ:

81.93.29: Информационная безопасность. Защита информации

Целых Александр Николаевич

Южный федеральный университет

Котов Эдуард Михайлович

Южный федеральный университет

Целых, А. Н. Выявление инцидентов информационной безопасности и мошеннических транзакций методами машинного обучения : учебное пособие / А. Н. Целых, Э. М. Котов ; Южный федеральный университет. - Ростов-на-Дону : Издательство Южного федерального университета, 2023. - 116 с. - ISBN 978-5-9275-4515-5. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2146710 (дата обращения: 20.05.2025). – Режим доступа: по подписке.

Скопировать запись

Экспорт списка

Excel

RUSMARC .iso

win-1251

UTF-8

RUSMARC .txt

win-1251

UTF-8

IRBIS .txt

win-1251

UTF-8

Фрагмент текстового слоя документа размещен для индексирующих роботов

МИНИСТЕРСТВО  НАУКИ  И  ВЫСШЕГО  ОБРАЗОВАНИЯ 
Федеральное государственное автономное 
образовательное учреждение высшего образования 
"ЮЖНЫЙ  ФЕДЕРАЛЬНЫЙ  УНИВЕРСИТЕТ" 
Инженерно-технологическая академия 
 
 
 
 
А. Н. ЦЕЛЫХ 
Э. М. КОТОВ 
 
 
ВЫЯВЛЕНИЕ  ИНЦИДЕНТОВ                                         
ИНФОРМАЦИОННОЙ  БЕЗОПАСНОСТИ                                 
И  МАШЕННИЧЕСКИХ  ТРАНЗАКЦИЙ                       
МЕТОДАМИ  МАШИННОГО  ОБУЧЕНИЯ 
 
 
Учебное пособие 
 
 
 
 
 
 
 
 
 
 
Ростов-на-Дону − Таганрог 
Издательство Южного федерального университета 
2023

стр. 1

Содержание
2
УДК 004.056.5(075.8)
ББК 32.97я73
Ц349
Печатается по решению кафедры информационно-аналитических
систем безопасности Института компьютерных технологий
и информационной безопасности Южного федерального университета
(протокол № 9 от 25 мая 2023 г.)
Рецензенты:
доктор технических наук, профессор,
заведующий кафедрой информатики Таганрогского института
имени А. П. Чехова (филиал) РГЭУ (РИНХ) Я. Е. Ромм
доктор технических наук, профессор, профессор кафедры
информационно-аналитических систем безопасности
Южного федерального университета А. В. Боженюк
Целых, А. Н.
Ц349 Выявление инцидентов информационной безопасности и мошеннических транзакций методами машинного обучения : учебное
пособие / А. Н. Целых, Э. М. Котов ; Южный федеральный университет. − Ростов-на-Дону ; Таганрог : Издательство Южного федерального университета, 2023. − 116 с.
ISBN 978-5-9275-4515-5
Пособие посвящено рассмотрению подходов по применению методов обработки естественного языка sentiment analysis для обнаружения
угроз информационной безопасности в сети интернет, а также выявлению
мошеннических транзакций с помощью методов машинного обучения.
Пособие предназначено для студентов высших учебных заведений,
обучающихся по специальности 10.05.04 − Информационно-аналитические
системы безопасности (специализация: «Автоматизация информационноаналитической деятельности») по курсу «Математические методы анализа
больших данных» и направлению 10.03.01 − Информационная безопасность (направленность: «Информационно-аналитические системы безопасности») по курсу «Модели и методы инженерии знаний».
УДК 004.056.5(075.8)
ББК 32.97я73
ISBN 978-5-9275-4515-5
© Южный федеральный университет, 2023
© Целых А. Н., Котов Э. М., 2023
© Оформление. Макет. Издательство
Южного федерального университета, 2023

стр. 2

Содержание
3

СОДЕРЖАНИЕ

ВВЕДЕНИЕ ……………………………………………………….
6
1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОБРАБОТКИ
ЕСТЕСТВЕННОГО ЯЗЫКА ……………………………………...
10
1.1. Обработка естественного языка NLP ………………………
10
1.2. Понятие Sentiment Analysis и подходы к классификации
тональности текстов ……………………………………………...
11
1.3. Этапы процесса анализа текстов …………………………...
14
1.4. Подходы к классификации тональности текста …………...
14
1.5. Виды анализа настроений …………………………………..
17
1.6. Существующие инструменты для анализа настроений …..
19
1.7. Предварительная обработка текста ………………………...
20
1.8. Общие методы обработки естественного языка, используемые для предварительной обработки текстов ………………
22
1.9. Применение Brand24 ………………………………………...
30
2. АЛГОРИТМЫ И ИНСТРУМЕНТЫ
ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА …………………….
34
2.1. Сервис Brand24 ………………………………………………
34
2.2. Kaggle notebook ……………………………………………...
35
2.3. Библиотека NLTK …………………………………………...
36
2.4. Датасет Sentiment140 ………………………………………..
37
2.5. Инструмент векторизации TfidfVectorizer …………………
39
2.6. Определение тональности текста с помощью алгоритмов
машинного обучения …………………………………………….
40
2.7. Метрики для оценки методов машинного обучения ……...
44
3. ТЕСТИРОВАНИЕ МЕТОДОВ
И АНАЛИЗ РЕЗУЛЬТАТОВ ……………………………………..
47
4. МЕТОДЫ ОБНАРУЖЕНИЯ
МОШЕННИЧЕСКИХ ТРАНЗАКЦИЙ …………………………..
56

стр. 3

Содержание 
4 
4.1. Проблемы обнаружения мошенничества в финансовой сфере 
56 
4.2. Этапы обнаружения мошеннических транзакций методами 
машинного обучения ……………………………………………... 
57 
4.3. Методы обнаружения мошеннических транзакций ………. 
59 
4.4. Инструменты обнаружения мошеннических транзакций ... 
60 
4.5. Алгоритмы машинного обучения, используемые для обнаружения мошеннических транзакций …………………………... 
62 
4.5.1. Деревья решений ……………………………………………… 
62 
4.5.2. Random Forest …………………………………………………. 
63 
4.5.3. Метод опорных векторов ………………………………….. 
64 
4.5.4. Метод k-ближайших соседей ……………………………… 
65 
4.5.5. Наивный Байес ………………………………………………... 
66 
4.5.6. Adaptive Boosting ……………………………………………... 
66 
4.5.7. CatBoost ………………………………………………………… 
67 
4.5.8. XGBoost ………………………………………………………… 
68 
4.5.9. LightGBM ………………………………………………………. 
68 
4.6. Метрики, используемые для оценки методов машинного 
обучения ………………………………………………………….. 
69 
5. ПРОЕКТИРОВАНИЕ  МОДЕЛИ  ОБНАРУЖЕНИЯ 
МОШЕННИЧЕСКИХ  ТРАНЗАКЦИЙ ………………………….. 
71 
5.1. Описание используемого набора данных …………………. 
71 
5.2. Описание используемых библиотек Python ………………. 
73 
5.2.1. Библиотека Pandas ………………………………………….. 
73 
5.2.2. Библиотека NumPy …………………………………………... 
73 
5.2.3. Библиотека Matplotlib ………………………………………. 
74 
5.2.4. Библиотека Seaborn …………………………………………. 
74 
5.2.5. Графическая библиотека Plotly …………………………… 
75 
5.2.6. Библиотека Scikit-learn ……………………………………... 
75 
5.3. Описание выбранных методов машинного обучения ……. 
75 
5.3.1. Метод Random Forest ……………………………………….. 
75 
5.3.2. Метод AdaBoost ……………………………………………… 
77 
5.3.3. Методы XGBoost, CatBoost и LightGBM ………………… 
80 
5.4. Обобщение на другие функции потерь ……………………. 
82

стр. 4

Содержание 
5 
6. ПРИМЕР  РЕАЛИЗАЦИИ  ВЫЯВЛЕНИЯ 
МОШЕННИЧЕСКИХ  ТРАНЗАКЦИЙ ………………………….. 
94 
6.1. Предварительный анализ данных ………………………….. 
94 
6.2. Определение параметров прогнозирования и целевых значений ……………………………………………………………… 
97 
ЗАКЛЮЧЕНИЕ ……………………………………………………. 
110 
СПИСОК  ЛИТЕРАТУРЫ ………………………………………... 
112

стр. 5

Введение 
6 
  
 
ВВЕДЕНИЕ 
 
В настоящее время информационная безопасность стала одной из 
самых актуальных проблем как в рамках бизнес-сектора, так и для обычных пользователей интернета. Утечки персональной информации, атаки 
злонамеренных программ и вирусов, социальная инженерия – все это является лишь небольшим списком возможных угроз информационной безопасности в интернете. Для предотвращения этих проблем и обнаружения 
возможных угроз необходимо регулярно применять новые технологии и 
инструменты.
В условиях стремительного роста пользовательских текстов в Интернете автоматическое извлечение полезной информации из многочисленных документов вызывает интерес у исследователей во многих областях, в частности в области обработки естественного языка. 
Данные, полученные из разговоров, заявлений или даже твитов, являются примерами неструктурированных данных. 
Неструктурированные данные не вписываются четко в традиционную структуру строк и столбцов реляционных баз данных и представляют 
подавляющее большинство данных, доступных в реальном мире. Такими 
данными довольно трудно манипулировать. Тем не менее, благодаря достижениям в машинном обучении, в настоящее время мы говорим уже не 
только об интерпретировании текста или речи на основе ключевых слов, 
но и понимании смысла этих слов (когнитивный метод). Таким образом 
можно обнаружить фигуры речи, такие как ирония, или даже производить 
анализ настроений текста. 
Сегодня организации имеют большие объемы голосовых и текстовых данных из различных каналов связи, таких как электронные письма, 
текстовые сообщения, новостные ленты социальных сетей, видео, аудио и 
многое другое. NPL может помочь с множеством задач. 
Одним из наиболее актуальных подходов к борьбе с угрозами информационной безопасности является использование методов обработки

стр. 6

Введение
7
естественного языка sentiment analysis. Они могут использоваться для автоматического анализа и классификации текстов, например, для обнаружения угроз информационной безопасности в социальных сетях, на форумах и в других онлайн-сообществах.
Данная работа посвящена применению методов обработки естественного языка sentiment analysis для обнаружения угроз информационной безопасности в сети Интернет. В работе были поставлены цели и
задачи, которые были выполнены при использовании современных методов обработки естественного языка. Были проанализированы тексты с
помощью методов sentiment analysis, что позволило выявить угрозы информационной безопасности. Также были выбраны алгоритмы обработки естественного языка для повышения точности обнаружения угроз.
Результаты работы могут быть использованы в качестве основы для
дальнейших исследований и разработок в области информационной безопасности для обеспечения безопасности пользователей в онлайн-среде
и социальных сетях.
Одной из целей данной работы является применении методов обработки естественного языка sentiment analysis для обнаружения угроз информационной безопасности в сети Интернета. Для достижения этой цели
были поставлены следующие задачи:
1. Изучение современных методов обработки естественного языка,
используемых для анализа текстов.
2. Анализ и классификация текстов, используя методы sentiment
analysis, для выявления угроз информационной безопасности.
3. Выбор алгоритмов обработки естественного языка для улучшения точности обнаружения угроз информационной безопасности.
4. Тестирование методов и анализ результатов.
5. В итоге данная работа может иметь практическую значимость
для обеспечения безопасности пользователей в онлайн-среде и социальных сетях.
Кроме того, данная работа посвящена актуальной проблеме: выявление мошеннических транзакций с помощью методов машинного обучения.
В современной России проблема мошеннических транзакций является крайне актуальной и серьезной. Каждый год сотни тысяч клиентов
банков становятся жертвами мошенников.

стр. 7

Введение 
8 
В результате обмана люди теряют свои сбережения, подвергаются 
риску кражи личных данных и идентификации, теряют доверие к финансовым учреждениям.  
Однако такие транзакции наносят ущерб не только клиентам, но и 
представляют серьезную угрозу для самого банковского сектора. Ежегодно из-за мошеннических операций банки теряют миллионы рублей, а также доверие своих клиентов и репутацию. 
С каждым годом мошеннические транзакции для банков становятся все более актуальной и сложной проблемой. Согласно данным 
Центрального банка России, количество мошеннических операций в 
России выросло на 18 % в 2020 г. по сравнению с предыдущим годом. 
Всего было зарегистрировано более 1,5 млн случаев мошенничества с 
использованием банковских карт. Общий ущерб от мошенничества составил более 17 млрд рублей.  
Наиболее востребованным методом мошенничества был фишинг, 
который составил около 70 % всех мошеннических операций. Кроме того, в 
2020 г. было зарегистрировано более 55 тыс. случаев мошенничества с использованием электронных кошельков, а также более 10 тыс. случаев мошенничества, связанных с использованием мобильных приложений, в 2021 
и 2022 гг. количество мошеннических транзакций только увеличивалось. 
В результате банки вынуждены не только обучать своих клиентов 
вовремя реагировать на признаки обмана, но и использовать различные 
методы защиты, такие как двухфакторная аутентификация и мониторинг 
транзакций, некоторые также используют методы машинного обучения 
для обнаружения мошеннических операций. 
Эти методы позволяют автоматически отслеживать и анализировать транзакции, выявлять аномалии и потенциально подозрительные 
операции. Однако, несмотря на то что использование машинного обучения может помочь в борьбе с мошенничеством, оно не является универсальным решением и требует постоянного совершенствования и адаптирования к новым методам обмана. 
В настоящее время, с развитием технологий и расширением доступа к финансовым услугам, растет и количество мошеннических действий 
в финансовой сфере. Именно поэтому актуальность проблемы выявления

стр. 8

Введение
9
мошеннических транзакций растет с каждым годом, и решение этой проблемы становится все более важным.
Для решения данной проблемы были использованы методы машинного обучения, которые позволяют выявлять несанкционированные
действия на основе анализа данных.
Необходимо было произвести анализ модели на несбалансированном наборе данных, а также проверить ее работу на избыточной и недостаточной выборках.
Были проанализированы основные методы классификации. Для
предотвращения переобучения была использована перекрестная проверка,
что позволило добиться более стабильных результатов и улучшить качество работы модели.
Кроме того, реализация модели была осуществлена с помощью
языка программирования Python. Этот язык программирования является
одним из самых популярных и эффективных инструментов для работы с
данными, что позволило добиться более эффективной работы модели.
И в итоге был проведен анализ полученных результатов, который
показал, что использование методов машинного обучения позволяет добиться высокого качества распознавания мошеннических транзакций в
финансовой сфере.
Тем не менее использование методов машинного обучения является важным шагом в борьбе с мошенничеством, и может быть эффективным дополнением к другим методам защиты.
Итак, в данной работе преследуется еще одна цель – исследование
современных методов машинного обучения, с помощью которых возможно обнаружение мошеннических транзакций, выявление самого эффективного, изучение алгоритма его работы.
В соответствии с этой целью определены следующие задачи.
1. Изучить и проанализировать российскую и зарубежную литературу по теме мошенничества в финансовом секторе с целью сбора информации.
2. Изучить и проанализировать литературу о различных методах
машинного обучения, которые используются для обнаружения мошеннических операций.
3. Выявить наиболее эффективный метод для данной цели.
4. На примере набора данных с транзакциями и кода на языке
Python продемонстрировать работу выбранного метода.

стр. 9

1. Теоретические основы обработки естественного языка 
10 
 
ТЕОРЕТИЧЕСКИЕ  ОСНОВЫ 
ОБРАБОТКИ  ЕСТЕСТВЕННОГО 
ЯЗЫКА 
1.1. Обработка естественного языка NLP 
Обработка естественного языка (Natural Language Processing, NLP) – 
это технология машинного обучения, которая дает компьютерам возможность интерпретировать, обрабатывать и понимать человеческий язык.  
Обработку естественного языка можно разделить на две пересекающиеся подобласти: понимание естественного языка (NLU), которое фокусируется на семантическом анализе или определении предполагаемого 
значения текста, и генерация естественного языка (NLG), которая фокусируется на генерации текста машиной [1]. 
Основные варианты использования NPL. 
1. NLP позволяет распознавать и предсказывать болезни на основе 
электронных медицинских карт и речи пациента. Этот метод исследуется 
при состояниях здоровья, которые варьируются от сердечно-сосудистых 
заболеваний до депрессии и даже выявление признаков психического заболевания [2] в онлайн-комментариях.  
2. Например, Amazon Comprehend Medical – это сервис, использующий NLP для извлечения болезненных состояний, назначения лекарств 
и результатов лечения из записей пациентов, отчетов о клинических испытаниях и других электронных медицинских карт [3]. 
3. Организации могут определить, что клиенты говорят об услуге 
или продукте, идентифицируя и извлекая информацию из таких источников, как социальные сети. Анализ настроений может предоставить много 
информации о выборе клиентов и их факторах принятия решений. Также 
анализ настроений может классифицировать не только враждебные намерения, но и конкретные категории, такие как угрозы, оскорбления, непристойности и ненависть к определенным личностям. Так, например Facebook 
использует NLP для обнаружения и фильтрации разжигания ненависти. 
4. Входными данными для такой модели является текст, а выходными данными обычно являются вероятности каждого класса токсично

стр. 10

Выявление инцидентов информационной безопасности и мошеннических транзакций методами машинного обучения

Похожие