Автоматика и телемеханика, 2024, № 3
научный журнал
Покупка
Новинка
Тематика:
Автоматика. Телемеханика
Издательство:
Наука
Наименование: Автоматика и телемеханика
Год издания: 2024
Кол-во страниц: 124
Дополнительно
Тематика:
ББК:
УДК:
ОКСО:
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Учредители журнала: Отделение энергетики, машиностроения, механики и процессов управления РАН, Институт проблем управления им. В.А. Трапезникова РАН (ИПУ РАН), Институт проблем передачи информации им. А.А. Харкевича РАН (ИППИ РАН) Главный редактор: Галяев А.А. Заместители главного редактора: Соболевский А.Н., Рубинович Е.Я., Хлебников М.В. Ответственный секретарь: Родионов И.В. Редакционный совет: Васильев С.Н., Желтов С.Ю., Каляев И.А., Кулешов А.П., Куржанский А.Б., Мартынюк А.А. (Украина), Пешехонов В.Г., Попков Ю.С., Федосов Е.А., Черноусько Ф.Л. Редакционная коллегия: Алескеров Ф.Т., Бахтадзе Н.Н., Бобцов А.А., Виноградов Д.В., Вишневский В.М., Воронцов К.В., Граничин О.Н., Губко М.В., Каравай М.Ф., Кибзун А.И., Краснова С.А., Красносельский А.М., Крищенко А.П., Кузнецов Н.В., Кузнецов О.П., Кушнер А.Г., Лазарев А.А., Ляхов А.И., Маликов А.И., Матасов А.И., Меерков С.М. (США), Миллер Б.М., Михальский А.И., Мунасыпов Р.А., Назин А.В., Немировский А.С. (США), Новиков Д.А., Олейников А.Я., Пакшин П.В., Пальчунов Д.Е., Поляков А.Е. (Франция), Рапопорт Л.Б., Рублев И.В., Степанов О.А., Уткин В.И. (США), Фрадков А.Л., Цыбаков А.Б. (Франция), Чеботарев П.Ю., Щербаков П.С. Адрес редакции: 117997, Москва, Профсоюзная ул., 65 Тел./факс: 8 (495) 198-17-20, доб. 1443 Электронная почта: redacsia@ipu.ru Зав. редакцией Е.А. Мартехина Москва «Издательство «Наука» c ⃝Российская академия наук, 2024 c ⃝Редколлегия журнала «Автоматика и телемеханика» (составитель), 2024
Автоматика и телемеханика, №3, 2024 Тематический выпуск Вступительное слово к специальному выпуску по материалам XXV Международной конференции DAMDID/RCDL-2023 Специальный выпуск журнала “Автоматика и телемеханика” Российской академии наук посвящен научным результатам, представленным на XXV Международной конференции «Аналитика и управление данными в областях с интенсивным использованием данных» (DAMDID/RCDL-2023), прошедшей 24–27 октября 2023 г. в НИУ ВШЭ (Москва, Россия). Читателю предлагаются полные тексты избранных статей, соответствующих тематике журнала и представленных на DAMDID/RCDL-2023. B 2015 г. в результате трансформации конференции RCDL (“Электронные библиотеки: перспективные методы и технологии, электронные коллекции”) была образована конференция DAMDID для создания форума, посвященного насущным проблемам анализа и управления данными в ходе исследований в различных областях с интенсивным использованием данных. Данная реорганизация была связана с расширением сферы использования электронных библиотек, в частности с активизацией их применения в научных исследованиях, возникновением потребности в технологиях эффективного хранения, обработки и анализа научных данных, интеграции неоднородных данных из множества источников. В итоге преобразования была обеспечена не только тематическая преемственность конференции по отношению к RCDL, но также сохранено RCDL-сообщество, сформировавшееся в течение 16 лет успешной работы данной конференции. Конференция DAMDID известна как мультидисциплинарный форум исследователей и практиков из различных областей науки и промышленности, содействующий сотрудничеству и обмену идеями и методами в сфере анализа и управления данными, развиваемыми в конкретных областях X-информатики (X ∈{астро, био, гео, нейро, мед, физика, химия, материаловедение, социо, бизнес, финансы, . . .}). Тематика конференции включает различные треки группы анализа данных, решения задач и организации экспериментов: • постановки и решение задач в областях с интенсивным использованием данных (методы, процессы, инструменты); • организация экспериментов (теории, гипотезы, модели, имитационное моделирование, инфраструктуры, потоки работ); • методы и процедуры анализа данных (разведочный анализ, статистика и машинное обучение, мета-анализ, эффективность и масштабируемость методов); 3
• концептуальное моделирование предметных областей и представление знаний (семантика, онтологии, схемы баз данных, концептуализация алгоритмов и потоков работ, семантическая интероперабельность); • поддержка исследований в инфраструктурах данных (функции и архитектуры виртуальных лабораторий и обсерваторий, совместное использование данных в междисциплинарных исследованиях). В программу конференции также традиционно включена тематика управления данными: • методы, инструменты и инфраструктуры сбора, хранения, обработки данных (данные и метаданные, их семантика, качество и происхождение, очистка, обнаружение аномалий); • интеграция данных (модели данных, схемы, разрешение сущностей и слияние данных, виртуальная и материализованная интеграция, хранилища данных, ETL-процессы, многомерные модели данных, разноструктурированные данные); • извлечение информации из данных наблюдений (полнота и актуальность информации в астрономии, спектроскопии, материаловедении, медицине и т.д.); • извлечение информации из текстов; • исследовательские инфраструктуры и их применение (облака, гриды, распределенные кластеры, суперкомпьютеры; реализация, масштабирование и оценка производительности инфраструктур; новые модели программирования, виртуализация); • роль семантического веба в областях с интенсивным использованием данных. Программа включала три ключевых и три приглашенных пленарных доклада, из них четыре — научных и два — индустриальных. Доклады были распределены по следующим секциям и направлениям: • алгоритмы решения задач; • анализ данных в медицине и когнитивных науках; • анализ изображений; • анализ социальных сетей; • анализ данных в астрономии; • базы данных в материаловедении; • извлечение информации из текстов; • искусственный интеллект и машинное обучение в материаловедении; • концептуальные модели, онтологии и семантический веб; • методы машинного обучения и их приложения; • моделирование в науках о Земле. Программный комитет конференции, включающий ученых из Великобритании, Германии, Индии, Италии, Испании, Китая, Латвии, России, Сербии, США, Японии, рассмотрел 79 заявок на конференцию. В результате одностороннего слепого рецензирования, проводившегося в два этапа, включая обсуждение итогов рецензирования членами программного комитета, 53 ра4
боты были приняты как полные статьи, 15 — как короткие, 11 — отклонены или сняты. В конференции приняли участие более 120 человек. Были проведены три пленарных заседания и заседания 18 секций. Заслушано 6 пленарных докладов и 61 секционный доклад. Участники представляли научные и учебные заведения из 11 регионов России: Казани, Москвы, Мурома, Новосибирска, Обнинска, Самары, Санкт-Петербурга, Томска, Тюмени, Челябинска, а также зарубежных стран: Армении, Великобритании, Германии, Индии, Ирана, Канады, Китая, Пакистана, ОАЭ, США и Японии. Как и в предыдущие годы, доклады, не вошедшие в специальные выпуски журналов, будут опубликованы в серии Communications in Computer and Information Science издательством Springer. На основе рекомендаций программного комитета по итогам рецензирования в соответствии с тематикой журнала и с учетом предпочтений авторов для публикации в специальном выпуске было отобрано 8 статей: • Б.Г. Миркин, А.А. Паринов “Агломеративный консенсусный кластер-анализ с автоматическим выбором числа кластеров”; • М. Сохраби, А. Фатоллахи-Фард, В.А. Громов “Алгоритм генной инженерии (GEA): эффективный метаэвристический алгоритм для решения задач комбинаторной оптимизации”; • Т.М. Биджиев, Д.Е. Намиот “Атаки на модели машинного обучения, основанные на фреймворке PyTorch”; • М.М. Зуева, С.О. Кузнецов “Индексы интересности как инструмент отбора формальных понятий для построения нейронной сети на основе решетки формальных понятий”; • Е.Д. Вязилов, Д.А. Мельников “Об использовании данных цифровых двойников в моделях, связанных с учетом воздействия окружающей среды на предприятия”; • К.А. Найденова, В.А. Пархоменко “Правдоподобные рассуждения в алгоритме генерации хороших классификационных тестов”; • Д.А. Люткин, Д.В. Поздняков, А.А. Соловьев, Д.В. Жуков, М.Ш.И. Малик, Д.И. Игнатов “Применение трансформеров для определения профильного врача на основе запросов пользователей”; • А.Г. Сорока, Г.В. Михельсон, А.В. Мещеряков, С.В Герасимов “Smart Routes: система для разработки и сравнения алгоритмов решения задачи оптимизации маршрутов с реалистичными ограничениями”. В центре внимания авторов отобранных статей лежат такие темы, как методы машинного обучения и анализа данных, правдоподобные рассуждения и нейросети, алгоритмы управления и оптимизации, анализ текстов и моделирование на основе цифровых двойников. Ж. Башариас, Барселона Д.И. Игнатов, Москва С.О. Кузнецов, Москва С.А. Ступников, Москва 5
Автоматика и телемеханика, №3, 2024 c ⃝2024 г. Б.Г. МИРКИН, д-р техн. наук (bmirkin@hse.ru) (Национальный исследовательский университет “Высшая школа экономики”, Москва; университет Лондона, Биркбек), А.А. ПАРИНОВ, (aparinov@hse.ru) (Национальный исследовательский университет “Высшая школа экономики”, Москва) АГЛОМЕРАТИВНЫЙ КОНСЕНСУСНЫЙ КЛАСТЕР-АНАЛИЗ С АВТОМАТИЧЕСКИМ ВЫБОРОМ ЧИСЛА КЛАСТЕРОВ1 Представлены теоретические и вычислительные результаты, связанные с оригинальной моделью консенсусного кластерного анализа, основанной на так называемом проективном расстоянии между разбиениями. Это расстояние определяется как сумма квадратов элементов разности бинарной матрицы инциденций одного разбиения и ее ортогональной проекции на подпространство, порождаемое столбцами матрицы инциденций другого разбиения. Оказывается, при достаточном количестве разбиений предлагаемый метод агломеративного кластеринга правильно вычисляет не только консенсусное разбиение, но число кластеров в нем. Ключевые слова: консенсусный кластер-анализ, проективное расстояние, консенсусная матрица, агломеративный кластер-анализ, средне-взвешенный критерий. DOI: 10.31857/S0005231024030014, EDN: UCGYKT 1. Введение Проблема консенсусного кластерного анализа состоит в следующем. Задана некоторая совокупность разбиений данного множества объектов, иногда называемая кластерным ансамблем. Требуется сформировать некое “усредненное” разбиение, наиболее согласованное с имеющейся совокупностью. Впервые эта проблема была сформулирована как математическая задача аппроксимации в работе [1] с использованием введенного им расстояния между разбиениями в связи с предложенным им общим подходом к анализу данных неколичественного вида. Аксиоматическая характеризация расстояния Миркина была опубликована в данном журнале в статье [2]. Оказалось, что использование этого расстояния в задаче аппроксимации не совсем адекватно, так как не удовлетворяет так называемому тесту Мучника (см. раздел 7.6.4 в [3]). Поэтому в [3, 4] предложена более адекватная мера близости между 1 Cтатья выполнена при поддержке Российского научного фонда (проект №22-11-00323) в НИУ ВШЭ, Москва, Россия. Исследование выполнено с использованием суперкомпьютерного комплекса НИУ ВШЭ. 6
разбиениями, называемая в данной работе проективным расстоянием, которая до сего времени не подвергалась эмпирической верификации. Интерес к данной проблематике со стороны международного сообщества пробудился уже в новом веке с публикацией статей [5, 6]. В этих и последующих статьях по консенсусному кластер-анализу (см., например, обзоры в [7, 8]) мотивацией послужила вполне практическая и насущная проблематика. Дело в том, что кластер-анализ широко используется во многих практических приложениях — маркетинге, банковском деле, биоинформатике, искусственном интеллекте и пр. Между тем, результаты применения алгоритмов зависят от параметров, задаваемых пользователем “на глазок”, таких как количество кластеров или порог значимости расстояния. Поэтому возникает совокупность более или менее равноважных кластерных разбиений, полученных при различных параметризациях, и, следовательно, задача консенсусного кластерного анализа. Цель данной статьи — представить и обосновать метод формирования консенсусного разбиения, основанный на использовании проективного расстояния между разбиениями. Метод использует иерархическую схему агломеративного кластер-анализа на основе так называемой консенсусной матрицы связей между объектами со следующими особенносями: (1) сдвиг величин связи так, чтобы сумма всех связей стала нулевой; (2) использование средневзвешенной внутренней связи в качестве максимизируемого критерия; (3) обнуление диагональных элементов матрицы связи после каждого объединения. Критерий средневзвешенной внутренней связи реализует цель минимизации суммарного проективного расстояния между консенсусным разбиением и заданным ансамблем. Проективное расстояние между двумя разбиениями определяется как сумма квадратов элементов разности двух матриц: матрицы инциденций разбиения из данного ансамбля и его ортогональной проекции на линейное подпространство, порожденное матрицей инциденций искомого консенсусного разбиения [3, 9]. Вычислительный эксперимент основан на новом генераторе ансамбля “синтетических” разбиений. Генератор включает вероятность “мутации”, которая определяет и разнообразие генерируемых разбиений и их близость к исходному “истинному” разбиению. В качестве конкурентных алгоритмов используются наиболее популярные схемы максимизации суммарных внутренних связей, включая так называемый критерий модулярности [10] и алгоритм Лувен [4]. 2. Консенсусная матрица и методы ее сдвига При заданном ансамбле разбиений R1, . . . , RM на множестве N объектов I консенсусное разбиение обычно формируется с использованием так называемой консенсусной матрицы размерности N × N, A = (aij), (i, j)-й элемент которой, aij, определяется как количество таких разбиений ансамбля, Rm (m = 1, . . . , M), в которых и i, и j принадлежат одному и тому же классу (i, j ∈I). Любое разбиение R множества I можно взаимнооднозначно пред7
ставить через ее бинарную N × N матрицу смежности r = (rij), в которой rij = 1, если i и j находятся в одном и том же классе R, и rij = 0 в противном случае. Как известно, A = m rm, где rm – матрица смежности Rm (m = 1, . . . , M). Элементы консенсусной матрицы выражают степень сходства между объектами согласно заданным разбиениям Rm (m = 1, . . . , M). Наиболее сходными являются те объекты, которые входят в один и тот же класс во всех разбиениях ансамбля. Для таких объектов консенсусная связь равна aij = M. Напротив, самые отличающиеся объекты — те, которые входят в разные классы во всех разбиениях ансамбля без исключения. Для них aij = 0. Элементы матрицы A неотрицательны. Для дальнейшего анализа полезно преобразовать эту матрицу так, чтобы часть элементов стала отрицательной, а среднее значение связи стало равным нулю. В литературе предложено два способа такого преобразования: сдвиг модулярности [10] и сдвиг шкалы [3], определяемые следующим образом. • Сдвиг модулярности. Это преобразование использует понятие случайного взаимодействия. Суммарные связи ai. = j aij и a.j = i aij рассматриваются как “энергетические заряды” строки i и столбца j соответственно. Случайное взаимодействие зарядов выражается их произведением, точнее величиной ai.a.j/a.., где a.. = i ai. = sumja.j — суммарный заряд, так чтобы взаимодействие также выражалось в единицах заряда. Это приводит к следующему преобразованию модулярности: (1) aij ←aij −ai.a.j/a.., поэтому нетрудно доказать, что после применения сдвига модулярности сумма всех связей, а значит, и их средняя величина, становится равной нулю. • Сдвиг шкалы Это преобразование состоит в вычитании из всех элемнтов матрицы одной и той же пороговой величины, равной величине средней связи a = i,j aij = N2 : N 2 = a.. (2) aij ←aij −a. Конечно, после этого сдвига нуля шкалы в точку среднего и само среднее, и суммарная связь становятся тоже нулевыми. П р и м е р. Рассмотрим множество, состоящее из шести объектов I = = {1, 2, 3, 4, 5, 6} и пять разбиений на этом множестве, представленных в табл. 1 цифровыми метками классов. Консенсусная матрица для этих данных представлена в табл. 2. 8
Таблица 1. Пять разбиений на множестве шести объектов, представленные цифровыми метками классов в соответствующих столбцах Таблица 2. Консенсусная матрица пяти разбений, представленных в табл. 1 № R1 R2 R3 R4 R5 1 2 3 4 5 6 1 1 1 2 3 3 1 5 3 1 2 1 1 2 1 1 1 3 2 2 3 5 3 0 0 0 3 1 2 1 2 2 3 1 3 5 2 1 0 4 2 2 2 2 3 4 2 0 2 5 3 2 5 2 2 2 1 1 5 1 0 1 3 5 4 6 2 3 2 1 1 6 1 0 0 2 4 5 Таблица 3. Консенсусная матрица (слева), матрица случайных взаимодействий (в середине) и результат ее модулярного сдвига (справа) 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 5 3 1 2 1 1 2,22 1,88 2,05 2,39 2,39 2,05 2,78 1,12 –1,05 –0,39 –1,39 –1,05 2 3 5 3 0 0 0 1,88 1,59 1,74 2,03 2,03 1,74 1,12 3,41 1,26 –2,03 –2,03 –1,74 3 1 3 5 2 1 0 2,05 1,74 1,89 2,21 2,21 1,89 –1,05 1,26 3,11 –0,21 –1,21 –1,89 4 2 0 2 5 3 2 2,39 2,03 2,21 2,58 2,58 2,20 –0,39 –2,03 –0,21 2,42 0,42 –0,21 5 1 0 1 3 5 4 2,39 2,03 2,21 2,58 2,58 2,21 –1,39 –2,03 –1,21 0,42 2,42 1,79 6 1 0 0 2 4 5 2,05 1,74 1,89 2,21 2,21 1,89 –1,05 –1,74 –1,89 –0,21 1,79 3,11 Таблица 4. Консенсусная матрица после сдвига шкалы 1 2 3 4 5 6 1 1,96 –0,04 –2,04 –1,04 –2,04 –2,04 2 –0,04 1,96 –0,04 –3,04 –3,04 –3,04 3 –2,04 –0,04 1,96 –1,04 –2,04 –3,04 4 –1,04 –3,04 –1,04 1,96 –0,04 –1,04 5 –2,04 –3,04 –2,04 –0,04 1,96 0,96 6 –2,04 –3,04 –3,04 –1,04 0,96 1,96 В следующей табл. 3 представлена и сама эта матрица, и рассчитанная на ее основе матрица случайных взаимодействий, и результат ее модулярного преобразования. Для получения матрицы связей со сдвигом шкалы, нужно подсчитать среднюю связь, 3.04, между объектами и вычесть ее из всех элементов консенсусной матрицы (см. табл. 4). Сравнивая табл. 3 и 4, нельзя не заметить, что модулярный сдвиг оставляет положительными значительно больше связей, чем сдвиг шкалы. В правой части табл. 3 имеются две строки с тремя положительными элементами каждая — это строки 2 и 5. Напротив, в матрице после сдвига шкалы остается только один внедиагональный положительный элемент (см. табл. 4). Это важно потому, что только положительные связи могут “заставить” объекты объединяться в одном кластере. 9