Социально-экономическое районирование в эпоху больших данных
Покупка
Основная коллекция
Тематика:
Экономическая география
Издательство:
НИЦ ИНФРА-М
Автор:
Блануца Виктор Иванович
Год издания: 2019
Кол-во страниц: 194
Дополнительно
Вид издания:
Монография
Уровень образования:
Дополнительное профессиональное образование
ISBN: 978-5-16-013259-4
ISBN-онлайн: 978-5-16-105983-8
Артикул: 666290.03.01
Изложены результаты первого в мире исследования возможностей использования методов районирования для обработки больших объемов постоянно обновляемых эмпирических геоданных. Приведены основные виды таких данных, требования к методическому аппарату, векторы развития методологии, постсоветские тренды районирования, новые виды районов, комбинации смыслов районирования и сферы применения схем районирования. Представлены алгоритмы построения концептуальной модели, отбора информативных признаков, создания системы методов, выявления однородных, узловых и эволюционных районов, оценки качества дифференциации территории, верификации и интерпретации полученных результатов.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 38.03.01: Экономика
- ВО - Магистратура
- 38.04.01: Экономика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Â.È. ÁËÀÍÓÖÀ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОЕ РАЙОНИРОВАНИЕ В ЭПОХУ БОЛЬШИХ ДАННЫХ МОНОГРАФИЯ Москва ИНФРА-М 201
УДК 911.6(075.4) ББК 26.82 Б68 Монография обсуждена и рекомендована к изданию Ученым советом Института географии имени В.Б. Сочавы Сибирского отделения РАН Р е ц е н з е н т ы: Л.А. Безруков, доктор географических наук; А.Ф. Никольский, доктор географических наук; А.Я. Якобсон, доктор географических наук, профессор Блануца В.И. Б68 Социально-экономическое районирование в эпоху больших данных : монография / В.И. Блануца. — М. : ИНФРА-М, 2019. — 194 с. — (Научная мысль). — www .dx.doi.org/10.12737/monography_ 59f81ac5ede918.09423566. ISBN 978-5-16-013259-4 (print) ISBN 978-5-16-105983-8 (online) В монографии изложены результаты первого в мире исследования возможностей использования методов районирования для обработки больших объемов постоянно обновляемых эмпирических геоданных. Приведены основные виды таких данных, требования к методическому аппарату, векторы развития методологии, постсоветские тренды районирования, новые виды районов, комбинации смыслов районирования и сферы применения схем районирования. Представлены алгоритмы построения концептуальной модели, отбора информативных признаков, создания системы методов, выявления однородных, узловых и эволюционных районов, оценки качества дифференциации территории, верификации и интерпретации полученных результатов. Издание предназначено для специалистов, студентов и аспирантов. УДК 911.6(075.4) ББК 26.82 ISBN 978-5-16-013259-4 (print) ISBN 978-5-16-105983-8 (online) © Блануца В.И., 2017
Введение Для ориентации среди разнообразных исследований по районированию территории целесообразно различать учение о районах (районологию), процесс формирования районов (районообразование), метод их выявления (районирование) и конечный результат (схему районирования или систему районов). В монографии будет рассмотрено только множество методов выявления районов, включая вспомогательные и дополнительные методы. Схемы районирования будут учитываться только в плане их использования для идентификации метода выявления районов и оценки эффективности его использования. Учению о районах [Блануца, 1992; Каганский, 2003; Родоман, 1999; Смирнягин, 2005] не планируется посвящать отдельный раздел монографии, но оно будет подразумеваться при анализе методов районирования. Что касается районообразования, то этот процесс зависит от специфики районирования (например, самоорганизации элементарных информационнокоммуникационных сетей в магистральные сети, понимаемые как районы [Блануца, 2016а]) и также будет анализироваться только в связи с методом выявления районов. Все разнообразие работ по выявлению районов можно свести к трем классам – природному (физико-географическому), природнообщественному (природно-хозяйственному, эколого-экономическому) и общественному (социально-экономическому) районированию. В монографии будет рассмотрен только последний класс, который может делиться на подклассы (группы видов) и виды районирования в зависимости от особенностей процесса районообразования. Поэтому под социально-экономическим районированием будем понимать выявление всех видов районов, которое осуществляется в рамках социальноэкономической географии. В свою очередь, методы выявления социально-экономических районов с некоторой условностью можно разделить на количественные, использующие цифровые данные и соответствующие способы их обработки, и качественные, основанные на интуитивных, экспертно-индивидуальных способах принятия решений. Уделяя основное внимание количественным методам, надо иметь в виду, что уже опубликованы монографические работы по применению таких методов в физико-географическом [Куприянова, 1977] и экологоэкономическом [Блануца, 1993] районировании. Поэтому весьма актуально появление соответствующей работы по социальноэкономическому районированию, которое в методологическом смысле является наиболее сложным классом выявления районов и, соответственно, в большинстве случаев опирается на качественные методы. Разделение территории на районы возможно в рамках двух методологических подходов: путем объединения исходных операционных тер3
риториальных единиц (ОТЕ) в районы с учетом заранее заданного, эталонного описания искомых территориальных образований («распознавание образов с учителем») и через обнаружение априори не заданного количества, структуры и сущности районов («распознавание образов без учителя»). При этом районы могут как выделяться (за счет статистического разбиения множества ОТЕ на подмножества), так и выявляться (в плане отыскания объективно сложившихся территориальных образований). В монографии предпочтение отдается способам выявления заранее неизвестных и объективно формирующихся районов, что соответствует традициям отечественной районной школы экономической географии [Баранский, 1980; Колосовский, 1969]. Общее представление о социально-экономическом районировании было бы неполным без перечисления основных проблем. Согласно В.Г. Шувалову, в первую очередь необходимо решить проблемы изменения роли районообразующих факторов, соотношения экономических и социальных факторов, понимания объективности и субъективности районов, сочетания критериев специализации и комплексности, соответствия основных принципов госплановского районирования современным условиям, возможности и целесообразности проведения интегрального районирования, соотношения районирования с административно-территориальным делением, практической значимости районирования [Шувалов, 2005]. По Л.В. Смирнягину перед социально-экономическим районированием стоят десять «проклятых вопросов»: об объективности, комплексности, однородности, границах, формационности, динамике, соразмерности, модусе, иерархии и наборе признаков [Смирнягин, 2004]. Здесь также можно отметить ранее выявленные [Блануца, 1992] четыре ограничения и шесть направлений расширения районологического знания, актуальные до сих пор. К ограничениям были отнесены: ориентация только на модель объекта районирования, завершение работ по районированию характеристикой выделенных районов, понимание районирования как заключительной стадии комплексного географического изучения территории и отнесение районирования к уникальным способам познания. Для решения этих и других проблем были намечены следующие направления: усложнение представления о процессе районообразования, пересмотр основных принципов районирования, расширение требований к исходной информации, комплексирование отдельных методов районирования, расширение существующих и появление новых функций районирования, вторжение в новые области познания. Для понимания сущности районирования важны еще два уточнения. Первое из них связано с разделением всех способов выявления районов на индивидуальное и типологическое районирование. В первом случае каждый район является не только целостным, но еще и специфичным 4
(уникальным) территориальным образованием, а во втором – типичным образованием, допускающим существование однотипных районов в разных частях исследуемой территории. Типологическое районирование, по сути, представляет собой обычную классификацию ОТЕ и рассматривается далее только как вспомогательная процедура собственно районирования (см., например, типологию элементарных сетей для последующего выявления сетевых районов [Блануца, 2014а, 2016а]), которое является индивидуальным. Второе уточнение связано с выделением однородного, узлового (коннекционного, функционального) и эволюционного районирования. Первые два метода (группы методов) являются традиционными [Родоман, 1999; Смирнягин, 2005] и призваны обнаруживать районы по сходству (однородности) заданного набора показателей или по интенсивности взаимодействия неоднородных ОТЕ. Третья группа методов социально-экономического районирования была предложена относительно недавно и нацелена на выявление районов по подобию траекторий развития (темпоральной идентичности) смежных ОТЕ [Блануца, 2016б]. Первые публикации по социально-экономическому районированию появились в XVIII веке. Д.Н. Замятин провел наукометрический анализ отечественных работ в данной области, опубликованных в 1761– 1941 гг., и выделил четыре периода [Замятин, 1993, с. 123–124]: «создание “зародышевых” работ» (до 1910 г.), «начального развития идей» (1910–1922 гг.), «экспансии идей» (1923–1929 гг.) и «падения числа публикаций» (1930–1941 гг.). При этом в 1870–1941 гг. им были выявлены три научные парадигмы экономического районирования – «отраслевая эмпирическая», «образно-интуитивная описательная» и «системно-энергетическая» [Замятин, 2000, с. 7]. В послевоенный период развитие районирования было связано с двумя научными революциями в географии – количественной и радикальной [Barnes, 2004; Berry, 1993; Burton, 1963; Harvey, 1972; Peet, 1977; Radical Geography…, 1978], приведшим к появлению новых количественных и качественных методов идентификации районов. С некоторой условностью можно выделить следующие активные периоды обоих революций: 1949–1970 гг. (ориентируясь на работу Т. Барнса [Barnes, 2014], будем считать от выхода в свет монографии Г. Ципфа [Zipf, 1949] до формулировки У. Тоблером первого закона географии [Tobler, 1970]) и 1969–1982 гг. (от выхода первого номера журнала радикальной географии «Антипод» до публикации монографии Д. Харви «Пределы капитала» [Harvey, 1982]). Что касается постсоветского времени, то о состоянии дел в России можно судить по материалам Всероссийской конференции по социальноэкономическому районированию, которая была проведена в Ростове-наДону в 2004 г. [Районирование…, 2004], и анализу 12 ведущих россий5
ских журналов географического профиля за 2005–2014 гг. [Шувалов, 2015]. Не вдаваясь в сущность прошлых научных революций и доминировавших тогда парадигм, отметим основной вектор современности (второго десятилетия XXI в.) – стремительное увеличение объема и общественной значимости «больших данных» («Big Data»), которое может привести к новой революции. Судя по ряду публикаций, такая революция уже началась [Kitchin, 2014; Mayer-Schönberger, Cukier, 2013] и затронула социально-экономическую географию [Graham, Shelton, 2013; Kitchin, 2013; Miller, Goodchild, 2015; Wyly, 2014]. Даже если трактовать этот процесс как эволюционное вхождение в эпоху больших объемов эмпирической информации или продолжение распространения количественных методов в географии [Barnes, 2013; 2014; Cresswell, 2014], все равно возникает проблема определения основных векторов развития методологии районирования, задаваемых новыми условиями. «Большие данные» как бы противопоставляются «малым данным» и граница между ними является условной и подвижной – то, что сегодня относится к «большим данным», завтра может рассматриваться уже как незначительный объем. Если обратиться к открытому ресурсу Google Ngram Viewer, отслеживающему встречаемость слов и словосочетаний в оцифрованных книгах 1800–2000 гг., то термин «big data» встречался в публикациях 1930 и 1936 гг., а с 1956 г. частота его встречаемости постоянно росла. Однако только в XXI в. «большие данные» стали социально значимым феноменом. Возможно, одним из первых исследователей, обратившим внимание именно на феномен, был Д. Лейни [Laney, 2001], но бурное обсуждение этой проблематики в некомпьютерных сферах началось в 2008 г. с подачи редактора журнала «Nature» К. Линча [Lynch, 2008]. Наиболее простая трактовка «больших данных» заключается в невозможности поместить эти данные в одну таблицу Excel [Strom, 2012]. Отсюда вся количественная информация, объем которой может быть размещен в такой таблице, будет считаться «малыми данными». Размер таблицы Excel 2003 составлял 65 536 строк на 256 столбцов (16 777 216 ячеек с определенной длиной записи). В последующих версиях (Excel 2007, 2010, 2013) размер таблицы составил 1 048 577 ൈ 16 385 = 17 180 934 145 ячеек, т.е. вырос примерно в тысячу раз. Согласно другому пониманию, «большие данные» должны соответствовать трем «V» – «Volume, Velocity, Variety» [Laney, 2001]. Третью – обобщающую – трактовку предложил ирландский географ Роб Китчин, которого можно считать одним из главных идеологов новой научной революции (как автора монографии «The Data Revolution» [Kitchin, 2014]). В его понимании [Kitchin, 2013, p. 262] большие данные харак6
теризуются огромным объемом (в терабайтах или петабайтах), высокой скоростью (соответствует или приближается к реальному времени), разнообразием (наличием структурированных и неструктурированных данных), исчерпывающим свойством (стремлением охватить все население мира и все технические системы), «мелкой зернистостью» (максимальной детальностью описания объектов), реляционностью (возможностью управления различными таблицами) и гибкостью (быстрым изменением размера, масштабируемостью). «Большие данные» используются в основном в коммерческих и государственных организациях [Доклад…, 2015; Карпова, Суринов, Ульянов, 2016; Миловидов, 2016; Ференец, 2016; Batty, 2013; Kitchin, 2014; Mayer-Schönberger, Cukier, 2013]. На данный момент времени это применение в целом носит эпизодический характер, что не позволяет говорить о всеобъемлющем вступлении человечества в эпоху «больших данных». Однако бурный рост технологий в данной области (геолокация, интернет вещей, беспроводные сенсоры, компактные спутники дистанционного зондирования Земли, «умные дома», «умные города», обработка всей информации из социальных сетей в режиме реального времени, облачные вычислительные ресурсы и др.) позволяет предвидеть значительное расширение использования «больших данных» в ближайшие годы. Согласно корпорации «Cisco», в конце 2016 г. человечество вступило в «эру зеттабайт» («The Zettabyte Era»), т.е. 12месячный мировой IP-трафик преодолел рубеж в 1 ZB или 1021 байт [White paper…, 2016]. В преддверии широкого распространения «больших данных» во многих научных дисциплинах (в том числе в общественных науках; см. [Берроуз, Севидж, 2016; Бородкин, 2015; Волков, Скугаревский, Титаев, 2016; Смирнов, 2015; Bearman, 2015; Bohloudi et al., 2015; Dalton, Thatcher, 2015; Hesse, Moser, Riley, 2015; Metcalf, Crawford, 2016] и др.) начались дискуссии и подготовка к новым исследовательским возможностям. Для приблизительной оценки доли географических работ в отечественных исследованиях по рассматриваемой проблематике на основе веб-сайта eLIBRARY.RU было подсчитано число журнальных статей с ключевым словом «большие данные» для разных групп научных дисциплин (табл. 1). Получилось, что из 481 статьи 129 относились к экономическим, социологическим и политическим наукам и только 6 – к географическим дисциплинам (все они были по картографии). Из этого следует, что в отечественной социально-экономической географии не было ни одной статьи (до 2017 г.) по использованию больших объемов постоянно обновляемой эмпирической информации, в то время как за рубежом географы-обществоведы активно обсуждали новые возможности ([Barnes, 2013; 2014; Cresswell, 2014; Graham, Shelton, 2013; Kitchin, 2013; Miller, Goodchild, 2015; Wyly, 2014] и др.). 7
Таблица 1 Распределение количества отечественных журнальных статей, в которых «большие данные» были одним из ключевых слов, по группам научных дисциплин и году публикации (рассчитано по материалам веб-сайта eLIBRARY.RU на 1 марта 2017 г.) Группы научных дисциплин Годы Всего 2011 2012 2013 2014 2015 2016 Информатика 6 14 29 57 54 49 209 Экономические науки 0 0 4 15 28 41 88 Социологические и политические науки 0 0 4 7 16 14 41 Географические науки 0 0 0 2 3 1 6 Остальные науки 0 0 9 21 46 61 137 Итого 6 14 46 102 147 166 481 Генеральный список всех видов «больших данных» еще не составлен и даже не разработаны соответствующие принципы классификации. Поэтому имеет смысл кратко перечислить только отдельные нечеткие (неклассифицированные) виды, которые потенциально могут использоваться в социально-экономическом районировании территории (обозначены аббревиатурой BDfR – «Big Data for Regionalization»). К таковым в первом приближении могут быть отнесены следующие виды данных: Ɣ BDfR(a) – траектории перемещения в пространстве в реальном времени каждого отдельно взятого человека, получаемые от устройств мобильной связи через глобальные системы позиционирования; Ɣ BDfR(b) – аналогичные сведения о перемещении всех транспортных средств (через метки радиочастотной идентификации); Ɣ BDfR(c) – территориально распределенные постоянно обновляемые данные об экономической активности всех промышленных производств, генерируемые космическими системами дистанционного зондирования (проекты, подобные «China Satellite Manufacturing Index» [Chine…, 2017]); Ɣ BDfR(d) – поток данных из социальных сетей о политических, культурных, рекреационных и иных предпочтениях каждого человека с указанием его местоположения по геолокации; 8
Ɣ BDfR(e) – аналогичные данные, получаемые от автоматических систем фиксации всех действий каждого человека во Всемирной паутине (интернет-серфинг, email-контакты и др.); Ɣ BDfR(f) – интернет-трафик и другие виды трафика в сетях электросвязи, привязанные к каждому человеку и/или каждой точке пространства; Ɣ BDfR(g) – геоданные от сенсоров и веб-камер, работающих по технологии M2M («machine-to-machine»). В настоящий момент времени эти данные собираются в относительно ограниченном (не всеобщем) объеме и в большинстве случаев являются закрытыми (еще не реализована идея «Open Data» [Kitchin, 2014]). Помимо этого, не решены некоторые проблемы этики [Metcalf, Crawford, 2016], конфиденциальности личных сведений [Mayer-Schönberger, Cukier, 2013] и контроля над использованием данных [Kitchin, 2014; Mayer-Schönberger, Cukier, 2013], а также ряд онтологических и методологических проблем [Boyd, Crawford, 2012; Kwan, 2016; Wagner-Pacifici, Mohr, Breiger. 2015]. Однако со временем они будут решены, и в 2020-х гг. ожидается повсеместное использование «больших данных», в том числе и в общественно-географических исследованиях. Затем примерно с 2030 г. вполне может начаться, по мнению автора, вторая радикальная научная революция в географии (по аналогии с радикальной революцией прошлого века), к чему уже складываются определенные предпосылки [Cresswell, 2014; Kitchin, 2013]. Для оценки возможности перехода существующих методов районирования с «малых» на «большие данные» был проведен специальный анализ мирового опыта. Особенности анализа научных публикаций по социально-экономическому районированию будут подробно рассмотрены в первой главе, а здесь лишь констатируем, что в 1992–2016 гг. было выявлено 467 работ (журнальных статей и монографий). Далее из них были удалены публикации, посвященные исключительно вопросам истории, теории и практической значимости социально-экономического районирования, чтобы в анализируемом массиве остались только результаты конкретного опыта выявления районов и/или разработки методики районирования. Таковых осталось 268. Среди них максимальный размер исходной таблицы данных составил 929 ൈ 1620 = 1 504 980 ячеек [Блануца, 2016а], а производной таблицы, в которой отражалась интенсивность связи между ОТЕ, – 6258 ൈ 6258 = 39 162 564 ячеек [Klapka et al., 2014]. Эти размеры не превышали пределы таблицы Excel 2013, что позволяет отнести все анализируемые практики районирования к категории «малых данных». Помимо объема, в отобранных работах отсутствовали (по [Kitchin, 2013]) потоки данных, неструктурированные, детализированные (до уровня каждого конкретного человека) 9
и всеохватывающие данные, что лишь подчеркивало невозможность их отнесения к «большим данным». Существующие методы районирования, оперирующие «малыми данными», тем не менее, при определенных условиях могут использоваться и для обработки «больших данных» (далее эти методы будут обозначаться соответственно REGSD и REGBD). Для проверки потенциальных возможностей постсоветских методик выявления районов были сформулированы семь требований (обозначены литерой «Т» с порядковым номером), основанных на обобщении свойств больших объемов количественной информации – от BDfR(a) до BDfR(g) – и особенностей алгоритмов районирования [Блануца, 1993; Duque, Ramos, Surinach, 2007; Karlsson, Olsson, 2006]. Затем по каждому требованию было подсчитано количество публикаций, методика районирования в которых удовлетворяла заявленному требованию. Получились следующие результаты. Т1. Квантифицируемость: возможность применения метода для обработки количественных данных, а также преобразования качественного способа выделения районов в количественный метод районирования. Анализ 268 постсоветских публикаций по социально-экономическому районированию показал, что в 48 работах использовались количественные методы, в 83 – допускающие формализацию качественные способы анализа количественных данных и в 66 – потенциально формализуемые качественные методы обобщения качественных данных, которые можно оцифровать. В остальных работах описание методики районирования и форма представления выявленной системы районов были таковыми, что не позволили сделать однозначное заключение о возможности их «цифрового поворота» [Ash, Kitchin, Leszczynski, 2017]. Т2. Масштабируемость: способность алгоритма районирования обрабатывать разные объемы исходных данных. Установлено, что в 27 публикациях представлены методики районирования, допускающие возможность перехода с «малых» на «большие данные». Т3. Хронологизируемость: методическая возможность обработки потока «больших данных» в режиме реального времени. В 6 работах присутствовали способы районирования, допускающие данную возможность. Т4. Оптимизируемость: наличие количественных операций по поиску оптимального набора наиболее информативных признаков для районирования территории. Результат анализа массива публикаций: такие работы отсутствуют. Т5. Структурируемость: одновременная обработка структурированных (цифровых) и неструктурированных данных (видео и др.) без ухудшения качества районирования. По этому требованию работы не обнаружены. 10