Логический анализ сети Интернет
Покупка
Основная коллекция
Тематика:
Общенаучное знание и теории
Издательство:
Институт философии РАН
Автор:
Шалак Владимир Иванович
Год издания: 2005
Кол-во страниц: 96
Дополнительно
Вид издания:
Монография
Уровень образования:
ВО - Магистратура
ISBN: 5-9540-0047-6
Артикул: 612677.01.99
Монография посвящена вопросам анализа и построения логических моделей сети Интернет с целью более полного извлечения содержащейся в нем информации. Основной акцент делается на возможность извлечения не фактической информации, как это делается в настоящее время, а аналитической, явным образом не представленной в глобальной сети. Книга предназначена для логиков, философов, специалистов по искусственному интеллекту и IТ -технологиям, для исследователей, интересующихся возможностями применения точных методов в гуманитарных науках.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Магистратура
- 47.04.01: Философия
- ВО - Специалитет
- 00.05.11: Философия
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Российская Академия Наук Институт философии В.И.Шалак ЛОГИЧЕСКИЙ АНАЛИЗ СЕТИ ИНТЕРНЕТ Москва 2005
УДК 681.142.37 ББКЗ2.817 Ш 18 В авторской редакции Рецензенты: доктор филос. наук НА.Герасимова кандидат филос. наук В.О.Шангuн Ш 18 ШU8К в.в. Логический анализ сети Интернет. М., 2005. -96с. Монография посвящена вопросам анализа и построения логических моделей сети Интернет с целью более полного извлечения содержащейся в нем информации. Основной акцент делается на возможность извлечения не фактической информации, как это делается в настоящее время, а аналитической, явным образом не представленной в глобальной сети. Книга предназначена для логиков, философов, специалистов по искусственному интеллекту и IТ -технологиям, для исследователей, интересующихся возможностями применения точных методов в гуманитарных науках. ISBN 5-9540-0047-6 © Шалак В.И., 2005-12-13 © ИФ РАН, 2005
СОДЕРЖАНИЕ Предисловие .................................... 5 АксиоматизаЦИII Иитервет ....................... 8 Что мы будем понимать под сетью Интернет? ..... 8 Что существенно для нашего анализа? ........... 9 Логическая модель Интернет ................... 1 О Язык описания модели ........................ 16 Интерпретация ............................... 17 Аксиомы ................................... .18 При меры использования языка ................. 19 Аиализ запросов поисковых систем ............... 21 Алгебраическая модель ........................ 21 Об отношении логики и теории вероятностей ..... 26 Вероятностная модель запросов ................ 30 Подтверждение и принятие гипотез ............. 33 Практический пример 1 ....................... 38 Ряды событий. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40 Практический при мер 2 ....................... 44 Практический пример 3 ....................... 47 Практический пример 4 . . . . . . . . . . . . . . . . . . . . . . . 48 Математические методы коитеит-аиализа ......... 51 Что такое контент-анализ? ..................... 51 Оценки частот ............................... 53 Условные частоты ............................ 55 Нормы ...................................... 56 Контекстный анализ .......................... 59 Связи категорий .............................. 60 Контент-мониторинг .......................... 61 ПриложеИИII .................................... 62 1. Комбинированная логика запросов. .......... 62 2. Алгоритм построения аналитических запросов .. 65 3. Технология прогноза ........................ 69 4. Летний банковский кризис 2004 года .......... 82 Литература ..................................... 94
ПРЕДИСЛОВИЕ Мы привыКJlll К Инreрнету И обращение к нему для многих успело C1<lТb чем-то обыденным. Выйти в Иигернет, просмотреть новocmyю ленту, получить и послать е-таil, заглянугь на форум, отыскать новую информацию по профессиональныM интересам, разместить в сети что-то свое для все большего числа людей эти действия превpaщaюrcя в каждодневную рyrинy. Но обыденность Икгернета обманчива. До сих пор нет единой точки зрения на ТО, что он есть такое? Самая распространенная точка зрения заключается в том, что Интернет это просто самая большая в мире элеюронная библиотека текстовой, графической, видео- н аудиоинформацни практически по любым вопросам. Мы всегда можем подключиться к Интернету И посредством специальных поисковых систем извлечь из него необходимую нам информацию. с другой точки зрения, Интернет это некоторая новая реальность, которая предоставляет людям новые возможности по осуществлению политической, экономической, военной, культурной, научной и других видов деятельности. Президенты и правиreлъcтвa., ПРОМЫlШIенные и финансовые компанни, военные и научные орraнизации, учебные заведения, средства массовой информации и даже отдельные физические лица создаюг в сети Инrepнет свои предста.вительства, вступают в определенные взаимоотношения друг с другом. И уж совсем фантастическая точка зрения на Интернет как на материализовавшуюся ноосферу Вернадского, глобальную интеллектуальную систему, новую геологическую силу, которая в скором времени преобразит Землю до неузнаваемости. Не Инrepнет существует для людей, а мы в определенном смысле существуем для него и JlвляеМСJl всего лишь ОРУДИJlми его познавательной деятельности. Эra точка зрения лишь кажется такой фантастнческой, но если присмorpетьСJl к сети Интернет повнимательней, то мы обнаружим, что он ДOC1<lточно автономен, гибель любой его части не ведет к гибели всей системы, что в Интернете существуют aIcrИВные центры, что в нем протекают процессы обмена информацией, одним из
следствий когорых является усложнение и усовершенствование самой глобальной сети. в настоящей работе мы будем рассматривать сеть Интернет как некогорое глобальное зеркало, когорое распростерлось над реальным физическим миром и в когором тем или юIыM образом, С теми или иными искажениями огрaжa.юrcя события этого мира. Orдельные страницы всемирной сеги - это всего лишь nuксели на поверхности зеркала, а сайты не6ольшие группы пикселей. до сих пор, делая запросы к поисковым системам, мы инrepесовались содержанием oгдeJIЬНЫX пикселей, но не пытались получить глобальную картину ТОГО, что отражено в зеркале. В данном случае применимо выражение, что, взаимодействуя с сетью Интернет, мы за деревьями не видели леса. Интернет пока чro uляется ДЛJI нас источником фактов, а было бы хорошо, есJПI бы он стал источником знаний. Задача, когорую мы перед собой C'Iё1Вим, может быть уточнена следующим образом. Пусть дана некогорая модель Mw, когорая представляет реальный мир. Требуется построить модель Mj, предC'Iё1ВЛJПOЩУЮ Интернет, и определкгь, какие огношеlПlJl между этими моделями имеют познавательную ценность, т.е. позволяют на основании свойств струюуры Mj делать выводы о свойствах струюуры Mw • Важность решеlПlJl данной задачи состоит в том, что практически все содержание сети Интернет в полном объеме доступно каждому пользователю и требуется ли:mъ научиться его анаJПВИРОвать. Если в физическом мире для уточнения параметров модели Mw нам зачacryю приходится ПJЮводить ресурсоемкие исследования, то, изучая модель Mw посредством анализа модели Mj , мы практически не расходуем никаких ресурсов. Понятно, что не всякий элемент cтpyкrypы Mw дублирован в Mj и доступен такого рода aнa.mcy, но даже ТО, что находит отражеШlе в Интернет, все равно поражает своим объемом. в настоящее время существует направление исследоВ3IПIJI Интернет, получившее название web-тining. Однако круг задач, когорые решают в его рамках, в основном ограничен вопросами эффективного поиска, категоризацией текстов, изучеШlем траекторий, по когорым перемещaюrcя пользователи глобальной сети, клика.я мышкой ПО ГШlертекстовым ссылкам. Задачи 6
mпepесные, но чисто yгилиrapные, так как преследуют цель улучшения существующих подходов, а не выход за их рамки. в числе вопросов, на КOI'Opые можег дать отвег логический а.нализ. следующие: 1.. Какие типы данных используюгся в модели М; для представления IDlфорМации о модеJDI M w? 2. Как представлено время в М; и как оно соотносиrcя с временем Mw? з. ЧТО ecrь событие в модели М;? 4. Что значиrсуществовать в Mj? 5. Проблема истинности в М;, и ее <УГНошение к иcтmtНости BMw? 6. Каковы методы JЮссужденuй над М;? 7. Каковы методы поиска закономерностей в М;? 8. Возможно ли ПОС1рОСние баз знаний над М;? 9. Как расnростJЮняется информация в М;? Полагаем, что приведеlпfый перечень вопросов не являегся исчерпывающим. для ответа на них потребуются усилия многих исследователей, но и результат 6удег стоить того. В настоящей книге мы коснемся ЛИШЬ части из них, оставив другие для будущих более детальных и глубоких исследований. 7
АКСИОМА ТИЗАЦИЯ ИНТЕРНЕТ Что мы будем поннмать под сетью Интернет? на самом низком физическом уровне Интернет представляет из себя просто большое число компъюrеров, соединенных между собой посредством электрических проводов, оптоволоконных кабелей, каналов радиосвязи и пр. Особого интереса данная: структура для логиков не предcrnвляет, так как речь идет всего лишь о способе ее технической реализации в железе. на более высоком уровне Интернет состоит не из компьюrеров, а из серверов, основная функция которых заключается в хранеюm информaцmI и ее передаче по определенным правилам (ПРO'fOl(олам) другим серверам. для логиков определенный mперес может представлять анализ протоколов обмена IПlформациеЙ. Здесь находит применение аппарат многосубьектных эписгемических логик. Могут решаться задачи определения логической корреК'I1IОСТИ протокола. Известно, что многие протоколы (наборы правил) обмена IПlформацией между серверами содержат ошибки, которые при определенных. условиях могут приводить к некорректной работе. Знание этих недостатков позволяет злоумышленниками получать несанкционированный доступ к различным информационным системам, имеющим связь с Интернет. Логический анализ и устранение таких недостатков является интересной, но все-таки частной задачей. на еще более высоком уровне, к которому мы собственно и привыкли, Интернет представляет из себя множество сайтов, состоящих В свою очередь из страющ, на которых может быть размещена текстовая, графическая, видео и аудиоинформация. на стрa.mщах имeюrcя ССЫЛКИ, связывающие их с другими С1раницами и сайтами, чro в конечном счете образует гипертекстовую структуру, получившую официальное название World Wide Web Всемирная Паутина. Именно последний уровень представления Интернета и будет нас интересовать. 8
Что существенно ДЛЯ нашего аналнза? Иwrepнет развивается очень бурно. Постоянно совершенствуюгся способы предcraвления информации на Инrepнет-страницах, расширяюrcя старые и возникают новые языки для их кодирования. Проблема представления информации таюке имеет прямое ОПlOшение к логике, но в данной работе нас будет интересовать не она. Мы предпОJl3ГШ(М, ЧТО информация уже тем или иным образом представлена, и задача, которая стоит перед нами, научиться эффективно пользоваться этой информацией. Поэтому мы отвлечемся от I<0НКPeтнwx решений и их реализаций и постараемся приюrrь более общую точку зрения, которая менее подвержена изменениям, связанным с эволюцией Интернет. нам важно не увязнyrь в сиюминугных деталях, а получить результаты, которые ocтaнyrcя значимы еще долгое время. Более общая точка зрения заключается в том, что Интернет это реляционная структура, элементарныM типом которой являюгся цепочки символов. Всякая страница сети Интернет это просто цепочка символов, подчиняющаяся определенному синтаксису. ЕсJШ мы хотим создать Инrepнет-страницу, мы доJIжны всего лmпъ составить некоторый текст и сохранить его на специальном компьютере, подсоединенном к глобальной сети Непосредственно на странице хранигся лишь текстовая информация, а графическая, видео и аудиоинформация представлены специальныи ссылками на файлы соответствующего формата. Ссылки это тоже цепочки символов. Специальные программы интерпретаторы JIзыов,' С помощью которых закодировaны Интернет-страницы, знают, как найти по ссылкам нужные файлы и представиrь пользователю в удобном виде содержащуюся JI них информацию .. как это конкретно делается в каждом отдельном случае, ДЛЯ нас совершенно неважно. Важно лишь, что это делается и всегда будет делаться. Кроме четырех упомянугых выше видов информации в Интернете широко представлена также алгоритмическая информация. Когда мы набираем текст запроса в ПОИСковой системе и нажимаем на кнопку «I10UСЮ>, мы задействуем алгоритмическую информацию. Некоторые сайты специaJШЗИРУЮТСЯ именно на ней. Описания алгоритмов, которые 9
при этом используются, также либо закодированы в самой стрamще, либо представлены ссылками на соответствующие файлы. Мы принимаем В качестве базового пma данных сети Ингернет цепочки символов слова в определенном алфавиre. Базовые операции с ними нам хорошо знакомы. Все остальные, более сложные, типы данных мы должны будем опредеJПIТЬ с их помощью. Логическаи модель Интернет для того чтобы ПОЯВИJПfсь цепочки символов, мы должны зафиксировать начальный алфавит букв А1рЬа, из которых эти цепочки будyr строИТЬCJl. Чтобы не слишком О1рываться от действительности, будем cчиmть, что множество букв AIpha конечно. Одним из примеров такого алфавита является хорошо знакомый набор из 256 АSСП-символов. над Э11IМ алфавитом определим множество слов Word: Def.l 1. ЕсJПI aEAIpha, то aEWord; 2. Если vEWord и wEWord, то vwEWord; 3. Ничто другое словом не является. Базовым отношением на множестве WordxWord .оля:ется отношение вхождения Include слова v в слово w, которое определяется очевидным образом: Def.2 Include с WordxWord, удовлетвОРJUOщее условию • <v,w>EInclude <=> 3x,YEWord(w=v ИJПf w=xv ИЛИ w=vy илиw=xvy) мы могли бы определить и другие известные ТШIЫ отношений и операций над словами, но не craнeM этого делать, так как их добавление ничего принципиально нового не дaer. Важно JПIШЬ иметь ввиду, что любые наши действия в конечном счете всегда сводимы к базовым операциям со словами в некотором фиксированном алфавите Alpha. МЫ знаем, что ВCJIКoe физическое тело имеет пространственно-временные координаты. Нечто подобное 10
свойсгвенно и Интернет. В "ем т.uoкe имеются свои тела Инrepнет-страницы как слова в алфавиre ЛlрЬа, построеННliе в соответсгвии с сикгаксисом языка НfМL или его модификаций. Def.3 Вody с Word Никаких ограничений на размер данного множества мы не налагаем. Важно mппъ то, что мы всегда можем эффектив"о определить, принадлежиг некоторое слово Ь множесгву Body или не принадлежиг. Эro означает, что множество Body рекурсивно. Как и у физических тел, у Интер"ет-страниц есть свои координаты в пространстве глобальной сети. В качесгве координат для пользователей Интернет выступают построенные по определенным правилам URL-aдpeca страниц также ЯВЛJllOщиесЯ словами в нашем алфавите. Def.4 Address с Word на размер этого множества мы также не налагаем никаких ограничений и предполагаем лишь реКУРСИВНОСГЪ. Заметим, что далеко не каждому элементу множества Address, coorвeтcгвyeт реально сущесгвующая страница. Пользователям Интернет знакома «Ошибка 404. Файл не найден». это сообщение как раз и говорит о ТОМ, что была совершена неудавшая:ся попытка перейти по адресу, которому не соответсгвует ни одна реально сущесгвующая страюща. В физическом мире тоже не все места в пространстве заняты телами, встречается и пустота. Помимо этого каждой странице сопоставлено время ее создания или последней модификации. Реализуется 0"0 через систему BpeMellных меток, которые т.uoкe ЯВЛJllOТCЯ словами в алфавите Alpha. Def.5 Time с Word. Множесгво Time рекурсивно и на нем задано рекурсивное отношеJlИе линейного порЯДЮl, которое будем обозначать посредсгвом <. 11