Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Система формирования знаний в среде Интернет

Покупка
Артикул: 618008.02.99
Доступ онлайн
215 ₽
В корзину
Проанализированы проблемы разработки и применения систем и модулей поиска информации, основанных на принципах искусственного интеллекта, а также формирование предметно-ориентированных порталов, объединяющих систематизированные информационные ресурсы сети Интернет конкретной предметной области, механизмы их обработки. Разработаны математические модели и алгоритм дня систем мониторинга информации на основе онтологического подхода, описана концепция системы формирования знаний.
Система формирования знаний в среде Интернет : монография / В. И. Аверченков, А. В. Заболеева-Зотова, Ю. М. Казаков [и др.]. - 4-е изд., стер. - ФЛИНТА : Флинта, 2016. - 181 с. - ISBN 978-5-9765-1266-5. - Текст : электронный. - URL: https://znanium.com/catalog/product/1843190 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
В.И. Аверченков, А.В. Заболеева-Зотова, Ю.М. Казаков, 
Е.А. Леонов, С.М. Рощин 

СИСТЕМА ФОРМИРОВАНИЯ ЗНАНИЙ 
В СРЕДЕ ИНТЕРНЕТ 

Монография 

4-е издание, стереотипное

Москва 
Издательство «ФЛИНТА» 
2021

УДК 004.415.2.045:004.738.5
ББК  73я73  

        А19 

Аверченков В.И. 

         Система формирования знаний в среде Интернет: монография / 
В.И. Аверченков, А.В. Заболеева-Зотова, Ю.М. Казаков, Е.А. Леонов, С.М. 
Рощин. – 4-е изд., стер. – Москва : ФЛИНТА, 2016. – 181 с. – ISBN 
978-5-9765-1266-5. – Текст : электронный

Проанализированы проблемы разработки и  применения систем и 
модулей поиска информации, основанных на принципах искусственного 
интеллекта, 
а 
также 
формирование 
предметно-ориентированных 
порталов, 
объединяющих 
систематизированные 
информационные 
ресурсы сети Интернет конкретной предметной области, механизмы их 
обработки. Разработаны математические модели и алгоритм для систем 
мониторинга информации на основе онтологического подхода, описана 
концепция системы формирования знаний. 

УДК 004.415.2.045:004.738.5
ББК 73я73  

ISBN 978-5-9765-1266-5 
© Коллектив авторов, 2016 
© Издательство «ФЛИНТА», 2016 

А19 

ВВЕДЕНИЕ 

Современные тенденции в области развития информационных 
систем показывают, что, наряду с традиционными информационными 
ресурсами (справочники, базы данных, нормативные документы и 
др.), все большее значение для успешной деятельности организаций 
приобретают результаты интеллектуальной деятельности экспертов 
или аналитических работников.  
Существенная роль, которую играют в информационных 
системах накапливаемые знания, позволяет определить их как весьма 
ценный и исключительно важный ресурс любой организации, 
характеризующий ее состоятельность наряду с традиционными 
ресурсами, такими, как финансовые, материальные, людские и т.д. 
В настоящее время Интернет представляет совокупность 
разрозненных информационных ресурсов практически во всех 
областях знаний и сфер деятельности человека. Информация 
динамично изменяется, требует систематизации и структурирования 
для эффективного использования в учебном процессе и при 
выполнении научных исследований.  
В связи с этим одной из наиболее сложных и актуальных 
проблем является обеспечение эффективного сетевого доступа к 
структурированным предметно-ориентированным информационным 
ресурсам для специалистов в предметной области.  
Но анализ работы основных поисковых систем показывает, что в 
результате их работы фактически не проводится анализ соответствия 
метаданных с информационным наполнением страницы. Также в 
большинстве поисковых систем не используется кластеризация 
содержимого 
на 
тематические 
блоки 
и 
направления 
либо 
кластеризация проводится иерархически и с небольшой глубиной. 
Однако методы, используемые при кластеризации содержимого, 
основываются 
на 
метаданных 
о 
странице 
и 
заголовочной 
информации. 

Повышение роли Интернета в процессах информационного 
обеспечения в различных отраслях промышленности и образования,  
увеличение объема информации вызывает необходимость разработки 
новых подходов по формированию и обработке информационных 
ресурсов. 
Одними 
из 
подходов 
может 
быть 
создание 

интеллектуальных систем, внедрение формата RSS, RDF для 
представления и определения методанных, описывающих ресурсы 
WEB, а также формирование предметно-ориентированных порталов, 
объединяющих систематизированные информационные ресурсы 
конкретной предметной области. 
Указанные факты явились предпосылкой для разработки 
отраслевой системы доступа к распределенным информационным 
ресурсам научного и образовательного назначения по приоритетным 
направлениям развития науки и техники на примере области 
искусственного интеллекта. 
 

 

1. АНАЛИЗ ПРОБЛЕМ РАЗРАБОТКИ И ПРИМЕНЕНИЯ 
МЕТОДОВ СИСТЕМНОГО АНАЛИЗА ОБРАБОТКИ 
РАСПРЕДЕЛЕННОЙ ПРОБЛЕМНООРИЕНТИРОВАННОЙ ИНФОРМАЦИИ В СРЕДЕ 
ИНТЕРНЕТ 

Интенсивное развитие информационных технологий привело к 
их 
широкому 
использованию 
в 
 
различных 
отраслях 
промышленности и образования. Увеличение объема WEB-ресурсов 
и роли Интернет в информационном обеспечении потребностей 
общества выдвигает на первый план задачи интеллектуализации 
поиска 
и 
хранения 
информации. 
Используемые 
подходы 
в 
современных информационных поисковых системах уже не могут 
удовлетворять пользователей в получении оперативной пертинентной 
информации. Возросшие объемы информации приводят к ее 
значительному "зашумлению". В этих условиях для поиска 
информации все большее применение находят системы и модули, 
основанные на принципах искусственного интеллекта. Такие системы 
обеспечивают повышение эффективности поиска и релевантности 
найденных WEB- ресурсов (документов).   

Другой чертой современных подходов по информационному 
обеспечению является формирование предметно-ориентированных 
порталов, объединяющих систематизированные информационные 
ресурсы конкретной предметной области, механизмы их обработки и 
набор 
сервисов, 
обеспечивающих 
необходимое 
представление 
информации и интерфейс пользователей. 

 

1.1. РОЛЬ МОНИТОРИНГА И СИСТЕМНОГО АНАЛИЗА 
ИНФОРМАЦИИ В СРЕДЕ ИНТЕРНЕТ 
Одной из важных задач обработки  информационных ресурсов 
является задача мониторинга. Она решается во многих областях, 
связанных с обработкой информации. Многие  задачи мониторинга 
информации рассматриваются при использовании сети Интернет, 
которая объединяет миллиарды документов из различных областей 
знания. 
Собранную 
информацию, 
в 
результате 
выполнения 
мониторинга, перед использованием необходимо проанализировать: 

проклассифицировать по разделам (структурировать), подобрать 
ключевые слова, соответствующие документам, объединить сходную 
информацию, найти новую информацию (по отношению к уже 
известной), отсеять недостоверную информацию, установить связи в 
массиве информации  [8, 16]. 
 

1.2. ПРОБЛЕМЫ ПОИСКА ТЕОРЕТИЧЕСКОЙ НАУЧНОЙ 
ИНФОРМАЦИИ В ИНТЕРНЕТ 
 

В 
настоящее 
время 
объем 
информационных 
ресурсов 
лавинообразно 
возрастает, 
наблюдается 
значительный 
рост 
количества занимаемых доменных имен. При этом также можно 
отметить  что возрастает интерес к сети Интернет  и у коммерческих 
организаций, 
как 
к 
дополнительному 
источнику 
прибыли. 
Практически каждое предприятие, организация стремится иметь свое 
представительство в сети. В связи с этим возникают тенденции к 
использованию сети в коммерческих целях. Большинство российских 
предприятий осознают тот факт, что Интернет, в первую очередь, 
является дешевым средством рекламы, и воспринимают сеть, прежде 
всего, как рекламное печатное издание, в котором они могут 
разместить информацию. Только особо крупные предприятия с 
большим опытом работы в сети расширяют свои сайты до больших 
порталов, использующих средства обратной связи и общения с 
клиентами, 
ведут 
разъяснительную 
работу 
по 
поводу 
предоставляемых ими услуг, дают информацию, помогающую 
выбрать 
необходимую 
услугу 
или 
товар 
клиенту. 
Также 
увеличивается рост количества Интернет-магазинов и других 
подобных служб чисто коммерческого назначения. В связи с этими 
явлениями доля теоретической научной информации в общем 
количестве информации резко уменьшается. 
Также не маловажным фактором, оттесняющим научную 
информацию на «задний план», являются реалии финансирования 
научных проектов и порталов. Для коммерческих организаций 
Интернет - средство увеличения объемов продаж услуг и товаров, а 
соответственно они могут позволить себе тратить значительные 
средства на развитие своих порталов и увеличение рейтингов в 
различных 
системах. 
В 
то 
время, 
как 
сайты 
и 
порталы, 

предоставляющие научную и теоретическую информацию, не имеют 
возможности 
тратить 
значительные 
денежные 
средства 
на 
продвижение своих проектов и в большинстве случаев попросту не 
преследуют цели создать популярный ресурс. Также создатели 
ресурсов с научной информацией попросту слабо представляют 
аудиторию пользователей своих ресурсов вследствие отсутствия 
самых элементарных маркетинговых исследований в данной области. 
Также можно отметить что  научно ориентированный ресурс  имеет 
недостаточно качественное его представление и оформление. На 
подобных сайтах часто попросту содержатся страницы, которые 
являются либо документами в формате MS Word, или HTML 
документами, сохраненными в том же редакторе. И как следствие 
имеют огромную избыточность в описании стилевых свойств и 
интерфейса, что уменьшает привлекательность для конечного 
пользователя. 
Таким образом, поиск научной и теоретической информации 
значительно затруднен вследствие некачественного ее представления 
в сети, а также в связи с малым объемом от общего количества 
информационных ресурсов и значительной ее зашумленностью.  
В 
настоящее 
время 
мониторинг 
и 
некоторые 
аспекты 
системного анализа информации в сети Интернет выполняются с 
использованием систем информационного поиска: разделяемые на 
каталоги (directories), информационно-поисковые системы (search 
engines) и метапоисковые системы (metasearch engines) [16]. 
Поисковые системы следует применять, если требуется найти 
информацию по специфичным вопросам или для обеспечения 
полноты охвата ресурсов. Многие поисковые системы используют 
совместно систему поиска и каталог.  
На данный момент основным средством поиска информации в 
сети Интернет являются поисковые системы. Если обобщенно 
рассмотреть алгоритмы работы поисковых роботов, то можно 
выявить следующие основные этапы их работы, которые в общем 
можно разделить на два параллельных процесса. 
Процесс индексирования содержимого Интернет включает: 
1. Сканирование содержимого Интернет. 
2. Создание индексов страниц на основании ключевых слов, 
заголовков и другой метаинформации. 

3. Определение 
рейтинга 
индексированной 
страницы 
(на 
основании цитируемости, рейтингов сайтов, в которых встретились 
цитаты). 
Процесс 
анализа 
пользовательского 
запроса 
предусматривает: 
1. Проведение морфологического разбора запроса. 
2. Синтаксический 
анализ. 
(Следует 
заметить, 
что 
для 
синтаксического анализа каждая система предлагает свой язык. При 
этом, как правило, не учитываются синтаксические конструкции того 
естественного языка, на котором написан запрос. В искусственном 
языке запросов пробелы, встречающиеся в запросе, попросту 
означают логическое «и», а все другие знаки пунктуации просто 
игнорируются. Несмотря на данные особенности, подавляющее 
количество пользователей поисковых систем пишет запросы на 
естественном языке, а многие из них даже не знают о том, что 
имеется встроенный язык поисковой системы, то есть большинство 
пользователей строят запросы с использованием только логического 
«и» между морфологическими основами слов.) 
3. Составление запроса к базе данных, содержащей сохраненные 
индексы поисковых систем. 
4. Определение рейтинга соответствия найденных индексов 
запросу пользователя. При этом учитывается лишь наиболее полное 
совпадение морфологических основ и близость расположения 
указанных основ. 
5. Создание общего рейтинга на основании соответствия запросу 
и рейтинга популярности страницы. 
6. Вывод результатов запроса в удобном для пользователя виде. 
Анализ алгоритма работы поисковых систем показывает, что ни 
на одном из этапов не анализируется соответствие метаданных с 
информационным наполнением страницы. Также следует упомянуть 
о том, что ряд поисковых систем основывается также и на анализе 
форматирования страницы и содержащейся информации в заголовках 
страницы, 
разделов 
и 
других 
структурных 
единиц 
языка 
гипертекстовой разметки. Однако данные методы определения 
реального содержания страницы хорошо известны и могут быть легко 
использованы для обмана поисковых роботов, что в значительной 
мере используется разработчиками мелких коммерческих проектов, 
засоряющих результаты поиска. 

Также в большинстве поисковых систем не используется 
кластеризация содержимого на тематические блоки и направления 
либо кластеризация производится иерархически и с небольшой 
глубиной. При этом методы, используемые при кластеризации 
содержимого, основываются в основном на метаданных о странице и 
заголовочной информации. 
Для определения цитирования информации применяются 
алгоритмы, которые не способны отследить перефразированные 
цитаты 
и 
прямое 
частичное 
зеркалирование. 
Большинство 
применяемых алгоритмов могут определить только полные зеркала 
сайтов. И как следствие большинство существующих поисковых 
систем в слабой мере агрегируют результаты поиска. Это является 
особо актуальной проблемой, так как реальное содержимое сети 
Интернет многократно дублируется. Содержимое страниц может 
повторяться как частично, так и полностью с незначительными 
изменениями. 
Обобщая данные недостатки, можно отметить, что рейтинги, 
получаемые при анализе страниц, слабо зависят от реального 
содержимого страницы и в основном зависят от метаданных и 
описания страниц, созданных самими разработчиками. 
Еще один недостаток при подобном подходе к определению 
рейтинга заключается в том, что система оценки рейтингов 
зацикливается и приводит поисковую систему к статичному 
состоянию, что, очевидно, приводит к ее недееспособности. Если 
более подробно рассмотреть этот процесс, то из алгоритма 
определения рейтингов видно, что сайт, однажды получивший 
высокий рейтинг, «тяжело» теряет его и наоборот вновь появившийся 
сайт, не имеющий целенаправленной маркетинговой политики и не 
продвигаемый целенаправленно на повышение рейтинга, никогда не 
будет найден. Происходит данное явление вследствие того, что 
высокий рейтинг сайта вызывает большой приток посетителей, 
переходящих по первым ссылкам результатов и тем самым еще 
больше увеличивающих рейтинг сайтов с высоким рейтингом. А 
цитирование сайта еще выше поднимает рейтинг данного ресурса. 
Как следствие вновь разработанный ресурс, не имеющий высокого 
рейтинга, никогда не попадет в первые строчки поиска, несмотря на 
его содержание. Более того, некоторые популярные издания при 
оценке поисковых систем приводили огромное количество случаев, 

когда общий рейтинг превышал рейтинг соответствия. Вследствие 
чего сайт, имеющий полное соответствие запросу, но имеющий 
низкий рейтинг, оказывался ниже в результатах запросов, чем сайты, 
абсолютно не имеющие отношения к тематике запроса, но с более 
высоким рейтингом. Таким образом, результаты поиска становятся 
статичными 
и 
не 
способны 
реагировать 
на 
изменяющуюся 
окружающую среду Интернет. 
Для увеличения рейтинга ресурса и тем самым обеспечения 
появления ссылки на первых страницах результатов поиска 
используется ряд приемов, позволяющих "обмануть" роботов, 
индексирующих страницы. 
На первом этапе разработчики стремятся расширить число 
запросов, которым может соответствовать их ресурс. В частности, 
для того, чтобы повысить рейтинг в известной поисковой системе, 
разработчики информационного ресурса могут вводить в метаданные 
расширенную информацию, которая может вовсе не относиться к 
тематике их сайта и будет лишь отражением заведомо популярных 
тем в Интернет, таких, как скачивание музыки, популярных программ 
и т.п., а также введением ключевых слов паразитов, таких, как 
бесплатно, скачать и др.  
Как уже отмечено, некоторые поисковые системы используют 
анализ текста на основании структурных единиц гипертекстовой 
разметки (связь). Данные алгоритмы легко обходить введением 
заголовков 
с 
расширенной 
информацией 
и 
стилистического 
оформления подобных заголовков таким образом, чтобы они были не 
видны пользователю при посещении страницы, тем самым они 
становятся видны роботу, но не видны пользователю. Другой вариант 
состоит в том, что в статическом описании страницы используются 
расширенные заголовки, а при загрузке страницы они динамически 
изменяются на заголовки, касающиеся только тематики сайта. Ни 
одна из поисковых систем не отслеживает алгоритмы работы 
скриптовых языков, работающих на стороне пользователя. 
Еще один прием, используемый при разработке Web-ресурсов, 
направлен на увеличение общего рейтинга страницы. Многие 
разработчики 
ресурсов 
могут 
рассылать 
ссылки 
в 
форумы 
авторитетных изданий, давать неверные ссылки читателям блогов, 
форумов и гостевых книг, создавать сайты – близнецы, указывающие 
друг на друга и приводящие цитаты с сайтов своих близнецов, 

Доступ онлайн
215 ₽
В корзину