Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Компьютерное зрение

Покупка
Новинка
Артикул: 620416.03.99
В данной книге теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике. Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.
Шапиро, Л. Компьютерное зрение : учебник / Л. Шапиро, Д. Стокман. - 5-е изд. - Москва : Лаборатория знаний, 2024. - 762 с. - ISBN 978-5-93208-725-1. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2167351 (дата обращения: 11.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов




ЛУЧШИЙ ЗАРУБЕЖНЫЙ УЧЕБНИК
ЛУЧШИЙ ЗАРУБЕЖНЫЙ УЧЕБНИК
Л. ШАПИРО,  Дж. СТОКМАН
КОМПЬЮТЕРНОЕ
ЗРЕНИЕ
Перевод с английского
А. А. Богуславского
под редакцией
С. М. Соколова
Рекомендовано
учебнометодическим объединением вузов Российской Федерации
по образованию в области прикладной информатики
в качестве учебного пособия для студентов
высших учебных заведений, обучающихся по специальности
«Прикладная информатика (в областях)»
5е издание, электронное
Москва
Лаборатория знаний
2024


УДК 519.7
ББК 32.81
Ш23
С е р и я
о с н о в а н а
в
2006 г.
Шапиро Л.
Ш23
Компьютерное зрение / Л. Шапиро, Дж. Стокман ; пер. с англ. —
5-е
изд.,
электрон. — М.
:
Лаборатория
знаний,
2024. —
763 с. — (Лучший зарубежный учебник). — Систем. требования:
Adobe Reader XI ; экран 10". — Загл. с титул. экрана. — Текст :
электронный.
ISBN 978-5-93208-725-1
В данной книге теоретические аспекты обработки зрительных данных
рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются
базы данных изображений и системы виртуальной и дополненной реальности. Приведены примеры приложений в промышленности, медицине,
землепользовании, мультимедиа и компьютерной графике.
Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.
УДК 519.7
ББК 32.81
Деривативное издание на основе печатного аналога: Компьютерное зрение / Л. Шапиро, Дж. Стокман ; пер. с англ. — М. : БИНОМ. Лаборатория
знаний, 2006. — 752 с. : ил., [8] с. цв. вкл. — (Лучший зарубежный учебник). — ISBN 5-94774-384-1.
В соответствии со ст. 1299 и 1301 ГК РФ при устранении ограничений, установленных
техническими средствами защиты авторских прав, правообладатель вправе требовать
от нарушителя возмещения убытков или выплаты компенсации
ISBN 978-5-93208-725-1
Authorized Translation from the English language edition, entitled COMPUTER VISION; by LINDA
SHAPIRO; and by GEORGE STOCKMAN; published by Pearson Education, Inc, publishing as Prentice
Hall. Copyright © 2001 by Prentice Hall, Inc. All rights reserved. No part of this book may
be reproduced or transmitted in any form or by any means, electronic or mechanical, including
photocopying, recording or by any information storage retrieval system, without permission from
Pearson Education, Inc. Electronic RUSSIAN language edition published by BKL PUBLISHERS.
Copyright © 2013.
Авторизованный перевод издания на английском языке, озаглавленного COMPUTER VISION,
авторы LINDA SHAPIRO и GEORGE STOCKMAN, опубликованного Pearson Education, Inc, осуществляющим издательскую деятельность под торговой маркой Prentice Hall © 2001 by Prentice
Hall, Inc. Все права защищены. Воспроизведение или распространение какой-либо части/частей
данной книги в какой-либо форме, какими-либо способами, электронными или механическими, включая фотокопирование, запись и любые поисковые системы хранения информации,
без разрешения Pearson Education, Inc запрещены. Электронная русскоязычная версия издана
BKL Publishers, Copyright © 2013.
© Перевод на русский язык, Лаборатория знаний, 2015


Предисловие
редактора перевода
Системы технического зрения (СТЗ) призваны и во многих случаях уже
решают задачи по дополнению или даже замене человека в областях деятельности, связанных со сбором и анализом зрительной информации. Уровень их
использования в прикладных областях является одним из наиболее ярких и
наглядных интегральных показателей уровня развития высоких технологий в
самых различных отраслях промышленности.
Составные части СТЗ: оптическая система, преобразователь свет-сигнал,
электронный тракт ввода элементов изображения в память ЭВМ или специального вычислителя, математическое обеспечение сбора и обработки необходимых зрительных данных, выдвигают самые высокие требования к соответствующим направлениям научно-технической мысли.
Несмотря на значительные успехи, достигнутые в области машинного
зрения, эффективное его использование в качестве средства автоматизации
приходится, прежде всего, на наиболее развитые производства с общей высокой
культурой и технологией. В плохо организованных средах и исследовательских
задачах на СТЗ возлагается роль дополнения, расширяющего возможности
и повышающего эффективность человеческого зрительного анализа, при ведущей и определяющей роли человека-оператора или исследователя. Следует
констатировать тот факт, что не существует универсального математического
аппарата, который позволил бы сформировать общий формализованный подход к построению систем технического зрения. Поэтому, с точки зрения подготовки специалистов в области машинного зрения, очень важны публикации,
в которых отдельные математические средства и модели рассматриваются в
контексте системного подхода к решению той или иной практической задачи.
После полутора-двух десятилетий пониженного спроса в отечественной
промышленности на новые разработки в области высоких технологий сейчас
стали проявляться признаки оживления спроса на средства автоматизации
производства и как на важную их часть — СТЗ. Не только для разработки
систем машинного зрения, но и для их эффективного использования необходимо иметь специальную подготовку и понимание того, как работают подобные
системы. Вместе с тем, по сравнению с другими областями информационных


Предисловие редактора перевода
технологий, относительно мало монографий, посвященных машинному зрению
или отдельным его составляющим. Еще меньшее число переведено на русский
язык, а отечественные публикации представлены в основном статьями в различных сборниках.
Здесь, как нельзя кстати, книга Линды Шапиро и Джорджа Стокмана,
адресованная, прежде всего, студентам старших курсов и аспирантам, интересующимся современным состоянием дел в такой интересной и увлекательной
области, как машинное зрение. Одним из достоинств данной книги является
то, что при акценте на математическом обеспечении, в ней сбалансированно
представлены и все другие составные части систем технического зрения, требующие учета при разработке или эксплуатации СТЗ. Теоретические аспекты
обработки зрительных данных рассматриваются с привлечением большого
количества примеров из практических задач, кроме того, во всех частях
дано большое количество упражнений, закрепляющих усвоенный материал и
вырабатывающих навыки решения практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы
виртуальной и дополненной реальности. Представлен законченный обзор двух
систем компьютерного зрения прикладного назначения. Приведены примеры
приложений в промышленности, медицине, землепользовании, мультимедиа
и компьютерной графике. На Web-сайте для поддержки книги находятся
архивы изображений, исходные тексты программ для примеров обработки
изображений и слайды презентаций по тематике книги.
Следует отметить очень качественно выполненный перевод предлагаемой
книги. Все термины тщательно выверены с точки зрения их профессионального использования именно в рассматриваемой области.
Выбор терминов, которые наиболее точно соответствуют английскому слову
в такой быстро развивающейся области, как машинное зрение, зачастую
является довольно сложной задачей. В ряде случаев переводчик вынужден
приводить несколько наиболее подходящих значений русских аналогов, а в
ряде случаев, в соответствии с уже сложившейся практикой, принимается английский вариант в русской транскрипции, как например, со словом pixel, что в
смысловом переводе означает элемент изображения, но де-факто используется
без перевода — пиксел (реже пиксель).
проф. С. М. Соколов


Предисловие
к русскому изданию
Эта книга была написана в качестве учебника по компьютерному зрению, рассчитанного на студентов и аспирантов. Мы стремились достичь трех главных
целей. Во-первых, мы хотели представить в книге наиболее важный базовый
материал по основным разделам компьютерного зрения, который необходим
студентам, желающим работать в данной области. Во-вторых, в книгу были
включены ряд алгоритмов и прикладных задач повышенной сложности, на
примере которых студенты и аспиранты смогут получить представление о
некоторых направлениях современных исследований. И в-третьих (хотя и не в
последнюю очередь), мы надеялись поделиться с читателями нашей увлеченностью компьютерным зрением, которое продолжает развиваться даже быстрее,
чем мы ожидали. Мы выражаем благодарность к. ф.-м. н. А. А. Богуславскому
и д. ф.-м. н. С. М. Соколову, работавшим над русским изданием книги. Мы
надеемся, что книга будет полезна при изучении компьютерного зрения российскими студентами и аспирантами и что она будет способствовать расширению
взаимодействия между американскими и российскими учеными и инженерами.
Достигнутые ими результаты, несомненно, необходимы для прогресса в этой
области.
Линда Шапиро и Джордж Стокман


Предисловие
Эта книга представляет собой вводное руководство по компьютерному зрению
для широкого круга читателей. В ней содержится необходимый теоретический
материал и примеры для студентов и инженеров, планирующих работать
в прикладных областях, в которых требуется автоматически извлекать из
изображений некоторую существенную информацию. Материалы книги могут
быть полезны и для профессионалов; книга может использоваться в качестве
учебника для студентов и для начального обучения аспирантов, а также при
выполнении исследовательских проектов в колледжах и в высшей школе. Наша
цель состояла в том, чтобы привести базовый набор основных понятий и
алгоритмов, а также обсудить некоторые наиболее интересные прикладные
области. Данная книга уникальна наличием глав по таким захватывающе
интересным и развивающимся в последнее время прикладным областям, как
базы данных изображений (гл. 8) и системы виртуальной реальности (гл. 15).
В заключительной главе (гл. 16) приведено подробное рассмотрение двух реальных систем, в которых применяется компьютерное зрение. Прогресс в области вычислительной техники привел к повсеместному распространению разнообразных недорогих приложений, связанных с использованием компьютерных
изображений. Вычислительная обработка изображений теперь является не
только предметом научных исследований. Она применяется даже в искусстве
и в общественных науках и представляет интерес для отдельных любителей.
Книга должна быть полезна существующей и постоянно расширяющейся
аудитории, включая тех, кого кроме традиционных областей автоматизации,
обработки изображений, получения медицинских изображений, бесконтактных
измерений и компьютерной картографии интересуют такие области, как мультимедиа, искусство и дизайн, геоинформационные системы и базы данных
изображений. На первый взгляд, настолько общих целей невозможно достичь.
Однако подобные учебники уже существуют в других областях, например по
физике, математике и компьютерным наукам. Мы надеемся, что сделали, по
крайней мере, хорошую книгу для начинающих — мы хотели написать книгу,


Предисловие
9
которая была бы полезна и на аудиторных занятиях, и самостоятельному
читателю. Мы считаем, что выбранные темы будут интересными и иногда
увлекательными, и, надеемся, доступными для большой аудитории. Подразумевается, что в случае применения книги для обучения дипломированных
специалистов или аспирантов в учебном курсе по компьютерному зрению
также будут использованы статьи из списка дополнительной литературы. Этот
список не планировалось сделать всесторонним; в конце каждой главы приведены ссылки на довольно небольшой набор статей. Изложение материала в
первых главах начинается на интуитивном уровне и затем происходит переход
к использованию математических моделей. Это сделано с целью формирования
интуитивного понимания до знакомства с формальным описанием. Разделы,
отмеченные звездочкой (*), являются более сложными и математически насыщенными. В учебном курсе, не затрагивающем технических деталей, эти
разделы можно не рассматривать. Для усиления интуитивного подхода в
первых одиннадцати главах рассматривается обработка плоских изображений,
а трехмерное компьютерное зрение оставлено для более поздних глав. Опытные
преподаватели без труда смогут перераспределить материал в расчете на конкретный учебный курс или стиль обучения. Существует большое количество
полностью двумерных приложений. В двумерной форме оказывается проще
изучать многие понятия и алгоритмы. В гл. 4 рассматривается ряд основных
понятий, связанных с распознаванием образов. Таким образом студенты смогут
получить представление о законченных системах распознавания до полного
изучения характерных признаков изображений и методов их нахождения.
После изучения гл. 4 читатель получит хорошее представление о приложениях
обработки двумерных изображений. В гл. 5, 6 и 7 вводятся характерные
признаки полутоновых и цветных изображений, а также текстурные признаки.
В гл. 8 обсуждается популярная недавно возникшая прикладная область —
базы данных изображений. Некоторые коллеги советовали нам поместить этот
материал в конце книги, но мы расположили его раньше, чтобы закрепить
усвоение понятий предшествующих глав и представить материал, который
может пригодиться для полусеместровых проектов. Сегментация и распознавание образов на двумерных изображениях рассматриваются в гл. 10 и 11.
Материал в них представлен в наиболее простой форме, без учета сложностей,
связанных с геометрическими преобразованиями в трехмерном пространстве.
Свойства трехмерного пространства кратко представлены в гл. 2. Намного
более подробно они изучаются в гл. 12. В гл. 12 качественно рассматриваются многие аспекты восприятия трехмерного мира посредством двумерных
изображений. Эта глава заканчивается описанием модели стереоскопической
зрительной системы и нескольких примеров применения уравнения тонкой
линзы. Переход к трехмерному компьютерному зрению выполняется в гл. 13.
На основе собственного преподавательского опыта авторы обнаружили, что на
данном этапе сложность материала для студентов резко возрастает. Матрицы
для представления геометрических преобразований в однородных координатах
используются непосредственно в материале главы, а не выносятся в при

Предисловие
ложение. Трехмерные версии этих преобразований являются расширениями
более простых двумерных преобразований, уже рассматривавшихся в гл. 11.
Аппроксимация методом наименьших квадратов, представленная в контексте
двумерных задач в гл. 11, в гл. 13 также расширяется на трехмерный случай.
Нелинейная оптимизация сначала рассматривается применительно к простой
«перспективной задаче 3 точек». Затем нелинейная оптимизация применяется в задаче калибровки камеры с учетом радиальной дисторсии объектива.
В гл. 14 описываются трехмерные модели и их распознавание по данным
дальнометрических измерений. Глава 15 посвящена обсуждению приложений
виртуальной и дополненной реальности и роли в них методов компьютерного
зрения.
Замечания относительно языка программирования
Книга не ориентирована на какой-либо конкретный язык программирования,
но в ней используется некоторая обобщенная система обозначений для записи
алгоритмов. Выбирать определенный язык не было необходимо. Конкретный
язык для многих читателей мог бы оказаться не самым подходящим. Студенты,
знакомые с программированием, при реализации алгоритмов не должны встретить значительных проблем, что и продемонстрировали наши собственные
студенты. Примеры реализации в конечном счете будут представлены через
Интернет. Это будет сделано, когда примеры реализации будут доступными и
подходящими, во-первых, чтобы студенты могли быстро экспериментировать
с ними, и, во-вторых, чтобы они могли изучать примеры исходных текстов
программ. Для преподавателей и студентов доступны ряд инструментальных
средств и библиотек; например, Khoros, NIH-Image, XView, gimp, MATLAB,
и т. д. Существуют также программные пакеты, которые можно приобрести
у компаний-производителей аппаратного обеспечения для систем машинного
зрения. Авторы решили не ориентировать материалы книги на какое-либо
определенное программное обеспечение по двум причинам. Во-первых, большинство читателей использовали бы какие-то другие пакеты. Во-вторых,
восприятие книги было бы затруднено, если бы сущность операций по обработке изображений была скрыта за рассмотрением сложного каркаса структур
данных и методов, необходимых в промышленных прикладных системах. Читатель, сначала изучивший принципы в простой программной среде, будет лучше
подготовлен к успешному выбору и использованию промышленных систем.
Варианты работы с книгой
Материал книги может быть различными способами отобран и при необходимости переупорядочен, применительно к целям конкретного учебного курса и
с учетом интересов преподавателя и студентов.
• Глава 3 и краткий обзор гл. 2. Минимальным вариантом использования
книги могло бы быть добавление 1–3 лекций в курс по структурам данных