ОБЛАСТИ ПРИМЕНЕНИЯ
И ИНСТРУМЕНТАРИЙ
1.1. Инструмент в науке и технологии
С момента зарождения науки визуальное наблюдение играет главную роль. В то
время документально зафиксировать результаты эксперимента можно было лишь
с помощью устного описания и рисунков, сделанных вручную. Следующим важным шагом стало изобретение фотографии, которое позволило документировать
результаты объективно. Тремя хорошо известными примерами научного применения фотографии являются астрономия, фотограмметрия и физика частиц. Аст!
рономы получили возможность измерять положения и размеры звезд, а фотограмметристы создавать топографические карты по изображениям, полученным с воздуха.
Исследование бесчисленного количества изображений, полученных в водородных
пузырьковых камерах, привело к открытию многих элементарных частиц в физике, но проводимые вручную процедуры оценки требовали больших затрат времени. Были разработаны некоторые полу! или даже полностью автоматизированные
оптомеханические устройства, однако они были предназначены для конкретных
задач. По этой причине количественная оценка изображений не получила широкого применения. Как правило, изображения использовались только для документирования, качественного описания и иллюстрации наблюдаемых явлений.
Сегодня мы находимся на рубеже научной революции, возникшей благодаря
быстрому прогрессу в видео! и компьютерной технологиях. Персональные компьютеры и рабочие станции стали достаточно мощными для обработки данных в виде
изображений. В результате мультимедийные аппаратные средства и программное
обеспечение успешно используются для обработки изображений, последовательностей изображений и даже 3!D визуализации. Эта технология сейчас доступна
любому ученому или инженеру. И как следствие обработка изображений развилась и продолжает дальше быстро развиваться из нескольких специализированных методик в стандартный научный инструмент. Стандартные методы обработки
изображений теперь применяются практически во всех естественных науках и технических дисциплинах.
Простой пример очевидно демонстрирует значение визуальной информации.
Представьте, что вы получили задание написать статью о новой технической системе, к примеру, о новом типе солнечной электростанции. Описание этой системы могло бы потребовать гигантских усилий, если бы вы не имели возможно!
сти включить изображения и технические чертежи. Читатель же вашей
неиллюстрированной статьи испытал бы чувство досады. Он или она потратили
бы много времени, пытаясь понять, как новая солнечная электростанция работает, и, в конце концов, пришли бы только к бледному представлению о том, как
она выглядит.
то
время документально зафиксировать результаты эксперимента можно было лишь
с помощью устного описания и рисунков, сделанных вручную. Следующим важным шагом стало изобретение фотографии, которое позволило документировать
результаты объективно. Тремя хорошо известными примерами научного применения фотографии являются астрономия, фотограмметрия и физика частиц. Астрономы получили возможность измерять положения и размеры звезд, а фотограм!
метристы создавать топографические карты по изображениям, полученным с воздуха.
Исследование бесчисленного количества изображений, полученных в водородных
пузырьковых камерах, привело к открытию многих элементарных частиц в физике, но проводимые вручную процедуры оценки требовали больших затрат времени. Были разработаны некоторые полу! или даже полностью автоматизированные
оптомеханические устройства, однако они были предназначены для конкретных
задач. По этой причине количественная оценка изображений не получила широкого применения. Как правило, изображения использовались только для документирования, качественного описания и иллюстрации наблюдаемых явлений.
Сегодня мы находимся на рубеже научной революции, возникшей благодаря
быстрому прогрессу в видео! и компьютерной технологиях. Персональные компьютеры и рабочие станции стали достаточно мощными для обработки данных в виде
изображений. В результате мультимедийные аппаратные средства и программное
обеспечение успешно используются для обработки изображений, последовательностей изображений и даже 3!D визуализации. Эта технология сейчас доступна
любому ученому или инженеру. И как следствие обработка изображений развилась и продолжает дальше быстро развиваться из нескольких специализированных методик в стандартный научный инструмент. Стандартные методы обработки
изображений теперь применяются практически во всех естественных науках и технических дисциплинах.
Простой пример очевидно демонстрирует значение визуальной информации.
Представьте, что вы получили задание написать статью о новой технической системе, к примеру, о новом типе солнечной электростанции. Описание этой системы могло бы потребовать гигантских усилий, если бы вы не имели возможности включить изображения и технические чертежи. Читатель же вашей
неиллюстрированной статьи испытал бы чувство досады. Он или она потратили
бы много времени, пытаясь понять, как новая солнечная электростанция работает, и, в конце концов, пришли бы только к бледному представлению о том, как
она выглядит.
ЧАСТЬ1
ОСНОВЫ
16 Глава 1. Области применения и инструментарий
Технические чертежи и фотографии солнечной электростанции могли бы послужить неоценимой помощью для читателей вашей статьи. Они могли бы немедленно
представить эту станцию и смогли бы изучить на изображениях детали, которые не
были описаны в тексте, но которые привлекли бы их внимание. Картинки дают гораздо больше информации – факт, который может быть точно описан следующим выражением: «картинка лучше тысячи слов» («a picture is worth a thousand words»).
Еще одно наблюдение представляет интерес. Если бы читатель позднее услышал о новой солнечной электростанции, он или она смогли бы легко вспомнить,
как она выглядит, причем объект «солнечная электростанция» сразу же был бы
связан с изображением.
1.2. Примеры применения
В этом разделе рассматриваются примеры научного и технического применения
цифровой обработки изображений. Примеры иллюстрируют, что обработка изображений позволяет исследовать сложные явления, которые не могли бы адекватно
оцениваться с помощью стандартных методов измерения.
1.2.1. Подсчет и измерение
Классической задачей цифровой обработки изображений является подсчет частиц и измерение их распределения по размерам. На рис. 1.1 показаны три примера с очень раз!
ными частицами: появляющиеся под водой при разрушении волн пузырьки газа, мыльные пузырьки и пигментные частицы. Первой проблемой, возникающей в такого рода
задачах, является подбор соответствующей установки для освещения и формирования
изображений. Изображения пузырьков на рис.1.1, а получены с помощью системы телецентрического освещения и формирования изображений. В этой установке главные
лучи направлены параллельно оптической оси. Следовательно, размер изображаемых
пузырьков не зависит от расстояния до них. Выборочный объем для измерений концентраций определяется путем оценивания степени размытости в пузырьках.
Гораздо труднее измерить форму мыльных пузырьков, изображенных на
рис. 1.1, б, поскольку они прозрачны. Следовательно, пузырьки, расположенные
более глубоко, накладываются на изображения пузырьков на переднем слое. Кроме того, пузырьки имеют отклонения от круглой формы, так что необходимо определить подходящие параметры для описания их формы.
Еще один пример – измерение распределения по размерам цветных пигмент!
ных частиц. Это распределение оказывает значительное влияние на качество и свойства краски. Таким образом, измерение распределения является важной задачей кон!
троля качества. Изображение на рис. 1.1, в, полученное с помощью трансмиссионного
электронного микроскопа, иллюстрирует проблему, связанную с этой задачей обработки изображений. Частицы имеют тенденцию собираться в группы. Следовательно, необходимо распознать эти группы и, если возможно, разделить их, для
того чтобы не вызвать отклонений в определении распределения по размерам.
Почти каждый продукт, который мы используем сегодня, проверен на нали!
чие дефектов с помощью автоматической системы визуального контроля. Один из
классов задач включает проверку правильности размеров и положений. Некоторые примеры таких изображений приведены на рис. 1.2. Здесь проверяются положение, диаметр и округлость отверстий. Рис. 1.2, в показывает, что освещение меаллических деталей является непростой задачей. Контур отверстия слева являет!
ся частично светлым, и, таким образом, задача правильного определения и измерения отверстий становится более сложной.
Рис. 1.1. Измерение частиц методами формирования изображений. а – появляющиеся под водой при разрушении волн пузырьки сняты с использованием системы телецентрического освещения и формирования изображений (Гайслер (Gei8ler) и Яне
(Jаhne) [57]); б – мыльные пузырьки; в – электронная микроскопия цветных пигментных частиц (иллюстрации предоставлены доктором Клее (Dr. Klee), Хёхст
(Hoechst AG), Франкфурт)
а
б в
Рис. 1.2. Промышленные детали, которые проверяются с помощью системы визуального контроля на правильность положения и диаметра отверстий. Иллюстрации
предоставлены Мартином фон Броке (Martin von Brocke), Робертом Бошем (Robert
Bosch), (GmbH).
а б в
1.2. Примеры применения
18 Глава 1. Области применения и инструментарий
1.2.2. Исследование 3(D пространства
В изображениях 3!D сцены проектируются на 2!D плоскость изображения. Таким
образом, глубинная информация теряется, и для восстановления топографии поверхностей или объемных изображений требуются специальные методы формирования изображений. В последние годы было разработано большое количество
разнообразных методов формирования дальностных и объемных изображений.
Поэтому методы обработки изображений также применяются к картам глубин и
объемным изображениям.
На рис. 1.3 показан процесс реконструкции пресс!формы для микроструктур,
изображения которой были получены с помощью специального типа конфокального микроскопа [178]. Форма изготовлена из полиметилметакрилата (ПMMA),
полупрозрачного пластмассового материала с гладкой поверхностью, так что она
является почти невидимой в стандартной микроскопии. Форма имеет узкие, глубиной в 500 мкм прямоугольные отверстия.
Рис. 1.3. Фокусная последовательность пресс!формы из полиметилметакрилата
(ПMMA) с узкими прямоугольными отверстиями, полученная с помощью конфокального метода, использующего статистически распределенные диаграммы ин!
тенсивностей. Изображения сфокусированы на следующих глубинах, измеряемых
от дна отверстий: а – 16 мкм; б – 480 мкм; в – 620 мкм (поверхность формы); г –
3!D реконструкция (иллюстрации предоставлены Шоерманном и др. (Scheuermann
et al.) [178])
а б
в г
19
Для того чтобы сделать прозрачный материал видимым, статически распределенная диаграмма проецируется через оптику микроскопа на фокальную плоскость.
Эта диаграмма проявляется четкой только на частях, которые лежат в фокальной
плоскости. Диаграмма становится более расплывчатой с увеличением расстояния
от фокальной плоскости. В фокусной последовательности, показанной на рис. 1.3,
можно видеть, что сначала диаграммы материала на дне отверстий становятся четкими (рис. 1.3, а), а после того, как мы отодвигаем объект от оптики, последнее
изображение фокусируется на поверхности формы (рис. 1.3, в). Глубину поверхности можно реконструировать с помощью поиска максимальной контрастности
для каждого пикселя в фокусной последовательности (рис. 1.3, г).
На рис. 1.4 показана карта глубин листа растения, изображение которого было
получено с помощью другого современного оптического метода – 3!D измерения,
известного как интерферометрия белого света или когерентная радиолокация. Этот
метод является интерферометрическим методом, который использует свет с длиной когерентности всего лишь в несколько длин волн.
Таким образом, интерференционные картины возникают только при очень коротких разностях хода в интерферометре. Этот эффект может использоваться для
измерения расстояний с точностью порядка длины волны используемого света.
Медицинские исследования являются движущей силой в разработке современных методов получения объемных изображений, которые позволяют заглянуть
внутрь 3!D объектов. На рис. 1.5 показан «скан» головы человека. Тогда как рентгеновские лучи (компьютерная томография, КТ) преимущественно изображают костные структуры, T2!взвешенная магнитнорезонансная томография (МРТ) показывает мягкие ткани, глаза и рубцовые ткани при высокой интенсивности сигнала.
При позитрон эмиссионной томографии (ПЭТ) высокая интенсивность сигнала наблюдается в местах нахождения опухоли, поскольку здесь аккумулируется управляемое позитронное излучение.
1.2.3. Исследование динамических процессов
Исследование динамических процессов становится возможным с помощью анализа последовательностей изображений. Гигантские возможности этого метода проиллюстрированы несколькими примерами в этом разделе.
В ботанике центральной темой является изучение роста растений и механизмов,
контролирующих процессы роста. На рис. 1.6, а показан лист клещевины (Rizinus
plant leaf), для которого была составлена карта темпа роста (процентное увеличение
площади в единицу времени) с помощью цейтраферной последовательности
Рис. 1.4. Карта глубин листа растения, измеренная с помощью оптической когерентной томографии. Иллюстрации предоставлены Йохеном Рестле (Jochen Restle), Робертом Бошем (Robert Bosch), (GmbH).
1.2. Примеры применения
20 Глава 1. Области применения и инструментарий
изображений, где изображение фиксируется приблизительно каждую минуту. Этот
новый метод для измерений темпа роста является достаточно чувствительным к
измерениям суточного цикла с высоким разрешением по площади.
На рис. 1.6, в приведена последовательность изображений (слева направо) растущего кукурузного корня. Шкала уровней серого цвета на изображении указывает на темп роста, который становится наибольшим ближе к верхушке корня.
В науке изображения часто получаются на пределе технических возможностей. Поэтому они часто искажены высокими уровнями шумов. На рис. 1.7 показаны флуоресцирующие двигательные протеины, которые перемещаются по планшету, покрытому молекулами миозина, в так называемой пробе подвижности. Такая
проба используется для изучения молекулярных механизмов мышечных клеток.
Вопреки высокому уровню шумов, движение нитей является очевидным. Однако
автоматическое определение движения с помощью такой зашумленной последовательности изображений представляет собой трудную задачу, которая требует
сложных методов анализа.
Следующий пример взят из океанографии. Маломасштабные процессы, происходящие вблизи поверхности океана, очень сложны для измерения из-за неровности поверхности, вызванной волнами. Кроме того, точечные измерения не дают
возможности сделать вывод о 2!D структуре волн на поверхности воды. На рис. 1.8
приведено пространственно!временное изображение коротких ветровых волн.
Вертикальная ось обозначает пространственную координату в направлении ветра,
а горизонтальная – время. С помощью специального освещения, соответствую!
щего методике определения формы по полутоновому изображению (раздел 8.5.3), уклон волн вдоль направления ветра становится видимым. В таком пространствен!
но!временном изображении движение видно непосредственно по наклону линий
постоянного уровня серого. Горизонтальная линия отмечает неподвижный объект.
Чем больше угол к горизонтальной оси, тем быстрее объект движется. Последовательность изображений дает непосредственное представление о сложной нелиней!
ной динамике ветровых волн. Быстро движущаяся большая волна изменяет движение рис. 1.5. Горизонтальные «сканы» на уровне глаз через голову человека с опухолью.
«Сканы» получены с помощью рентгеновских лучей (слева), T2!взвешенной магнитнорезонансной томографии (посередине) и позитрон!эмиссионной томографии (справа)
(иллюстрации предоставлены Михаэлем Боком (Michael Bock), DKFZ, Гейдельберг)
21
жение более коротких волн. Иногда короткие волны движутся с той же скоростью
(связанные волны), но в большинстве случаев они значительно медленнее, с большими изменениями в фазовой скорости и амплитуде.
Последний пример последовательностей изображений находится в гораздо
большем пространственно!временном масштабе. На рис. 1.9 показан годовой цикл
тропосферной столбиковой плотности NO2. NO2 является одним из самых важных
Рис. 1.6. Исследования процесса роста в ботанике: а – лист клещевины; б – карта темпов роста; в – рост корней кукурузы (иллюстрации предоставлены Ули Шуром (Uli
Schurr) и Стефаном Терюнгом (Stefan Terjung), Институт ботаники, Университет Гейдельберга)
а б
в
Рис. 1.7. Проба подвижности для анализа движения двигательных протеинов (иллюстрации предоставлены Дитмаром Уттенвайлером (Dietmar Uttenweiler), Институт
физиологии, Университет Гейдельберга)
1.2. Примеры применения
22 Глава 1. Области применения и инструментарий
следовых газов в химии атмосферного озона. Главными источниками тропосферного газа NO2 являются промышленность и транспорт, лесные пожары и пожары
небольших зарослей (горение биомассы), микробиологические выделения почвы
и освещение. Формирование изображений с помощью искусственных спутников
Земли предусматривает в первую очередь изучение распределения NO2 по районам, определение источников и их годовых циклов.
Данные были вычислены по спектроскопическим изображениям, полученным со
спутника ERS2 прибором GOME. В каждом пикселе изображений был взят полный
спектр с 4000 каналами в ультрафиолетовом диапазоне и диапазоне видимости. Полную атмосферную столбиковую плотность концентрации NO2 можно определить по
характеристическому спектру поглощения, на который, однако, накладываются
спектры поглощения других следовых газов. Следовательно, требуется сложный нелинейный регрессионный анализ. Кроме того, должна вычитаться стратосферная
столбиковая плотность соответствующими алгоритмами обработки изображений.
Результирующие карты тропосферных столбиковых плотностей NO2 на рис. 1.9
показывают большое количество интересных деталей. Большинство выделений отноРис. 1.8. Пространственно!временное изображение коротких ветровых волн при скоости ветра: а – 2,5 м/с; б – 7,5 м/с. Вертикальная ось обозначает пространственную
координату в направлении ветра, горизонтальная координата — время
а
б
23
Рис. 1.9. Карты тропосферных столбиковых плотностей NO2, показывающие четыре
средних значения по трем месяцам 1999 г. (иллюстрации предоставлены Марком Венихом (Mark Wenig), Институт физики окружающей среды, Университет Гейдельберга)
1.2. Примеры применения
24 Глава 1. Области применения и инструментарий
сится к промышленно развитым странам. Они показывают полный годовой цикл в
Северном полушарии с максимальным значением в зимний период.
1.2.4. Классификация
Еще одной важной задачей является классификация объектов, наблюдаемых на
изображениях. Классическим примером классификации является распознавание
символов (оптическое распознавание символов, или ОРС). На рис. 1.10, а показано
типичное промышленное применение ОРС – распознавание метки на интегральной схеме. Классификация объектов включает также распознавание различных
возможных расположений объектов для правильной обработки роботом. На
рис. 1.10, б соединители размещены произвольным образом на ленте конвейера.
Для правильного подбора и обработки необходимо также определить, передняя
или задняя сторона соединителя видна.
Классификация дефектов является еще одним важным применением. На
рис. 1.11 показаны некоторые типичные ошибки, обнаруживаемые при проверке
интегральных схем: неправильно отцентрированный накладной резистор
(рис. 1.11, а) и нарушенные или пропущенные соединения контактов (рис. 1.11, б – е).
Применение классификации не ограничивается промышленными задачами.
На рис. 1.12 приведены некоторые наиболее удаленные галактики, когда!либо за!
печатленные телескопом Хаббла. Галактики должны разделяться на различные
классы соответственно их форме и цвету и должны отделяться от других объектов,
например звезд.
1.3. Иерархическая структура операций обработки изображений
Обработка изображений не является одношаговым процессом. Мы можем обозначить несколько шагов, которые должны выполниться один за другим до тех пор,
пока мы не сможем выделить интересующие нас данные из наблюдаемой сцены.
Таким способом формируется схема иерархической обработки, представленная на
Рис. 1.10. Задачи промышленного контроля: а – оптическое распознавание символов; б – соединители. Иллюстрации предоставлены Мартином фон Броке (Martin
von Bocker), Робертом Бошем (Robert Bosch), (GmbH)
а б
25
Рис. 1.11. Ошибки в припаивании и соединении интегральных схем. Иллюстрации
предоставлены Флорианом Рейшем (Florian Raisch), Робертом Боше (RobertBosch),
(GmbH)
а б в
г д е
Рис. 1.12. Изображение дальнего космоса, полученное телескопом Хаббла: классикация удаленных галактик (http://hubblesite.org/)
рис. 1.13. Рисунок дает общее представление различных стадий обработки изобра!ений вместе с кратким описанием этой книги.
Обработка изображений начинается с получения изображения с помощью под!
ходящей, не обязательно оптической, системы формирования. В техническом или
научном применении мы можем выбрать соответствующую систему формирования изображений. Кроме того, мы можем установить систему освещения, выбрать
наилучший диапазон длин волн и задать другие опции для фиксирования Иерархическая структура операций обработки изображений
26 Глава 1. Области применения и инструментарий
Рис. 1.13. Иерархическая структура задач цифровой обработки изображений от формирования изображений до понимания изображений. Номера рядом с прямоугольниками указывают на соответствующую главу этой книги
27
сующего нас признака объекта наилучшим образом на изображении (глава 6).
Формирование 2!D и 3!D изображений рассматриваются в главах 7 и 8. Раз изображение получено, оно должно быть преобразовано в форму, которую можно обрабатывать с помощью цифровых компьютеров. Этот процесс называется преобразованием в цифровую форму и рассматривается в главе 9.
Первые этапы цифровой обработки, известные как предварительная обработ
ка изображений, могут включать несколько различных операций. Если датчик имеет
нелинейные характеристики, то их необходимо скорректировать. Подобным образом яркость и контрастность изображения могут потребовать улучшения. Как
правило, также необходимы координатные преобразования для восстановления
геометрических искажений, внесенных при формировании изображения. Радиометрические и геометрические корректировки являются элементарными опера!ми пиксельной обработки, которые обсуждаются в главе 10.
Вся цепочка этапов обработки необходима для анализа и распознавания объек!
тов. Сначала должны применяться надлежащие процедуры фильтрации, для того
чтобы отличить интересующие нас объекты от всех других и от фона. По существу,
из изображения (или нескольких изображений) выделяются одно или больше
изображений признаков. Основными инструментами для этой задачи являются усреднение (глава 11), выделение контуров (глава 12), анализ простых окрестностей
(глава 13) и сложных структур, известных в обработке изображений как текстура.
Важным признаком объекта также является его движение. Методы для выделения
и определения движения рассматриваются в главе 14.
Затем объект должен быть отделен от фона. Это означает, что должны распознаваться области постоянных признаков и неоднородностей с помощью сегмен
тации (глава 16). Эта задача может быть простой в случае, если объект хорошо отделяется от фона по некоторым локальным признакам. Такое, однако, возможно
не часто. Тогда требуются более сложные методы сегментации. Эти методы используют различные оптимизационные стратегии для минимизации отклонения
между данными изображения и заданной функцией модели, объединяющей сведения об объектах на изображении.
Подобный математический подход можно использовать и для других задач обработки изображений. Известные возмущения в изображении, к примеру обусловленные
расфокусировкой оптики, размытостью изображения, вызванной движением объекта,
погрешностями в датчике или погрешностями при передаче сигналов изображений,
могут корректироваться (восстановление изображений). С помощью непрямых методов
формирования изображений, таких, как томография, которые не дают прямого изоб!
ражения, можно реконструировать изображения (реконструкция изображений).
Зная геометрическую форму объекта, мы можем использовать морфологические операторы для ее анализа и модификации (глава 18) или выделить дополнительную информацию, такую, как средний уровень яркости, площадь, периметр и
другие параметры формы объекта (глава 19). Эти параметры можно использовать
при классификации объектов (классификация, глава 20). Распознавание символов
в напечатанном и написанном от руки тексте является примером такой задачи.
Несмотря на то что разделение сложной задачи, такой, как обработка изображений, на последовательность простых подзадач кажется логичным, неочевидно,
что такая стратегия работает вообще. Почему? Давайте рассмотрим простой пример. Мы хотим обнаружить объект, который только незначительно отличается по
1.3. Иерархическая структура операций обработки изображений
28 Глава 1. Области применения и инструментарий
уровню яркости от фона в зашумленном изображении. В этом случае мы не можем
ограничиться рассмотрением уровня яркости, чтобы отделить объект от фона.
Усреднение соседних точек изображения может уменьшить уровень шума. На
контуре объекта, однако, точки фона и объекта усредняются, приводя к неправильным средним значениям. Если бы мы знали, где находится контур, то могли
бы прекратить усреднение на контуре. Но мы можем определить контур сразу после усреднения, поскольку только тогда уровни яркости объекта существенно отличаются от фона.
Мы можем надеяться избежать этого замкнутого круга с помощью итерационного подхода. Просто применяем усреднение и сразу же проводим первую оценку
контуров объекта. Затем берем эту оценку для уточнения усреднения на контурах,
пересчитываем контуры и так далее. Однако открытым остается вопрос, сходится
ли эта итерация вообще, и если да, то является ли предел правильным.
В любом случае рассмотренный пример говорит о том, что более сложные задачи обработки изображений требуют обратной связи. Последующие этапы обработки возвращают параметры к предыдущим этапам. Тогда обработка не является
линейной вдоль цепочки, но может итерационно возвращаться к началу несколько раз. На рис. 1.13 показаны некоторые возможные обратные связи. Обратная
связь может включать в себя обработку дополнительной информации, получен!
ной не из изображений.
Если задача обработки изображений не может быть решена с помощью данного изображения, мы можем принять решение изменить освещение, приблизиться
к интересующему нас объекту или рассматривать его под более подходящим углом. Такой тип подхода известен как активное зрение. В рамках интеллектуальной
системы, исследующей окружающую ее среду с помощью своих органов чувств,
мы можем также говорить о цикле действие восприятие.
1.4. Обработка изображений и компьютерная графика
С некоторого времени обработка изображений и компьютерная графика рассматриваются как две разные области. Знания в обеих областях значительно расшири!
лись, и теперь могут рассматриваться более сложные задачи. Компьютерная графика стремится достичь фотореалистических, полученных посредством компьютера
изображений трехмерных сцен, в то время как обработка изображений пытается
реконструировать трехмерную сцену из изображения, фактически полученного с
помощью камеры. В этом смысле обработка изображений выполняет операцию,
обратную операции компьютерной графики. В компьютерной графике мы начинаем со сведений о форме и признаках объекта – нижняя часть рис. 1.13 – и продолжаем работу вверх до тех пор, пока не получим двумерное изображение. Для того
чтобы владеть обработкой изображений или компьютерной графикой, мы, по существу, должны исходить из одних и тех же знаний. Нам необходимо знать взаимодействие освещения и объектов, как трехмерная сцена проектируется на плоскость
изображения, и т.д.
Тем не менее существует все еще немало различий между рабочей станцией
для обработки изображений и графической рабочей станцией. Однако мы можем
предположить, что, когда сходства и взаимосвязи между компьютерной графикой
и обработкой изображений будут лучше поняты и надлежащие технические сред
ства будут разработаны, мы увидим в будущем некоторый вид рабочей станции
общего назначения, которая сможет выполнять задачи компьютерной графики,
так же как задачи обработки изображений. Появление мультимедиа, т.е. объеди!
нение текста, изображений, звука и фильмов, в дальнейшем ускорит объединение
компьютерной графики и обработки изображений. Термин «вычисления с исполь
зованием графики» был введен в этом контексте [66].
1.5. Междисциплинарная природа обработки изображений
По своей природе наука обработки изображений является междисциплинарной в
некоторых аспектах. Во!первых, обработка изображений объединяет понятия из
различных наук. Прежде чем мы сможем обработать изображение, необходимо
знать, как цифровой сигнал связан с признаками изображаемых объектов. Сюда
включены различные физические процессы – от взаимодействия излучения с вееством до геометрии и радиометрии формирования изображений. Формирую!
щий изображения датчик преобразует энергетическую освещенность падающего
излучения тем или иным образом в электрический сигнал. Затем этот сигнал преобразуется в дискретные числа и обрабатывается цифровым компьютером для выделения значимых данных. В эту последовательность процессов (см. также рис.
1.13) вовлечены многие области из физики, компьютерной науки и математики,
включая среди других оптику, физику твердого тела, разработку микросхем, архитектуру компьютера, алгебру, анализ, статистику, теорию алгоритмов, теорию графов, теорию систем и численную математику. С инженерной точки зрения используются разработки теоретической и стекловолоконной оптики, электротехники и
проектирования программного обеспечения.
Обработка изображений частично пересекается с другими дисциплинами. Задачи обработки изображений могут отчасти рассматриваться как задачи измерения,
которые являются частью науки метрологии. Задачи распознавания образов включены в обработку изображений так же, как и в обработку речевой информации. Другими
дисциплинами, которые также связаны с обработкой изображений, являются исследования нейронных сетей, искусственного интеллекта и зрительного восприятия.
Общим для этих областей является их сильная связь с биологическими науками.
Когда мы говорим о компьютерном зрении, мы имеем в виду компьютерную
систему, которая выполняет такую же задачу, что и биологическая зрительная система, для «определения по изображениям, что присутствует в мире и где это находится»
(«discover from images what is present in the world, and where it is») [132]. Противоположно, термин машинное зрение используется для системы, которая выполняет зритель!
ную задачу, такую, как проверка размеров и комплектности деталей в условиях производства. В течение многих лет система технического зрения рассматривалась
только как пассивный наблюдатель. Как и в случае с биологическими зрительными системами, система компьютерного зрения может также активно исследовать
окружающую ее среду при помощи, например, перемещения и регулирования угла
наблюдения. Мы называем это активным зрением.
Существует большое число специальных дисциплин, которые вследствие исторических причин развивались отчасти независимо от основного течения в прошлом.
Одной из наиболее известных дисциплин является фотограмметрия (измерения по
фотографиям; основные применения: создание карт и обследование местности).
1.5. Междисциплинарная природа обработки изображений
30 Глава 1. Области применения и инструментарий
Другими областями являются дистанционное зондирование, использующее изображения, полученные с воздуха и из космоса, астрономия и рентгенография.
Еще одним важным аспектом междисциплинарной природы обработки изоб!
ражений является широкий спектр приложений. Практически не существует об!ласти в естественных науках или технических дисциплинах, где бы не применя!
лась обработка изображений. Как мы увидели из примеров в разделе 1.2, она
получила большое значение в нескольких областях применения. Сильные связи с
таким большим количеством смежных наук дают плодородную почву для ее дальнейшего быстрого развития вследствие постоянного притока методов и идей из
непрерывно увеличивающейся совокупности областей применения.
Последнее предостерегающее замечание: возможности междисциплинарного
подхода не являются лишь приятным приобретением. Это необходимость. Недостаток знаний либо в области применения, либо в методологии обработки изображений неизбежно ведет по меньшей мере к субоптимальным решениям и иногда
даже к полному провалу.
1.6. Зрение человека и компьютерное зрение
Мы не можем рассуждать об обработке изображений без рассмотрения зрительной си
стемы человека. Это кажется тривиальным утверждением, однако оно имеет далеко
идущие последствия. Мы наблюдаем и оцениваем изображения, обрабатываемые нашей зрительной системой. Без принятия во внимание этого элементарного факта мы
можем быть введены в сильное заблуждение при интерпретации изображений.
Первые простые вопросы, которые нам следует задать:
• Какие различия в интенсивности мы можем распознавать?
• Какое пространственное разрешение имеет наш глаз?
• Насколько точно мы можем оценивать и сравнивать расстояния и площади?
• Как мы воспринимаем цвета?
• По каким признакам мы можем обнаруживать и различать объекты?
Очевидно, что более глубокие знания могли быть очень полезны для компьютерного зрения. Мы не будем приводить здесь общий обзор зрительной системы человека. Целью является скорее познакомиться с элементарными соотношениями между
человеческим и компьютерным зрением. Мы обсудим свойства зрительной системы
человека в соответствующих главах. Здесь мы сделаем только несколько вводных замечаний. Детальное сравнение человеческого и компьютерного зрения можно найти
в работе Левине (Levine) [121]. Превосходным современным исследованием человеческого зрения является монография Ванделла (Wandell) [210].
Читатель может провести несколько экспериментов самостоятельно. На
рис. 1.14 приведены тестовые изображения для оценки расстояния и площади. У
нас не возникнет проблем в видении даже маленьких изменений в длине параллельных линий на рис. 1.14, а. Сходное сравнение площадей на примере окружностей является значительно более сложным (рис. 1.14, б). Другие примеры показывают, как влияет на оценку контекст изображения. Такие явления известны как
оптические иллюзии. Два примера оценок длины показаны на рис. 1.14, в, г. Эти
примеры показывают, что зрительная система человека воспринимает контекст
через свою оценку длины. Следовательно, мы должны быть очень внимательны в
своих визуальных оценках длин и площадей на изображениях.
31
Вторым вопросом является распознавание объектов в изображениях. Хотя
рис. 1.15 содержит только несколько линий и является плоским изображением, не
содержащим какой!либо непосредственной информации о глубине, мы сразу же
распознаем куб на правом и левом изображениях и его ориентацию в пространстве. Единственными ключевыми моментами, по которым мы можем прийти к
этому заключению, являются скрытые линии и наши знания о форме куба. Изображение посередине, на котором также показаны скрытые линии, двойственно.
Немного потренировавшись, мы можем переключаться между двумя возможны!
ми ориентациями в пространстве.
Рис. 1.16 иллюстрирует поразительную особенность зрительной системы человека. С легкостью мы видим четкие границы между разными текстурами на
рис. 1.16, а и сразу же распознаем цифру 5. На рис. 1.16, б мы распознаем белый
равносторонний треугольник, несмотря на то что части ограничивающих линий
отсутствуют.
По этим нескольким наблюдениям мы можем прийти к заключению, что зрительная система человека является чрезвычайно мощной в распознавании объек!
тов, но менее подходящей для правильного измерения уровней яркости, расстояний и площадей.
Рис. 1.14. Тестовые изображения для оценивания расстояний и площадей: а – параллельные линии с разницей в длине до 5%; б – окружности с разницей в радиусе до 10%;
в – вертикальная линия кажется длиннее, хотя она имеет ту же длину, что и горизон
тальная линия; г – обман из!за перспективы: верхняя линия (на заднем плане) кажется
длиннее, чем нижняя линия (на переднем плане), хотя обе имеют одинаковую длину
а б
в г
Рис. 1.15. Распознавание трехмерных объектов: три различных представления куба
с одинаковыми ребрами на плоскости изображения
1.6. Зрение человека и компьютерное зрение
32 Глава 1. Области применения и инструментарий
По сравнению с потенциалом систем компьютерного зрения наши возможно
сти выглядят весьма скромно. Система цифровой обработки изображений может
выполнять элементарные или четко определенные фиксированные задачи обработки изображений, такие, как производимый в реальном времени контроль качества в
промышленном производстве. Система компьютерного зрения также преуспела в
управлении машиной на высокой скорости на шоссе, даже с изменяющимися рядами движения. Однако мы все еще очень далеки от универсальной системы цифровой обработки изображений, которая способна «понимать» изображения на уровне
человека и реагировать разумно и гибко в реальном времени.
Стоит отметить еще одну связь между человеческим и компьютерным зрением. Важные разработки в компьютерном зрении были сделаны в процессе разви!
тия понимания зрительной системы человека. Мы встретимся с несколькими примерами в этой книге: с пирамидой как эффективной структурой данных для
обработки изображений (глава 5), понятием локальной ориентации (глава 13) и
определением движения фильтрующими методами (глава 14).
1.7. Компоненты системы обработки изображений
Этот раздел кратко описывает возможности современных систем обработки изображений. Система получения и обработки изображений общего назначения, как
правило, состоит из четырех неотъемлемых компонентов:
1. Системы получения изображений. В простейшем случае это может быть ПЗСкамера, планшетный сканер или видеомагнитофон.
2. Устройство, известное как фрейм-граббер, для преобразования электрического сигнала (обычно аналогового видеосигнала) системы получения изображений в цифровой формат с возможностью последующего сохранения.
3. Персональный компьютер или рабочая станция, обеспечивающие процессы
обработки данных.
4. Программное обеспечение для обработки и анализа изображений.