|
|
Обзор подготовлен
При поддержке
В настоящее время видеонаблюдение (ВН) является технологией, напрямую связанной с жизнью и безопасностью людей, поэтому недооценить ее значение невозможно. Развитие этого сравнительно молодого направления вбирает в себя все последние достижения науки и техники. С каждым годом видеоаналитика, видимо, будет более активно использовать интеллектуальные методы обработки информации.
Все более интенсивно высокие технологии интегрируются в ВН, все чаще для разработок привлекаются ведущие исследовательские центры. Каким образом это происходит, наглядно видно на примере следующих двух конкретных задач из области технических средств безопасности. Первая из них – автоматическое получение панорамного изображения по информации, зарегистрированной несколькими пространственно удаленными друг от друга камерами с перекрывающимся полем обзора. Вторая задача – обеспечение сверхразрешения (Super Resolution) для изображения некоторого фрагмента сцены.
В настоящее время подобные проблемы являются достаточно актуальными, поэтому для разработки технологий ВН привлекается значительное количество исследовательских и программистских команд. Что же касается компаний–интеграторов, в том числе специализирующихся на информационной безопасности, то они самым внимательным образом изучают перспективы этого сегмента рынка, смежного как с ИБ, так и с BI.
"По прогнозам IMS Research, объем мирового рынка программного обеспечения для анализа видеоконтента в 2009 г. превысит 800 млн долларов, – рассказывает Александр Чижов, директор по развитию бизнеса компании ITV. – Системы, использующие видеоаналитику, выгодны, потому что позволяют решать многие задачи более эффективным способом, нежели традиционные".
Современные реалии предъявляют высочайшие требования к системам безопасности и видеонаблюдения. В частности, для многих крупных объектов, таких как аэропорты, вокзалы, крупные промышленные предприятия, требуется производить мониторинг больших пространств, измеряемых десятками и сотнями гектар.
Покрытие таких пространств множеством камер решает проблему получения изображения всей поверхности, но оставляет открытым вопрос об эффективном представлении имеющейся информации наблюдателю. Человек может качественно воспринять лишь ограниченное количество разнородной информации. Например, один оператор может следить, самое большее, за 6–8 видео. Контролируемые изображения передаются камерами, размещенными на разных точках, и их ракурс, масштаб, цветопередача и другие параметры не совпадают. Разнобой в подаче информации приводит к тому, что сложно, а подчас и невозможно, представить наблюдаемое пространство и происходящие на нем события как единое целое.
Как правило, мониторинг изображений, полученных с большого количества камер, осуществляется несколькими операторами. В этом случае теряется возможность полностью контролировать пространство и, соответственно, разворачивающиеся на нем события. Например, один из наблюдателей видит начало некоторых действий, а другой –окончание. При этом ни начало события, ни его окончание сами по себе, возможно, не вызовут подозрения. Становится очевидной необходимость создать инструмент, который позволит объединить информацию, получаемую с нескольких камер. Такое изображение даст возможность более адекватно оценивать текущую ситуацию.
В настоящее время хорошо известна и эффективно решается задача сшивки панорамного изображения из картинок, которые получают с поворачивающейся вокруг своей оси камеры. Подобная цель, например, запечатлеть пространственно объемный пейзаж или архитектурный ансамбль, существует в любительской фотографии. Несмотря на кажущееся сходство, эта задача отличается от синтеза панорамного обзора в ВН, главным образом, тем, что видеонаблюдение ведется с нескольких точек. То есть на разных изображениях один и тот же предмет может иметь разное положение относительно других предметов в зависимости от глубины его нахождения на сцене. Так, если при съемке с одной точки все предметы будут находиться в одном и том же порядке, например слева направо, то при съемке с различных точек их расположение будет иным.
Типичное решение задачи состоит из двух частей. Во-первых, необходимо оценить геометрию и фундаментальную матрицу совмещения исходных кадров, а также рассчитать параметры проективных преобразований. Другими словами, координаты каждого отдельного изображения переводятся в систему координат изображения, содержащего поле глобального обзора.
Во-вторых, нужно оценить параметры коррекции яркости, самой коррекции яркости и цветопередачи, а также сшивки изображений. На этом этапе необходимо обеспечить плавный переход панорамного обзора в местах сшивки кадров, зарегистрированных различными камерами. Нельзя забывать и о корректном отображении движущихся элементов, которые могут по-разному регистрироваться различными камерами.
Процесс сшивки изображений должен быть организован в режиме реального времени, поэтому необходимо обрабатывать до восьми изображений в разрешении 800 на 600 при темпе регистрации 25 кадров в секунду. Обязательное условие для разрабатываемых процедур – отказоустойчивость и эффективное разрешение нестандартных ситуаций, связанных как с работой системы, так и с ошибками входных данных.
Моделируемое поле глобального обзора представляет интерес и с точки зрения интеллектуального видео. Несложно предсказать, что в будущем разрабатываемые технологии позволят обнаруживать и отслеживать движение, осуществляемое в поле наблюдения нескольких камер. Другими словами, существенно расширят свои возможности детекторы перемещения и трекинга объектов. В настоящее время они работают с изображением, поступающим от одной камеры, и способны автоматически лишь обнаруживать движущиеся объекты и отображать их траекторию. Новые алгоритмы позволят действительно "вести" объекты, перемещающиеся по всей области наблюдения, что даст возможность создавать принципиально новые сценарии обнаружения опасных ситуаций.
Например, появление человека в зоне А с последующим перемещением в зону В может расцениваться как тревожная ситуация. Если же он пришел в зону В из зоны С, ситуация будет восприниматься как штатная. Можно отслеживать и человека, который обходит здание либо перемещается, периодически останавливаясь в одной или нескольких зонах. Распознавать такие ситуации важно, например, для предотвращения планирующихся преступлений или терактов и при расследовании происшествий. В последнем случае будет возможно точно отследить, как перемещался тот или иной человек, где останавливался и как долго там находился.
Решая задачу получения сверхразрешения, то есть детального изображения заданного фрагмента сцены, требуется объединить информацию нескольких кадров, последовательно воспроизводящих одну и ту же сцену. На первый взгляд, подобная постановка задачи фантастична, однако осуществление подобного замысла вполне возможно.
Дело в том, что практически любая камера колеблется с амплитудой, сопоставимой по размерам с расстоянием между элементами фоточувствительной матрицы. Таким образом, каждый последующий кадр является информацией, зарегистрированной в другой точке расположения матрицы фоточувствительных элементов.
Поэтому, зная величину смещения каждого кадра относительно некоторой виртуальной глобальной решетки изображения, можно с помощью численной интерполяции восстановить значения в узлах этой решетки. Таким образом, появляется возможность получения изображение большего разрешения, нежели у светочувствительной матрицы.
Важно, что такая картинка будет нести о сцене реальную информацию, зарегистрированную между узлами дискретной решетки оригинального изображения. В этом заключается принципиальное отличие описанной технологии от так называемого цифрового зума, который лишь размазывает исходное изображение по полю большей площади, не внося дополнительной информации.
Актуальность и востребованность разрабатываемой технологии в задачах видеонаблюдения очевидна. Более высокое разрешение позволит оператору оценивать структуру, а также потенциальную опасность оставленных предметов, что является одним из важнейших элементов защиты от возможных террористических атак. А автоматическое повышение разрешения и улучшение качества фрагментов видеоизображений, содержащих человеческие лица или автомобильные номера, может быть использовано для автоматического распознавания лиц и автомобильных номеров.
Одной из важных современных тенденций в области обработки информации вообще, и в области видеонаблюдения в частности, является стремление к объединению информации различной природы для получения некоторых новых данных об интересующем явлении или событии. В этом проявляется принцип синергии, когда объединенное действие двух или более факторов существенно превосходит эффект как каждого отдельно взятого компонента, так и суммы этих компонентов.
Можно с уверенностью предсказать, что с каждым годом видеоаналитика будет все более активно использовать интеллектуальные методы обработки информации. Возможно, она выступит катализатором разработки интеллектуальных систем обработки информации, базирующихся на принципах синергетического синтеза и объединения информации, имеющей самую различную природу и источники происхождения.
"Разработки в области видеоаналитики, в частности, технологии получения сверхразрешения и сшивки панорамного изображения являются логическим шагом к созданию действительно интеллектуальных систем видеонаблюдения. Алгоритмы работы таких систем можно будет настроить в соответствии со спецификой охраняемых объектов, обеспечив более высокий уровень безопасности в целом. Мы также придаем большое значение обработке видеоизображения непосредственно внутри камер. Она приобретает все большую популярность, ведь реализованные в самих камерах функции видеоаналитики позволяют снизить нагрузку как на видеосерверы, так и на каналы передачи данных", – считает Вадим Макаров, менеджер по маркетингу компании JVC.
Алексей Шилкин