Кто есть кто в робототехнике. Выпуск I. Компоненты и решения для создания роботов и робототехнических систем - страница 5



VAE (Video Analysis Engine) обеспечивает автоматическое построение StoryBoard (последовательности кадров, наиболее адекватно отражающих суть видеофрагмента) для вводимой видеоинформации, выделяя набор характерных (по тому или иному критерию) кадров.

APRP (Adaptive Pattern Recognition Process), технология адаптивного распознавания образов, производит так называемый «нечёткий поиск», при котором для поиска изображения не требуется ни словесного описания, ни ключевых слов, ни других специальных приёмов. В данной технологии под нечётким поиском понимается операция нахождения объекта по его достаточно близкому образу (например, по фотографии человека, на лице которого время оставило свои следы). Любого рода данные технология обрабатывает одинаково – в виде нулей и единиц, поэтому она равным образом применяется для индексации и нечёткого поиска как текстов (библиотека TRS), так и звукозаписей (библиотека SRS) и видеозаписей (библиотека VRS). Это обстоятельство позволяет воспользоваться для понимания алгоритмов технологии примером из области обработки текстов. Поскольку APRP работает не с ключевыми словами, а с образами, две-три изменённые (или ошибочные) буквы в слове или фразе не могут существенно изменить базовую картину текста. Таким образом, автоматически становится допустимой ошибка как во входных данных, так и в терминах запроса. Например, если мы напишем в запросе: «ЦЦЦТЕР МАРГМАСАРИТАЭЭЭЭЭЭ», имея в виду название романа Булгакова, то получим правильный ответ – «Мастер и Маргарита».

Поиск происходит так:

• запрос конвертируется в бинарную форму;

• игнорируется шум (т. е. отбрасываются «ЦЦЦ» и «ЭЭЭЭЭЭ»);

• проводится нечёткий поиск, представляющий собой комплекс операций сравнения комбинаций нулей и единиц, по результатам которых осуществляется выбор наиболее близких вариантов искомого образа. Описанный алгоритм поиска по существенным признакам применяется при сравнении почерков, отпечатков пальцев, голосов и фотографий.

Обеспечиваемая технологией скорость поиска видеоинформации по индексированному массиву объёмом 5 Тбайт составляет 5-15 с при степени достоверности, соответствующей сертификату, выдаваемому подобным системам. Под «индексированным массивом» в данном случае понимается вышеупомянутый набор характерных кадров, 1 Мбайт которых соответствует примерно 6 Мбайтам исходного видеоматериала (но это соотношение ориентировочно и зависит от выбранного порога индексирования). В итоге образуются как бы два массива: проиндексированный (потому и «как бы», что он может быть не один – в зависимости от числа критериев индексации), которым, например, телекомпания оперирует при подготовке новостных и иных программ, и другой, состоящий из оригиналов видеоматериала. Типовая схема работы системы – на рис. 2.1.

Рис. 2.1


Кроме того, технология используется для видеонаблюдения: например, она осуществляет в реальном времени последовательное сканирование (посредством видеокамеры) толпы в местах, где движение людей упорядочено: эскалаторы, турникеты и т. п. Ключами для анализа снимаемого материала служат хранящиеся в базах данных фотографии разыскиваемых людей, объектов, автомобильных номерных знаков и т. д. Достоверность распознавания – вопрос постоянного совершенствования технологии. Представитель фирмы привёл такой пример: на одном из этапов развития технологии проводилось «опознание» футболистов по фотографии их команды. Система опознала 9 из 11 футболистов плюс лежащий перед ними мяч. То есть террорист в принципе мог замаскироваться, неся возле своей головы большой розовый грейпфрут, но и в таком случае среди критериев поиска можно было задать «обнаружение людей с большими грейпфрутами». Позже, уже в России, проводились эксперименты по настройке системы на «похожесть» лиц. На человека надевали шапку, очки, прикрывали лицо шарфом, при этом достоверность распознавания достигала 40–50