reforef.ru 1

Отбор фотографий для фотокниги


Е.В. ПОТАПОВА, М.А. ЕГОРОВА, И.В. САФОНОВ

Национальный исследовательский ядерный университет «МИФИ»
ОТБОР ФОТОГРАФИЙ ДЛЯ ФОТОКНИГИ
Предложен алгоритм автоматического отбора фотографий для фотокниги. Алгоритм состоит из трех этапов: исключение некачественных фотографий, адаптивное квантование на плоскости время–камера и отбор наиболее представительных изображений из каждой группы. Фотографии ранжируются по визуальной привлекательности и количеству найденных лиц. Предложенный подход позволяет увеличить эффективность отбора фотографий для фотокниги по сравнению с ручным отбором.
В настоящее время большинство людей используют цифровые фотокамеры и снимают тысячи фотографий, иногда одно и то же событие снимается с помощью несколько цифровых устройств, например, фотокамеры, камеры мобильного телефона, камкордера. Исследователи лаборатории HP отмечают, что из-за длительного процесса выбора и размещения изображений пользователи не формируют столько фотокниг, сколько бы им хотелось. Поэтому автоматизация процесса отбора фотографий является актуальной задачей. Требуется выбрать M изображений из N, где зачастую N >> M, чтобы выбранные изображения хорошо отражали снятые события и являлись качественными фотографиями. В статье [1] предложена иерархическая временная кластеризация для отбора фотографий для фотокниги. Из каждого кластера выбирается наиболее релевантное изображения по ряду признаков (найденные лица и улыбки, резкость, контраст, цветность). Алгоритм [2] включает отбор изображений для коллажа и реализован в программе MS Research AutoCollage.

В данной работе предложен новый подход к отбору изображений, который учитывает достоинства существующих подходов и стремится преодолеть их недостатки. Алгоритм состоит из трех этапов: определение и исключение некачественных фотографий, адаптивное квантование на плоскости время–камера и отбор наиболее привлекательных изображений из каждой группы.


Оценка качества. Существует множество способов оценки качества изображений. Большинство из них [3, 4] требуют наличия референсного изображения без помех и искажений. Безреференсные алгоритмы, как правило, нацелены на оценку одного типа дефекта [5, 6]. В последние годы появилось несколько работ [7, 8], которые для разделения множества фотографий на качественные и некачественные комбинируют признаки изображения и обучают единственный классификатор, построенный по методу опорных векторов или нейронной сети, или AdaBoost комитет, не принимая во внимание природу признаков и их взаимное влияние.

Нечеткость (размытость) изображения – один из наиболее часто встречающихся дефектов изображения. На основании анализа способов оценки резкости из работ [5, 9] предложено использовать следующие признаки:



((1)


где Ani – массив интегралов логарифма гистограммы контурных перепадов;






((2)


где I – исходное изображение, LPF – фильтр низких частот с ядром свертки [1 1 1 1 1 1 1 1 1]/9, HPF – фильтр высоких частот с ядром свертки [1–1], r, c – координаты пиксела изображения.

Большинство фотографий хранится в формате JPEG. В [11] предложено для определения параметров фильтра для удаления блочных артефактов и эффекта Гиббса с JPEG-изображений использовать первые 9 элементов таблицы квантования канала яркости. В [12] продемонстрировано, что среднее по первым 9 элементам таблицы квантования характеризует качество JPEG сжатых изображений лучше, чем коэффициент сжатия:

(4)

Одним из характерных дефектов фотографий является низкий контраст основного объекта сцены вследствие съемки с контровым освещением. В [13] описываются признаки, вычисляемые из гистограммы яркости, которые позволяют определять фотографии, снятые с контровым освещением, с вероятностью 0.6–0.8:



((5)

где H0, H1, C0, C1 – пороговые значения интенсивности и площади гистограммы, соответственно.

На первом этапе все признаки использовались для обучения единственного AdaBoost комитета классификаторов. Для работы с AdaBoost использовалась библиотека GML AdaBoost Matlab Toolbox, в которой реализованы алгоритмы Real AdaBoost [14], Gentle AdaBoost [15] и Modest AdaBoost [16]. В среднем Gentle AdaBoost демонстрирует лучший результат. Тренировочный набор состоял из 367 некачественных и 388 качественных фотографий. Для тренировочного набора ошибка при перекрестной проверке равна 0.13. ROC кривая показана на рис. 1. Проанализировав случаи ложных срабатываний и ложных пропусков, был сделан вывод, что использование признаков разных типов дефектов в одном классификаторе неэффективно.


На следующем этапе были построены 2 отдельных AdaBoost комитета для определения размытых фотографий и фотографий с контровым освещением. Уменьшение количества ложных срабатываний при выявлении фотографий, снятых с контровым освещением, достигается путем исключения из рассмотрения фотографий, снятых со вспышкой. Информация о вспышке доступна в EXIF. Полная структура дерева решений приведена на рис. 2.






Рис. 1. ROC кривая для единственного

комитета классификаторов

Рис. 2. Дерево решений для определения

качества изображения


Результаты сравнения двух подходов на тестовой выборке из 1850 изображений, среди которых примерно треть фотографии низкого качества, представлены в табл. 1.
Таблица 1

Результаты классификации для единственного комитета классификаторов и дерева решений





Количество ложных

пропусков

Количество ложных

обнаружений

Единственный AdaBoost комитет

136

104

Предложенное дерево решений

3

60

Как видно из таблицы, лучший результат достигается за счет использования эвристического дерева решений, которое построено на основе анализа взаимного влияния признаков. Более того, данное дерево решений обладает хорошей обобщающей способностью. Тогда как единственный AdaBoost комитет имеет тенденцию к переобучению.


Адаптивное квантование. В [17] для выбора всего нескольких фотографий из большого набора предложено на плоскости время съемки – модель камеры использовать алгоритм k-средних. Однако для данной задачи такой подход не обеспечивает приемлемый с точки зрения пользователя результат. Для квантования предлагается использовать модифицированный алгоритм серединного сечения [18]. Разбиение плоскости время съемки – модель камеры продолжается до тех пор, пока количество областей не станет равным количеству изображений, которые надо отобрать. Информация о времени съемки и модели камеры извлекается из EXIF.

Оценка представительности. Поиск наиболее привлекательных и интересных фотографий является нетривиальной задачей. Полная модель человеческого зрения пока не создана. Однако модель мгновенного зрения для цветных статических изображений обоснована достаточно хорошо и согласуется с результатами экспериментов [19, 20]. Обычно ее используют для выделения области интереса на изображении [21]. Предлагается использовать данную характеристику для сравнения изображений внутри группы и выбора одного из них.

По трем цветовым каналам (r, g, b) вычисляется канал интенсивности и четыре канала цвета:



((6)

По ним строятся 8-уровневые пирамиды Гаусса с использованием сепарабельного фильтра Гаусса. На основе карты интенсивности строятся четыре 8-уровневые пирамиды Габора с различными ориентациями . По пирамидам Габора и Гаусса строятся 42 характеристические карты:




((7)

где и

Характеристические карты нормализуются методом локального максимума и комбинируются в карты видимости:



((8)


где N() – оператор нормализации, который состоит из двух этапов. На первом этапе применяется фильтр Гаусса для уменьшения шумовой составляющей сигнала, на втором этапе считается средний локальный максимум по всему изображению, и сигнал умножается на разность между максимальным значением сигнала и значением среднего локального максимума. Операция нормализации позволяет не брать в расчет такие особенности изображения, как яркий индивидуальный максимум или очень яркий задний фон.

Из полученных карт видимости рассчитывается карта важности:



((9)


Одной из ключевых проблем при расчете карты важности является определение весов карт видимости (wI, wC, wO), так как карты видимости вносят разный вклад в итоговый результат. Группе экспертов было предложено отметить на каждой из 30 фотографий наиболее привлекающую внимание область. Целью эксперимента был поиск максимума следующей функции с использованием симплекс алгоритма: , где ROIобласть, отмеченная на изображении, .

Для ранжирования фотографий предложено использовать индекс важности:



где , w – ширина изображения, h – высота изображения.

Как правило, фотография является более привлекательной для пользователя, если на ней есть изображения людей. Для подсчета количества лиц NF на изображении используется модификация [22] реализации алгоритма поиска лиц Виолы–Джонса [23] в библиотеке Intel OpenCV. Таким образом, итоговой рейтинг изображения RI определяется по формуле



(10)

где значение w = 25 получено в результате максимизации RI по обучающей выборке.

Результаты. Для оценки эффективности предложенного подхода были рассмотрены 5 наборов изображений по 30 фотографий. Количество выбираемых изображений равно 10. Ручной выбор заданного количества занял 5–10 минут (по 10–20 с на изображение). Приложение MS Research AutoCollage затрачивает при отборе 1.1 с на изображение, предложенный нами подход немного медленнее – 1.4 с. После автоматического отбора пользователь перевыбирает изображение, которое для него неприемлемо, этот процесс занимает примерно 1 мин на изображение. Табл. 2 отражает полученные результаты.


Таблица 2

Результаты сравнения ручного и автоматических методов отбора изображений (мин)





Ручной выбор

Предложенный способ

Autocollage

Автоматически

Перевыбор

Сумма

Автоматически

Перевыбор

Сумма

Набор 1

5–10

0.75

1

1.75

0.5

2

2.5

Набор 2

5–10

1

1.75

1

1.5

Набор 3

5–10

0

0.75

1

1.5

Набор 4

5–10

1

1.75


4

4.5

Набор 5

5–10

1

1.75

1

1.5

Сумма

25–50

7.75

11.5


Оба подхода автоматического выбора изображений быстрее, чем ручной выбор. Предложенный метод в среднем показывает лучший результат (1.55 минуты на набор). Это означает, что процедура отбора достаточно быстра и при этом выбираются адекватные изображения, так что не требуется дополнительного времени на перевыбор.
СПИСОК ЛИТЕРАТУРЫ


  1. Obrador P., Moroney N. // Proc. of Society of Photo-Optical Instrumentation Engineers. Bellingham: SPIE, 2009. V. 7257.

  2. Rother C., Bordeaux L., Hamadi Y. et al. // Proc. of Association for Computing Machinery's Special Interest Group on Graphics and Interactive Techniques New York: ACM, 2006. V.25. No. 3. P. 847.

  3. Wang Z., Bovik A.C., Lu L. // Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing, 2002. V. 4. P. 3313.

  4. Naguib N.A., Hussein A.E., Keshk H.A. et al. // Proc. of 18th International Conference on Computer Theory and Applications, 2008.

  5. Crete F., Dolmiere T., Ladret P. et al. // Proc. of Electronic Imaging Symposium. Bellingham: SPIE, 2007. V. 6492. P. 64920I.1.
  6. Bringier B., Richard N., Larabi M.-C. et al. // Proc. of European Signal Processing Conference, 2006.


  7. Ke Y., Tang X., Jing F. // Proc. of Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2006. V. 1. P. 419.

  8. Luo Y., Tang X. // Proc. of 10th European Conference on Computer Vision, 2008. V.5304. P. 386.

  9. Safonov I.V., Rychagov M.N., Kang K.M. et al. // Proc. of Society of Photo-Optical Instrumentation Engineers – Bellingham: SPIE, 2008. V. 6807. P. 68070U.1.

  10. Gomez G., Morales E. // Proc. of the International Conference on Machine Learning Workshop on Machine Learning in Computer Vision, 2002. P. 31.

  11. Foi A., Katkovnik V., Egizarian K. // IEEE Transaction on Image Processing. Washington: IEEE Computer Society, 2007. V. 16. No 5. P. 1395.

  12. Potapova E.V., Egorova M.A., Safonov I.V. // Proc. of International Conference on Computer Graphics and Vision GraphiCon – Moscow: MSU, 2009. P. 117-124.

  13. Safonov I.V. // Proc. of International Conference on Computer Graphics and Vision GraphiCon, 2006. P. 80.

  14. Freund Y., Schapire R.E. // Proc. of International Conference on Machine Learning, 1996. P. 148.

  15. Friedman J., Hastie T., Tibshirani R. // The Annals of Statistics, 1998. V. 28. P. 337.

  16. Vezhnevets A., Vezhnevets V. // Proc. of International Conference on Computer Graphics and Vision GraphiCon, 2005. P. 322.

  17. Egorova M.A., Safonov I.V., Korobkov N.V. // Proc. of International Conference on Computer Graphics and Vision GraphiCon, 2008. P. 160.

  18. Heckbert P. // Proc. of Association for Computing Machinery's Special Interest Group on Graphics and Interactive Techniques New York: ACM, 1982. V.19. No.3. P. 297.

  19. Itti L., Koch C., Niebur E. // IEEE Transactions on Pattern analysis and machine intelligence. Washington: IEEE Computer Society, 1998. V. 20. No.11. P. 1254.

  20. Itti L., Koch C. // Vision Research, 2000. V. 40. P. 1489.


  21. Privitera C.M., Stark L.W. // IEEE Transactions on Pattern Analysis and machine intelligence. Washington: IEEE Computer Society, 2000. V. 22. No 9. P. 970.

  22. Egorova M.A., Murynin A.B., Safonov I.V. // Pattern Recognition and Image Analysis. Moscow: MAIK Nauka/Interperiodica, 2009. V. 19. No 4. P. 634.

  23. Viola P., Jones M. // International Journal of Computer Vision, 2004. V. 57. No 2. P. 137.