Un estudio de la generalización en la clasificación de peatones

Franco  Ronchetti; Facundo Quiroga; Genaro Camele; Waldo Hasperué; Laura  Lanzarini

Autores/as

Franco Ronchetti
Facundo Quiroga UNLP
Genaro Camele UNLP
Waldo Hasperué UNLP
Laura Lanzarini UNLP

Palabras clave:

Daimler, Inria, pedestrian detection, ResNet, SVM, transfer learning, TUD-Brussels

Resumen

Desde el surgimiento de los Histogramas de Gradientes Orientados (HOG, por sus siglas en inglés) en 2005 como el descriptor más utilizado para la detección de peatones, ha habido numerosas mejoras en el área. Sin embargo, las bases de datos disponibles para el entrenamiento no suelen ser suficientemente representativas, lo que dificulta su uso en un entorno real diferente al original.

Este artículo presenta un protocolo para evaluar cómo los modelos de detección de peatones generalizan entre diferentes bases de datos. Dicho protocolo consiste en entrenar un modelo con cada uno de los conjuntos de datos o combinaciones de los mismos y evaluar con la base de datos restante.

Analizamos la eficacia de los modelos de clasificación de peatones basado en descriptores HOG y/o LBP, y un SVM como clasificador base. Alternativamente, también hacemos uso de un modelo convolucional actual (ConvNets) para verificar que los resultados del protocolo son acordes al conjunto de datos y no al modelo.

Evaluamos los modelos con las tres bases de datos más utilizadas en el estado del arte: INRIA, Daimler y TUD-Brussels. Los resultados obtenidos muestran que si bien cada conjunto de datos contiene imágenes del mundo real, también contienen sesgos que dificultan que el modelo logre generalizar con otras bases de datos. Los modelos entrenados con dos bases de datos combinadas logran una eficacia ligeramente mejor al evaluar con el tercer conjunto restante frente a los modelos entrenados con un único conjunto de datos, ambos con los clasificadores SVM y ConvNets.

Citas

Azulay, A., Weiss, Y. (2019). Why do deep convolutional networks generalize so poorly to small image transformations?. Journal of Machine Learning Research, 20, 1-25.

Benenson, R., Omran, M., Hosang, J., Schiele, B. (2015). Ten years of pedestrian detection, what have we learned? In: Computer Vision - ECCV 2014 Workshops. (pp. 613-627). Springer International Publishing.

Camele, G., Quiroga, F., Ronchetti, F., Hasperué, W., Lanzarini, L.C. (2018). Transferencia de aprendizaje para la detección de peatones. In: XXIV Congreso Argentino de Ciencias de la Computación, CACIC 2018. La Plata. (pp. 52-61). Red de Universidades con Carreras en Informática (RedUNCI).

Cao, X., Wang, Z., Yan, P., Li, X. (2013). Transfer learning for pedestrian detection. Neurocomputing, 100, 51-57, special issue: Behaviours in video.

Dalal, N., Triggs, B. (2005). Histograms of oriented gradients for human detection. In: IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005. CVPR 2005. 1, pp. 886-893.

Dollar, P., Wojek, C., Schiele, B., Perona, P. (2012). Pedestrian detection: An evaluation of the state of the art. IEEE Transactions on Pattern Analysis and Machine Intelligence 34(4), 743-761,doi: 10.1109/TPAMI.2011.155.

Enzweiler, M., Gavrila, D.M. (2008). Monocular pedestrian detection: Survey and experiments. IEEE Transactions on Pattern Analysis & Machine Intelligence, 31(12), 2179-2195. doi: 10.1109/TPAMI.2008.260.

Gan, G., Cheng, J. (2011). Pedestrian detection based on hog-lbp feature. 2011 Seventh International Conference on Computational Intelligence and Security (pp. 1184-1187). doi:10.1109/CIS.2011.262.

He, K., Zhang, X., Ren, S., Sun, J. (2016). Deep residual learning for image recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, (pp. 770-778). doi: 10.1109/CVPR.2016.90.

Mu, Y., Yan, S., Liu, Y., Huang, T., Zhou, B. (2008) Discriminative local binary patterns for human detection in personal album. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2008. (pp. 1-8). doi:10.1109/CVPR.2008.4587800.

Ouyang, W., Wang, X. (2013). Single-pedestrian detection aided by multi-pedestrian detection. IEEE Conference on Computer Vision and Pattern Recognition, Portland, OR, 2013, (pp. 3198-3205). doi:10.1109/CVPR.2013.411

Pei, W.J., Zhang, Y.L., Zhang, Y., Zheng, C.H. (2014). Pedestrian detection based on HOG and LBP. In: Intelligent Computing Theory. (pp. 715-720). Springer International Publishing.

Wang, X., Han, T.X., Yan, S. (2009). An hog-lbp human detector with partial occlusion handling. In: IEEE 12th International Conference on Computer Vision, 2009. (pp. 32-39).

Wojek, C., Walk, S., Schiele, B. (2009). Multi-cue onboard pedestrian detection. In: 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2009), Miami, FL, 2009 (pp. 794-801), doi:10.1109/CVPRW. 2009.5206638.

Yan, J., Zhang, X., Lei, Z., Liao, S., Li, S.Z. (2013). Robust multi-resolution pedestrian detection in traffic scenes. 2013 IEEE Conference on Computer Vision and Pattern Recognition (pp. 3033-3040). Portland, OR, 2013. doi: 10.1109/CVPR.2013.390.

Zhang, L., Lin, L., Liang, X., He, K. (2016). Is faster r-cnn doing well for pedestrian detection?. Computer Vision and Pattern Recognition. ECCV 2016 (pp. 443-457). Springer International Publishing.