Face Recognition using RGB-D Images
Helder C. R. de Oliveira N.USP: 7122065
Polyana Nunes N.USP: 9043220
Sobre o Artigo Publication: 2013 IEEE Sixth International Conference Author(s) • • • •
Goswami, G. (Índia ) Bharadwaj, S. Vatsa, M. Singh, R.
• fgauravgs, samarthb, mayank,
[email protected] 2
Sumário • • • • • •
Kinect; Reconhecimento de Faces; Espaço RGB-D; Espaço RGB-D para o Reconhecimento de Faces; Algoritmo Proposto; Extração de Características: • Mapa de Entropia; • Mapa Visual de Saliência; • Histogramas de Gradientes Orientados;
• • • •
Classificador: Random Decision Forests; Resultados Experimentais; Conclusões; Referências; 3
Kinect • Sensor de movimentos desenvolvido para Xbox 360/One; • Recursos: • • • • •
Câmera RGB; Sensor de profundidade (Infra Vermelho); Microfone embutido; Próprio processador e software; Detecta 48 pontos de articulação do corpo humano.
4
Reconhecimento de Faces • Reconhecer não é detectar! • Problemas do reconhecimento de objetos: • • • • •
Iluminação; Ponto de visão; Distorções; Expressões (Faces); Uso de acessórios (Faces);
• Com o advento de novos sensores (Kinect) é possível ter imagens 3D: RGB-D → Red Green Blue – Depth; • Imagens 2D (RGB) possuem informações limitadas; Fornece informações de profundiade por pixel, usando o projetor laser infravermelho e a câmera.
5
RGB-D para Reconhecimento de Faces • Utilização (Artigo): • Reconhecimento de face;
• Imagens Kinect ≠ Imagens 3D convencionais: • Técnicas 3D imagens RGB-D; • Cada pixel no mapa de profundidade tem um valor: • Indica Distância do sensor até o objeto;
RGB
?
Mapa de profundidade
6
RGB-D para Reconhecimento de Faces • Mapa de profundidade: • Inter-classe: Grande similaridade devido a ruído e “furos”; • Não diferencia indivíduos; • As imagens RGB possuem a diferença inter-classes necessária;
Mapa de profundidade de indivíduos distintos.
• Intra-classe: Baixa variação que pode ser utilizado para aumentar a robustez de covariâncias como expressões/poses; 7
Algoritmo Proposto • Workflow:
Ressalta formas
8
*Histograma de Gradiente Orientado
Extração de Características: Mapa de Entropia
• Medida de incerteza numa variável aleatória. (Característica Textura) • A entropia é dada por:Aleatoriedade do pixel 𝑛
𝐻 𝑥 =−
𝑝(𝑥𝑖 ) log 𝑏 𝑝(𝑥𝑖 ) 𝑖=1
• Sendo as imagens de entrada, ambas de tamanho 𝑀 × 𝑁: • RGB → 𝐼𝑟𝑔𝑏 (𝑥, 𝑦); • Mapa de profundidade → 𝐼𝑑 (𝑥, 𝑦); 𝐼𝑟𝑔𝑏 (𝑥, 𝑦)
𝐼𝑑 (𝑥, 𝑦) 𝐇 (𝐗, 𝐘) 9 Amplifica as variações
Extração de Características: Mapa de Entropia
• São extraídos dois patches de cada imagem, onde: • 𝑃1 e 𝑃2 ⊂ 𝐼𝑟𝑔𝑏 ; • • • •
𝑃3 e 𝑃4 ⊂ 𝐼𝑑 ; 𝑃1 e 𝑃3 tem dimensão: [𝑀 2 , 𝑀 2]; 𝑃2 e 𝑃4 tem dimensão: [3𝑀 4 , 3𝑀 4] Ambos centrados em: [𝑀 2 , 𝑀 2]; 𝐼𝑟𝑔𝑏 (𝑥, 𝑦)
𝐼𝑑 (𝑥, 𝑦)
10
Extração de Características: Mapa de Entropia
• De cada patch é extraído o mapa de entropia • Quatro mapas de Entropia.
𝐸𝑖 = 𝐻 𝑃𝑖 , onde, 𝑖 ∈ [1,4];
11
Extração de Características: Mapa Visual de Saliências
• Atrai a atenção visual (Ressalta formas); • As técnicas são desenvolvidas para imagens “visuais” (𝐼𝑟𝑔𝑏 ): • Não faz sentido usar mapa de profundidade (𝐼𝑑 ); • Mapas de profundidade produzem resultados irregulares. 𝑆1 𝑥, 𝑦 = 𝑆 𝐼𝑟𝑔𝑏 𝑥, 𝑦 ∀ (𝑥 ∈ 1, 𝑀 , 𝑦 ∈ 1, 𝑁 ) 𝐼𝑟𝑔𝑏 (𝑥, 𝑦) 𝑆1 (𝑥, 𝑦)
𝐼𝑑 (𝑥, 𝑦)
12
Extração de Características: Mapa Visual de Saliências
• Outros exemplos:
13
Extração de Características: Mapa Visual de Saliências
• Arquitetura:
14
Extração de Características: Histograma de Gradientes Orientados (HOG)
• A aparência e forma de um objeto pode ser caracterizado pela distribuição local de gradientes de intensidade ou direções de borda; • Os pixels da imagem são agrupados de acordo com magnitude e direção do gradiente; Imagem original
HOG
15
Extração de Características: Histograma de Gradientes Orientados (HOG)
• Calcula-se o HOG (𝐷(. )) dos mapas de entropia e saliência:
𝐹𝑖 = 𝐷 𝐸𝑖 , onde, 𝑖 ∈ [1,4] • Funcionamento:
16
Extração de Características • HOG do mapa de saliência 𝑆1 :
𝐹5 = 𝐷(𝑆1 (𝐼𝑟𝑔𝑏 )) • Descritor 𝐹 ao concatena os histogramas calculados anteriormente:
𝐹 = [𝐹1 , 𝐹2 , 𝐹3 , 𝐹4 , 𝐹5 ] • 𝐹 é utilizado como entrada para um classificador multi-classe.
17
Classificador Random Decision Forests (RDF)
• É possível utilizar qualquer classificador multi-classes: • Nearest Neighbor (NN); • Random Decision Forests (RDF); • Support Vector Machines (SVM);
• Pré-requisitos: • Deve ser robusto a uma grande quantidade de classes; • Computacionalmente barato; • Preciso;
• Escolha por RDF: • Comparado com SVM: • Produz limites de decisão não-linear melhor; • Lida melhor com multi-classes;
• Comparado com NN: • É robusto em casos isolados;
18
Ambiente de Testes • IIIT-D RGB-D face database: • 4605 imagens (não segmentadas), 24 bits, 640 x 480; • 106 indivíduos (homens e mulheres); • De 11 a 254 imagens por indivíduo.
• EURECOM database: • 936 imagens; • 52 indivíduos; • Variações de pose, iluminação e oclusão.
19
IIIT-D RGB-D face database
Resultados Experimentais • Avaliação do peso de cada componente do algoritmo proposto:
20
Resultados Experimentais • Comparação de extratores de características e database;
21
Resultados Experimentais • Comparação do algoritmo proposto com outros, usando o IIIT-D RGB-D Face Database:
22
Resultados Experimentais • Comparação do algoritmo proposto com outros, usando o EURECOM Kinect Face Dataset:
23
Conclusões • Mapas de profundidade e imagens RGB obtidas com o Kinect; • Os experimentos feitos em imagens de duas bases de dados mostraram que o algoritmo proposto é superior aos atuais para imagens 2D e 3D; • Nossa conclusão: • Artigo difícil de ser reproduzido! • Precisa do Kinect? • Todo o processamento é baseado na (correta) detecção da face na cena; • Pessoa com expressões e óculos ou chapéu? 24
Isso é tudo!
25
Referências • G. Goswami et al. On RGB-D face recognition using kinect. 2013. • N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, volume 1, pages 886–893, 2005. • T. K. Ho. Random decision forests. In ICDAR, pages 278–282, 1995. • L. Itti, C. Koch, and E. Niebur. A model of saliency-based visual attention for rapid scene analysis. IEEE TPAMI, 20(11):1254 –1259, 1998. • D. G. Lowe. Object recognition from local scale-invariant features. In ICCV, volume 2, pages 1150–1157, 1999. • P. Viola and M. Jones. Rapid object detection using a boosted cascade of simple features. In CVPR, volume 1, pages 511–518, 2001. • G. K. Sandve et al. Ten simple rules for reproducible computational research. PLoS Comput Biol 9(10), 2013. 26