RECONOCIMIENTO HOLISTICO DE ROSTROS A TRAVES DE ANALISIS MULTIVARIADO Y ALGORITMOS GENETICOS: RESULTADOS PRELIMINARES

RECONOCIMIENTO HOLISTICO DE ROSTROS A TRAVES DE ANALISIS MULTIVARIADO Y ALGORITMOS GENETICOS: RESULTADOS PRELIMINARES CARLOS VILLEGAS QUEZADA ANGEL FE...
40 downloads 1 Views 1MB Size
RECONOCIMIENTO HOLISTICO DE ROSTROS A TRAVES DE ANALISIS MULTIVARIADO Y ALGORITMOS GENETICOS: RESULTADOS PRELIMINARES CARLOS VILLEGAS QUEZADA ANGEL FERNANDO KURI MORALES Centro de Investigación en Computación Instituto Politécnico Nacional Blvd. Adolfo López Mateos Col. Lindavista, México, D.F. 5729-6000 ext. 56547 [email protected] [email protected]

RESUMEN

Diversos trabajos sobre reconocimiento de rostros, generalmente han basado sus investigaciones en métodos que reconocen características aisladas del rostro o bien, mediante la utilización de “plantillas” que abarcan diversas regiones del rostro. En este trabajo se presenta una nueva técnica que utiliza un enfoque holístico para el reconocimiento de rostros, sin tener que recurrir a la obtención de características geométricas o regiones. La caracterización del rostro se realiza a partir de un muestreo aleatorio de diversos atributos seleccionados para los pixeles constituyentes de la imagen del rostro. A partir de dicha información, se constituyen tres grupos de datos (espectros), correspondientes a los valores de las frecuencias bajas, gradiente y entropía de la imagen. El reconocimiento de un objeto, en este caso un rostro, formulado desde el punto de vista de la clasificación de patrones, se puede enfocar como un “problema de aprendizaje”. Dicha problemática se puede resolver a través del uso de una función de aproximación multivariada que proporcione el mínimo error de ajuste con respecto al espacio muestral. Una función de aproximación es una forma de producir un clasificador a partir de un conjunto de datos de entrenamiento. A través de un algoritmo genético se obtienen los coeficientes y el grado de tres polinomios de aproximación que minimicen el error de ajuste de los datos correspondientes a los valores de los tres espectros (frecuencias bajas, gradiente y máxima entropía) por medio de los cuales se caracterizan los rostros de la base de entrenamiento. Un determinado rostro a identificar, se caracteriza también por medio de los tres polinomios mencionados y se compara contra la base de entrenamiento mediante una métrica de Mahalanobis, con lo cual se logra el reconocimiento de rostros utilizando una sola imagen por sujeto para el entrenamiento, con una precisión del 97.5%.

Palabras Clave : Reconocimiento holístico de rostros, algoritmos genéticos, aproximación multivariada, espectros de rostros, aprendizaje supervisado.

1.

INTRODUCCION

El proceso de identificación de una persona a través de un reconocimiento de su rostro, presenta diversas problemáticas. Se tienen diversos factores que pueden alterar la apariencia facial, el rostro puede cambiar su apariencia debido a factores intrínsecos y extrínsecos. Entre las variaciones intrínsecas que pueden afectar el reconocimiento se encuentran: la edad, el sexo, la expresión facial en un determinado instante, etc. Entre las extrínsecas se pueden contar: la iluminación, la pose, el ruido que puede presentar la imagen, etc. El ser humano puede resolver la mayoría de los problemas mencionados anteriormente, y realizar un adecuado reconocimiento de los rostros, desde edades muy tempranas. Sin embargo, los sistemas computacionales de reconocimiento presentan todavía diversas problemáticas para llevarlo a cabo. Esta investigación pretende aportar un método holístico de reconocimiento de rostros, sin tener que recurrir a la obtención de características geométricas o a la identificación de ciertas regiones del rostro.

2.

ELEMENTOS ROSTROS

NEURO-PSICOLOGICOS

DEL

RECONOCIMIENTO

DE

Observaciones neuro-psicológicas, junto con experimentos psicológicos sugieren que el cerebro humano realiza el reconocimiento de caras a través de diversos canales de procesamiento de información funcionalmente independientes [3]. Se piensa que los seres humanos nacemos con cierta predisposición para responder a los patrones que presentan los rostros. Dichas observaciones sugieren que los rostros son objetos “especiales” dentro del mundo visual del ser humano. Sin embargo, estas posibles características de especialización, no necesariamente indican que los procesos de reconocimiento de rostros difieran fundamentalmente de aquellos utilizados para reconocer otras clases de objetos [3]. Las representaciones del rostro que utiliza el ser humano para su reconocimiento, parece que se basan en la codificación de características de “bajo nivel” que presenta una determinada imagen. Costen y otros [17], mencionan que existe gran evidencia de que el reconocimiento de rostros depende en gran medida de las frecuencias bajas que recibe el ser humano al visualizar un determinado rostro. Por otra parte, diversos autores consideran que el reconocimiento de rostros parece involucrar en gran medida, un reconocimiento holístico [9]. En el reconocimiento de otros tipos de objetos, parece ser que dicho reconocimiento global, se aplica en menor grado, utilizando más un enfoque de búsqueda de características locales y análisis de las partes del objeto. Otros investigadores han encontrado que los niños, entre más pequeños, utilizan representaciones basadas en características particulares (ojos, boca, nariz) para efectuar su reconocimiento, mientras que los adultos, utilizan principalmente un reconocimiento holístico.

3.

TRABAJOS PREVIOS EN RECONOCIMIENTO DE ROSTROS

En el reconocimiento de rostros se observan dos formas principales de atacar el problema: • Obtención de características (ojos, boca, nariz, etc.) y • Utilización de Plantillas. En los trabajos reportados en la literatura se utilizan por lo menos dos imágenes por sujeto para la fase de entrenamiento, utilizando en la mayoría de los casos, 10 imágenes por rostro y en algunos

casos llegan a tener 20 imágenes por cada sujeto. Los principales métodos que se utilizan para llevar a cabo el reconocimiento del rostro son: • Diversas configuraciones de redes neuronales. • Análisis de Componentes Principales. • Métodos Bayesianos. • Líneas de Isodensidad. • Eigenfaces. • Fisherfaces • Métodos híbridos. Uno de los métodos más utilizados para el reconocimiento de rostros, se basa en la obtención de un conjunto de características geométricas a partir de la imagen del rostro. Uno de los primeros trabajos es el de Kanade en el año de 1977 [17]. Diversos autores han continuado investigaciones de reconocimiento de rostros con base a características geométricas, entre estos se encuentran Brunelli y Poggio quienes obtuvieron 35 características (figura 1-a), y a partir de éstas, se efectúa el reconocimiento con un clasificador bayesiano [5].

FIGURA 1.

RECONOCIMIENTO DE ROSTROS MEDIANTE

(a) CARACTERISTICAS GEOMETRICAS

(b) UTILIZACION DE PLANTILLAS

Otro método utilizado en el reconocimiento es mediante “Plantillas” (máscaras), en el cual se configuran diversas plantillas que abarcan ciertas regiones del rostro: ojos, nariz, boca, etc., como se puede observar en la figura 1-b. La imagen sin clasificar se compara a través de las plantillas con las imágenes de la base de datos, y se obtiene un vector de puntuaciones de apareamiento mediante procesos de correlación [4]. Otro enfoque consiste en la utilización de Análisis de Componentes Principales, el cual es una técnica estadística utilizada para reducir la dimensionalidad de los datos y preservar la

información relevante. Hancock, Bruce y Burton [13, 14] proponen la utilización de componentes principales a partir de 38 puntos del rostro (figura 2)

FIGURA 2.

PUNTOS DEL ROSTRO SELECCIONADOS PARA ANALISIS POR COMPONENTES PRINCIPALES

En Lucas [26, 27] se propone el método denominado Clasificador de n-tuplas, el cual consiste en seleccionar por medio de un muestreo n-tuplas de pixeles (obteniendo únicamente valores de gris), en donde cada tupla tiene una longitud “m”. En la figura 3, se representa el conjunto de ntuplas (n=3) con una longitud por tupla de m=3. El reconocimiento se efectúa mediante la utilización de una métrica (distancia Manhattan) para comparar el conjunto de entrenamiento con la imagen a clasificar.

FIGURA 3.

CLASIFICADOR POR MUESTREO DE “n-tuplas” A PARTIR DE PIXELES

Entre las problemáticas que presentan los métodos anteriores, es que requieren de un gran tiempo dedicado a la búsqueda de los elementos característicos. Dicha búsqueda se tiene que ir refinando hasta encontrar un punto o ciertos puntos, a partir de los cuales se caracterizará el rostro. Una técnica que reportó excelentes resultados, es el denominado Eigenfaces [37, 38]. Dicho método es una extensión del análisis de componentes principales. La investigación que ha logrado reconocer el mayor número de personas (aproximadamente 3000) se realizó con este método. Se entenderá como “reconocimiento”, el proceso mediante el cual se trata de encontrar un determinado rostro (rostro dato) en una base de datos (base de entrenamiento de rostros), con el propósito de identificar a un sujeto y estar en posibilidad de extraer atributos asociados a él como: nombre, RFC, características personales, etc. El rostro dato puede presentar diferencias respecto a la imagen que se encuentre en la base de entrenamiento: condiciones de luz, afectaciones por edad, algún tipo de oclusión facial, diferencias (pequeñas) en el ángulo en que fue tomada la imagen, etc. Belhumeur, Hespanha y Kriegman [2], utilizan Análisis de Componentes Principales para reducir la dimensionalidad y el Discriminante Lineal de Fisher (análisis discriminante) para reconocimiento de rostros. A este enfoque le denominó Fisherfaces. Bajo el enfoque anterior, Liu y Wechsler [25] consideran que con el método de Fisherfaces se pierde generalidad en el reconocimiento y se realiza un “sobre ajuste” de los datos de entrenamiento. Para evitar lo anterior, proponen los denominados “Modelos discriminantes lineales mejorados de Fisher”. Reportan que su método se aplicó al reconocimiento de 600 sujetos, utilizando 1107 imágenes para entrenamiento, obteniendo una mejora del 10% al 15% con respecto a los Fisherfaces. Algo importante por mencionar, se refiere a la relativa pequeña cantidad de rostros que se reconocen, generalmente menor a 100. Los métodos que manejan un mayor número de rostros se encuentran en el rango de 1500 a 3000 imágenes. La mayoría de las técnicas requieren de la utilización de varias imágenes por sujeto (entre 2 a 20 imágenes). Los porcentajes de logro que se obtienen se encuentren entre el 85% y el 95%. En el caso de bases de datos con un reducido número de imágenes se presentan logros del 100 % Por lo que respecta a la utilización de Algoritmos Genéticos en el reconocimiento de rostros, se reportan pocos trabajos. La mayoría de éstos, los utilizan en combinación con algunos de los métodos mencionados en párrafos anteriores: Análisis de componentes principales, plantillas y redes neuronales, entre otros [15, 16, 28]. Schackleton [32] utiliza una población de plantillas para reconocer el rostro, utilizando un algoritmo genético para encontrar el mejor ajuste de las plantillas del rostro a reconocer con la base de datos de rostros. Se utilizaron poblaciones de 100 plantillas, 200 generaciones para un conjunto de 40 sujetos. Lanitis y otros. [23], utilizan una combinación de Análisis de Componentes Principales y un Algoritmo genético para efectuar el reconocimiento. Se utilizó una base de datos de 30 sujetos, con 690 imágenes. Otra aplicación de algoritmos genéticos y análisis de componentes principales es la reportada por Liu y Wechsler [24], en la cual se utilizan los algoritmos genéticos para encontrar la mejor configuración (rotación) de los ejes de componentes principales. Se aplicó al reconocimiento de 369 sujetos, utilizando aproximadamente 2 imágenes por sujeto. Se logró una eficiencia del 97.02%. Pinto y Sossa [28] proponen un método de invariantes combinado con un algoritmo genético para el reconocimiento de rostros. El reconocimiento del rostro, casi en la totalidad de la literatura revisada, se efectúa mediante el reconocimiento de las principales características de la cara, generando una serie de “plantillas” que abarcan diversas regiones del rostro o métodos que conjuntan ambos métodos.

4.

METODOS EXPERIMENTALES UTILIZANDO ANALISIS MULTIVARIADO Y ALGORTIMOS GENETICOS

4.1. Imágenes de Rostros para entrenamiento Para los experimentos de esta investigación, se utilizó la base de datos denominada ORL generada en los Laboratorios AT&T de la Universidad de Cambridge, UK. Dicha base contiene los rostros de 40 personas, con 10 fotografías por cada sujeto (figura 4). Los sujetos (hombres y mujeres), se encuentran con diferentes expresiones faciales y algunos de ellos presentan barba y/o lentes. Todas las imágenes se tomaron con un fondo homogéneo, en posición frontal y algunas con ciertas variaciones en el ángulo de la cara. Las fotografías se encuentran en formato PGM (Portable Grey Map), con 92 x 112 pixeles y 256 niveles de gris (8 bits/pixel). La base de datos ORL ha sido utilizada en diversos proyectos de identificación de rostros, utilizando diversos métodos de reconocimiento [13, 31, 32, 10]. Para el propósito de esta investigación, se ha seleccionado únicamente, la primera imagen de cada persona (fotografía frontal) para crear la base de datos de entrenamiento (40 imágenes). Como se ha mencionado en secciones anteriores, el propósito de este proyecto consiste en el reconocimiento de rostros a partir de sólo una fotografía frontal de cada sujeto. Las otras 9 imágenes de cada sujeto se utilizarán como fotografías externas a identificar.

4.2. Preprocesamiento de Imágenes Previo al análisis y entrenamiento, los rostros de la base de datos ORL se les aplicó un preprocesamiento. Se obtuvo el valor promedio de nivel de gris que presentaba cada una de las imágenes. A partir de estos resultados, se calculó un valor medio total ( xT ) y una desviación estándar general ( µ T ) . Los valores de xT y µ T se utilizaron para realizar una “ecualización” de todas las imágenes, de tal forma que quedaran con valores similares de las tonalidades de gris [1].

4.3. Muestreo Aleatorio de pixeles Los rostros de la base ORL tienen un tamaño 92x112 pixeles (10,304 pixeles). Se selecciona una muestra aleatoria de los pixeles de la imagen, cuidando de no obtener pixeles duplicados. Se ha utilizado la fórmula de Peña y Romo [28], obteniendo que el tamaño de la muestra será de 1,802.16 pixeles (17.49% de la muestra). Para los experimentos realizados se tomó una muestra del 17%, equivalente a 1,752 pixeles. Se generó un archivo con las coordenadas (x,y) y el nivel de gris correspondiente a dicha posición

4.4. Reconocimiento de rostros como un problema de aprendizaje El reconocimiento de un rostro a partir de la digitalización de fotografías frontales, se puede formular como un problema de clasificación de patrones. El que a su vez, se puede enfocar desde el punto de vista de un “problema de aprendizaje ” [6, 35]. En esta investigación se utiliza un enfoque de aprendizaje supervisado. El aprendizaje supervisado consiste en la adquisición de reglas de clasificación a a partir de ejemplos, en este caso, se utilizará un conjunto de 40 imágenes frontales de rostros (base de datos ORL), las cuales se caracterizarán como ejemplos de entrenamiento. A partir de esta base de datos se realiza una

comparación con el rostro a identificar para encontrar similitudes a un nivel holístico (global), sin tener que recurrir a la extracción de características geométricas del rostro o a la utilización de “plantillas” de ciertas regiones (ojos, nariz, boca, etc.), métodos tradicionalmente utilizados en el reconocimiento de rostros.

FIGURA 4. BASE DE DATOS ORL, CON 40 SUJETOS Y 10 IMÁGENES POR CADA SUJETO

En el aprendizaje supervisado, se proporcionan ejemplos de la forma ( x i , y i ) y se puede asumir una función de aprendizaje f , tal que, f ( x i ) = y i . El objetivo consiste en encontrar la función f , de tal manera que dicha función capture los “patrones generales” presentes en los datos de entrenamiento y se pueda aplicar para predecir valores de y , a partir de diversos valores de x . Generalmente, cada x i es una descripción de algún objeto, situación o evento, al igual que las y i [34]. La función se puede hacer extensiva al manejo de diversas variables en un espacio “ndimensional”. Los valores utilizados para la función que caractericen un rostro, pueden ser atributos de los pixeles de cada imagen (coordenadas, nivel de gris o color, gradiente, ruido, etc.). Utilizando el enfoque anterior, estamos en posibilidad de caracterizar un rostro de una manera holística, sin tener que especificar elementos geométricos o plantillas de regiones.

4.5. Algoritmos genéticos en la aproximación de las funciones de aprendizaje. Como se ha mencionado anteriormente, a través de una función se pretende caracterizar un determinado rostro. Específicamente, se ha seleccionado una familia de funciones polinomiales de aproximación, cuyo propósito será caracterizar un rostro a partir de una serie de atributos de los pixeles de cada imagen. De estos atributos, alguno se seleccionará como variable dependiente y otro atributo (u otros, en el caso multivariado), se plantearán como variables independientes. La aproximación del polinomio (a los atributos seleccionados), tradicionalmente, se ha realizado mediante la técnica de regresión lineal o regresión múltiple [36]. Sin embargo, para aplicar dicho método se presupone que los datos cumplen con ciertas características: las variables deben tener una distribución normal, las distribuciones deben tener la misma varianza, para un valor de la variable independiente, la distribución de los valores de la variable dependiente debe tener una media que se encuentre en la línea de regresión, etc. Bastantes problemas de la vida real, entre ellos los datos de un rostro humano, no cumplen con las características anteriormente descritas. Por lo tanto, una forma de resolver el problema, es obtener el aproximante visto como un problema de optimización. El objetivo consiste en encontrar la forma y los valores de los coeficientes del polinomio que mejor caractericen la interrelación entre el conjunto de variable(s) independiente(s) y la dependiente bajo una determinada norma. La solución a la problemática anterior cae dentro del área que se ha denominado Optimización Combinatoria, y es un problema de difícil resolución por métodos tradicionales [12]. Para realizar la búsqueda y optimización respectiva, se utilizó un método propuesto por Kuri [20, 22 ], denominado Algoritmo Genético de Orden. Dicho método permite encontrar la forma y los valores de los coeficientes del polinomio de aproximación en el espacio de búsqueda, de tal forma que se minimice el máximo error absoluto de aproximación entre los datos y la función aproximante [19]. La forma polinomial que es posible obtener es del tipo [21]: g1

gp

i1 = 0

i p =0

f (v1 ,..., v p ) = ∑ • • • ∑ C i1 ...i p v1i1 ⋅ ⋅ ⋅ v pp i

(1)

Por tanto, en la fase de entrenamiento, se caracterizarán mediante polinomios los rostros de la base de datos. Esta aproximación se realizará a partir de diversos atributos de cada rostro, los cuales se obtuvieron de una muestra de pixeles de cada rostro, como se mencionó en la sección 4.3.

Posteriormente, un determinado rostro a identificar, se caracterizará también mediante una familia de polinomios, los cuales se comparan con los polinomios que corresponden a los rostros de la base de datos (entrenamiento) utilizando la métrica de Mahalanobis [8]. La cantidad r en T r 2 = ( x − m x ) C x−1 ( x − m x ) (2) es llamada la Distancia de Mahalanobis a partir del vector de características x al vector de medias m x , en donde C x es la matriz de covarianza para x . Se puede utilizar la distancia de Mahalanobis en un clasificador de distancia mínima en la siguiente forma: Dado que m1 , m 2 ,..., mc sean los valores “medios” para las “c” clases, y C1 , C 2 ,..., C c sean las correspondientes matrices de covarianza. Se puede clasificar un vector de características x al medir la distancia de Mahalanobis desde x , a cada una de las “medias” de las clases. Entonces se asignará x a la clase para la cual la distancia es mínima (figura 5).

Distancia de Mahalanobis

Distancia de Mahalanobis

S E L E C T O R

Distancia de Mahalanobis

FIGURA 5. CLASIFICADOR MAHALANOBIS DE DISTANCIA MINIMA

Dicho clasificador se ha utilizado en la presente investigación, para realizar el reconocimiento de un determinado rostro (x), identificando si éste se encuentra en la base de datos de rostros (base ORL).

4.6. El rostro y sus Espectros de Señal. Una vez realizado el preprocesamiento de la imagen descrito en la sección 4.2, los valores de nivel de gris correspondientes a cada pixel, se almacenan en un vector (cada renglón del rostro se coloca en forma secuencial ), como se representa en la figura 6. Se aplica el muestreo aleatorio descrito en la sección 4.3, obteniendo de las 10,304 posiciones un vector de 1,752 posiciones (correspondientes a una muestra del 17%). Graficando este vector, tomando como variable (x) la posición de cada elemento del vector y los niveles de gris como (y), se obtiene el equivalente a una serie de tiempo o espectro de señal [40]. En una primera instancia, se puede pensar en tratar de obtener el polinomio de aproximación que

caracterice a dichos datos que representan un determinado rostro. O bien, si utilizamos las coordenadas (x, y) y el correspondiente nivel de gris en ese punto se obtiene una gráfica del tipo (X, Y, Z). Los experimentos realizados con estos tipos de espectros no tuvieron un resultado satisfactorio en el reconocimiento del rostro. Se consideró que los espectros se deberían de simplificar para obtener un mejor resultado. Posición:

1

2

3 ....

80 ...

92

.4941 .5098 .5137 .4980 .5096 .5095 .4862 ..3642

.5019 .2901 .3372 .4823 .2274 .1763 .3465 .4576

.3123 .8745 .9764 .9803 .7854 .9854 .8764 .9543

10,192 FIGURA 6.

.....

.....

.... 10,304

REPRESENTACION VECTORIAL DE LOS VALORES DE GRIS CORRESPONDIENTES A LA IMAGEN DE UN ROSTRO

Con base en algunas de las propuestas teóricas acerca del reconocimiento de rostros, se obtuvieron tres espectros para cada imagen: Espectro de señal de baja frecuencia, Espectro de los Gradientes y Espectro de Máxima Entropía. Las señales de baja frecuencia se seleccionaron debido a la propuesta de diversos autores [7, 10] que proponen que el ser humano utiliza este tipo de señal para realizar el reconocimiento de rostros (sección 2). El Gradiente, se encuentra relacionado con la detección de los bordes de una imagen a través de las diferencias entre los niveles de grises de la imagen [1]. Por su parte, el espectro de máxima entropía, es una técnica para tratar de reducir “ruido” en una señal y adquirir conocimiento a partir de información incompleta. El método de máxima entropía ha sido utilizando sobre todo, en el campo de la Astronomía para procesar imágenes obtenidas por medio de radiotelescopios que presentan una gran cantidad de “ruido”. Se obtuvieron los tres espectros mencionados anteriormente, para cada imagen, a partir de la muestra seleccionada. Por tanto, se obtienen tres vectores de 1,752 posiciones que caracterizan a cada rostro. Para cada una de estas señales, se obtuvo el aproximante polinomial correspondiente por medio de los algoritmos genéticos de orden, el cual tiene la forma presentada en (1). En el proceso del algoritmo genético se utilizaron poblaciones de 30 individuos con aproximadamente 50 generaciones, los polinomios de aproximación que se encontraron presentan 12 términos y un grado (exponente) máximo de 6. En la figura 7, se presentan las gráficas de los espectros para cada una de las tres señales: Gradiente (figura 7-a), Frecuencia baja (figura 7-b) y Máxima entropía (figura 7-c). Se han representado simultáneamente 10 señales (que caracterizan a 10 rostros de la base ORL), para cada uno de los espectros. Unicamente se presentan 350 puntos del total de la muestra.

El reconocimiento de un determinado rostro, se realizó comparando sus tres espectros contra los espectros de los polinomios de aproximación que caracterizan a la base de entrenamiento, a través de la métrica de Mahalanobis (clasificador de distancia mínima). Se utilizaron las imágenes correspondientes a la segunda y tercera pose de cada sujeto de la base ORL (figura 4) como sujetos a identificar. En ambos casos se reconocieron 39 sujetos, correspondiendo a un 97.5% de precisión.

A

B

C

FIGURA 7. SEÑALES CORRESPONDIENTES A 10 ROSTROS DE LA BASE DE ENTRENAMIENTO “ORL”. (A) – GRADIENTE, (B) – FRECUENCIA BAJA, (C) – MAXIMA ENTROPIA

5.

CONCLUSIONES

El método utilizado en este proyecto, que consiste básicamente en un muestreo aleatorio de la imagen de un rostro, su caracterización por medio de polinomios de aproximación y la búsqueda de la forma de dichos polinomios a través de un algoritmo genético, es una de las principales aportaciones de la investigación. Con la metodología anterior, no se requiere de calcular los elementos geométricos del rostro, ni obtener la posición de algún elemento básico del rostro humano (ojos, nariz, boca, etc.), ni tampoco del uso de “plantillas” que enmarquen características faciales, métodos utilizados en las mayoría de las investigaciones que se presentan en la literatura. En los métodos que se basan en la utilización de características, se requiere de realizar búsquedas exhaustivas para identificar los ojos, la nariz o cualquier otro elemento facial a partir

del cual se construye la red de puntos que configuran al rostro y a partir del cual se aplica alguno de los métodos requeridos para el reconocimiento (componentes principales, redes neuronales, estadística, etc.). Incluso, en algunos sistemas, se requiere que el usuario identifique “manualmente” algún punto del rostro humano para iniciar el proceso computacional. El método propuesto en esta investigación es completamente automático y no requiere de conocer específicamente en dónde se encuentran los rasgos faciales de un determinado sujeto, para llevar a cabo el entrenamiento de la base de rostros y posteriormente el reconocimiento de un determinado sujeto. Asimismo, con la utilización del muestreo aleatorio, se requiere únicamente una pequeña cantidad de pixeles para llevar a cabo la aproximación polinomial en la fase de entrenamiento, al igual que en la fase de identificación. Lo anterior reditúa en un menor tiempo de procesamiento. Por otra parte, la utilización de un enfoque holístico, en el cual no se requiere de identificar específicamente rasgos faciales, permite reconocer un alto porcentaje de sujetos que presentan ciertas oclusiones faciales: barba, bigote, anteojos. Otros sistemas presentan mayor dificultad en realizar este tipo de reconocimiento e, inclusive, algunos no lo pueden realizar. Los resultados que se obtuvieron en el reconocimiento de rostros con la base ORL logró un 97.5% de precisión, lo cual se considera altamente satisfactorio. Sobre todo considerando que únicamente se utilizó una sola imagen por sujeto en la fase de entrenamiento (a diferencia de la mayoría de los métodos reportados en la literatura que requieren varias imágenes para el entrenamiento). El método es más robusto. En las siguientes fases de esta investigación, se realizarán más pruebas con otras bases de rostros (con mayor número de imágenes). Se está comenzando a probar con una base de rostros del MIT correspondiente a 400 sujetos. Se espera poder reconocer más de 3,000 rostros (que hasta la fecha es el mayor número de sujetos que se han reconocido mediante sistemas de este tipo). Asimismo, se plantearan algunas funciones multivariadas que combinen diversas señales obtenidas a partir de los rostros. Se pretende realizar un análisis matemático acerca de los procesos que subyacen en la caracterización de rostros a través de los diversos espectros. Se considerará la utilización de otros tipos de señales, además o en lugar de las tres ya experimentadas. Por otra parte, se considera que el sistema desarrollado mediante aproximación multivariada y algoritmos genéticos tiene altas posibilidades de ser aplicado a diversos tipos de reconocimiento de patrones: imágenes de diversos tipos, series de tiempo, reconocimiento de imágenes utilizadas en medicina, astronomía, etc. Lo anterior empezará a ser experimentado en el corto plazo con diversos tipos de reconocimiento de patrones.

REFERENCIAS [ 1] [ 2]

[ 3]

[ 4]

[ 5]

Awcock, G.W., Thomas, R., Applied Image Processing, McGraw-Hill, New York, 1996. Belhumeur, P., Hespanha, J., Kriegman, D., “Eigenfaces vs Fisherfaces: Recognition Using Class Specific Linear Projection”, IEEE Trans. Pattern recognition and Machine Intelligence, v. 19, No. 7, 1997, pp. 711-720Bruce, Vicki, Hancock, Peter J.B., Burton, A. Mike, “Human Face Perception and Identification”, en: Wechsler, Harry, Phillips, P. J., Bruce, Vicki, et. al. (Eds.), Face Recognition: From Theory to Applications, Springer/NATO, Germany, 1998. Brunelli, Roberto; Poggio, Tomaso; “Face Recognition: Features versus Templates”; IEEE Trans. on Pattern Recognition and Machine Intelligence; v. 15; No. 10; October; 1993; pp. 1042-1052 Brunelli, Roberto; Poggio, Tomaso; “Face Recognition through Geometrical Features”

[ 6]

[ 7] [ 8]

[ 9] [10] [11] [12] [13] [14]

[15] [16]

[17] [18] [19]

[20] [21] [22]

[23] [24]

[25]

[26] [27]

Cherkassky, Vladimir, “Inductive Principles for Learning from Data”, en: Wechsler, Harry, Phillips, P. J., Bruce, Vicki, et. al. (Eds.), Face Recognition: From Theory to Applications, Springer/NATO, Germany, 1998. Costen, N.P., Parker, D.M., Craw, I., “Effects of high-pass and low-pass spatial filtering on face identification”, Perception & Psychophysics, v. 58, 1996, pp. 602-612. Cox, Ingemar J, Ghosn, J., Joumana, Y., “Feature-Based Face Recognition Using Mixture-Distance"” NEC Research Institute, Technical Report 95-09, Princeton, NJ, October, 1995. Dailey, Matthew N., Cottrell, Garrison W., “Learning a Specialization for Face Recognition: The Effect of Spatial Frequency”, June, 1997, En Internet Gong, Shaogang, McKenna, Stephen J., Psarrou, Alexandra, Dynamic Vision: From Images to Face Recognition, Imperial College Press, London, 2000. González-Jiménez, Javier, Visión por Computador, Paraninfo, Madrid, 2000. Grotschel, Martin, Lovász, Lászlo, Combinatorial Optimization: A Survey, DIMACS Technical Report 93-29, Princeton University, May, 1993. En Internet. Hancock, P.J., Bruce, V., Burton, A.M., “Testing Principal Component Representation for faces”, Technical report, University of Stirling, UK, 1998, En Internet. Hancock, Peter J. B.; Burton, A. Mike; Bruce, Vicki; “Face processing: human perception and principal component analysis”; Memory and Cognition; vol. 24; No. 1; 1996; pp 2640 Huang, Ren-Jay, Detection Strategies for face Recognition Using Learning and Evolution, Ph. D. Dissertation, George Mason University, Abstract, 1998. Isaka, Satoru, “An Empirical Study of Facial Image Feature Extraction by Genetic Programming”, Report- OMRON Advanced Systems, Inc., Santa Clara, CA, 1997, En Internet Kanade, T., “Computer recognition of human faces”, en Interdisciplinary Systems Research, Birkhäuser Verlag, 1977 (40) Kaufman, G.J., Breeding, K.J., “The Automatic Recognition of Human Faces from Profile Kuri, Angel, “Prediction of Dynamic Systems through the Identification of Basic Patters in Multivariate Mathematical Landscapes Using a Genetic Algorithm”, CIC-IPN, México, 1998. Kuri, Angel, A Universal Eclectic Genetic Algorithm, Reporte, Centro de Investigación en Computación- IPN, 1998 Kuri, Angel, Un método de aprendizaje no supervisado usando algoritmos genéticos de orden, CIC-IPN, 1998 Kuri, Angel, “Pattern Recognition via a Genetic Algorithm”, en Guzmán, A., Shulcloper, J.R., Sossa, J.H., et al. (Comp.), II Taller Iberoamericano de Reconocimiento de PatronesLa Habana, Cuba, ICIMAF-CIC-IPN, 1997, pp. 345-356. Lanitis, A.; Hill, A.; Cootes, T. F.; Taylor, C. J.; “Locating Facial Features Using Genetic Algorithms”; Oxford; Liu, Chengjun, Wechsler, Harry, “Face Recognition Using Evolutionary Pursuit”, Fifth European Conference on Computer Vision, University of Freiburg, Germany, 1998, En Internet Liu, Chengjun, Wechsler, Harry, “Enhanced Fisher Linear Discriminant Models for Face Recognition”, 14th International Conference on Patter Recognition , Queensland, Australia, 1998, En Internet. Lucas, S. M.; “Face Recognition with the continuous n-tuple classifier”; Lucas, S. M.; “The continuous n-tuple classifier and its application to face recognition” en : www.essex.ac.uk/ sml/papers.html#Face

[28]

[29]

[30] [31]

[32] [33] [34] [35] [36]

[37] [38] [39]

Pinto-Elías, R., Sossa-Azuela, J.H., “Human Face Identification Using Invariant Descriptions and a Genetic Algorithm”, en Coelho H. (Ed.), Progress in Artificial Intelligence-IBERAMIA 98 (6th Ibero-American Conference on AI-Lisbon, Portugal), Springer, Lecture Notes in AI-No. 1484, Germany, 1998, pp.293-302. Rayón, Patricia, Sossa, J.H., “Localización de ojos utilizando información bidimensional de la imagen”, III Taller Iberoamericano de Reconocimiento de Patrones, CIC-IPN, México, Marzo, 1998, pp.359-367. Samaria, F.S., Face Recognition Using Hidden Markov Models, Ph. D. Trinity College, Cambridge University, 1994. En Internet. Samaria, F.S., Harter, A.C., “Parameterisation of a Stochastic Model for Human Face Identification”, Proceedings of the 2nd IEEE Workshop on Application of Computer Vision, Sarasota, Florida, December 1994. Schackleton, Mark, “Learned Deformable Templates for Object Recognition”, IEE Gas in Vision Colloquium, 1996, En Internet. Schwefel, Hans-Paul, Evolution and Optimum Seeking, Wiley, New York, 1995. Shavlik, Jude W., Dietterich, Thomas G. (Eds.), Readings in Machine Learning, Morgan Kaufmann, San Mateo, CA, 1990. Triola, Mario F., Estadística elemental, Prentice-Hall/Pearson, México, 2000. Turk, M.A., Pentland, A.P., “Face Recognition Using Eigenfaces”, Proceedings IEEE Computer Society Conference on Computer Vision and Pattern recognition, pp. 586-591, 1991. Turk, M., Pentland, A., “Eigenfaces for recognition”, Journal of Cognitive Neuroscience, 3 (1), pp. 71-86, 1991 Wechsler, Harry, Phillips, P. J., Bruce, Vicki, et. al. (Eds.), Face Recognition: From Theory to Applications, Springer/NATO, Germany, 1998. Wei, William W. S., Time Series Analysis: Univariate and Multivariate Methods, Addison-Wesley, Readwood, CA, 1990

Suggest Documents