HERENCIA DIFUSA. RESUMEN En los sistemas basados en marcos u objetos, los valores de los atributos

HERENCIA DIFUSA Ricardo Conejo Muñoz José Luis Pérez de la Cruz Rafael Morales Bueno Francisco A. Triguero Ruiz Universidad de Málaga. Facultad de Inf...
10 downloads 2 Views 106KB Size
HERENCIA DIFUSA Ricardo Conejo Muñoz José Luis Pérez de la Cruz Rafael Morales Bueno Francisco A. Triguero Ruiz Universidad de Málaga. Facultad de Informática Departamento de Lenguajes y Ciencias de la Computación E-Mail : [email protected]

RESUMEN En los sistemas basados en marcos u objetos, los valores de los atributos

pueden heredarse de padres a hijos (herencia descendente); de hijos a padres (herencia ascendente); o pasar de una colección de hermanos a otro (herencia colateral). Se define un modelo que integra dentro de la teoria de la posibilidad todos estos casos de herencia, considreando distribuciones de posibilidad para los valores para los atributos. Esto resulta especialmente útil para resolver las colisiones que se presentan en el caso de herencia descendente múltiple, tan problemático en el caso nítido. Este modelo puede integrase en sistemas basados en razonamiento aproximado difuso impreciso e incierto.

Palabras Clave: Fuzzy Inheritance; Approximate Reasoning; Fuzzy Expert Systems 1. Introducción Los sistemas de representación del conocimiento basados en marcos, cuyo origen se remonta a los trabajos de Minsky (Minsky 75), son ya una herramienta clásica dentro de la Inteligencia Artificial y la Ingeniería del Conocimiento. En los últimos años, se han impuesto también los sistemas de programación orientados a objetos, en los que desde otro punto de vista se emplean conceptos semejantes. En ambos casos es especialmente importante el papel que la herencia representa como vehículo de transmisión del conocimiento entre diversos marcos o clases. Las ventajas mas sobresalientes del mecanismo de herencia son dos: A) por una parte, al definir las propiedades de los objetos y conceptos más específicos en términos de otros más genéricos, permite una mejor y mas compacta estructuración de la información, reduciendo así el tamaño de la memoria necesaria para almacenar los hechos. De esta manera, la herencia se reduce a una cuestión de implementación (Brachman 83). B) por otra parte, implementa de manera directa y computacionalmente sencilla una forma de razonamiento por defecto no monótono, permitiendo asignar valores plausibles o probables en ausencia de información más específica. Es esta facilidad la que ha originado la conocida polémica suscitada por los marcos y redes semánticas en la comunidad de la IA a partir de las críticas logicistas (Hayes 79), (Brachman 85), que han dado lugar últimamente a formulaciones más teóricas del concepto de herencia, como las de (Touretzky 86) o (Etherington 88). Por otra parte, los formalismos de Inteligencia Artificial y las aplicaciones de Sistemas Expertos han tenido que afrontar el problema de la representación y el manejo de la información imprecisa e incierta. Uno de los paradigmas más utilizados para realizar esta tarea es el que se sigue de la teoría de conjuntos difusos, creada por Zadeh (Zadeh 65). El objeto del presente trabajo es plantear un modelo computacional de herencia aplicable a los sistemas basados en razonamiento aproximado difuso. En lo sucesivo y salvo que se especifique lo contrario, se supone que los valores de los atributos son conjuntos

difusos definidos sobre un dominio real. A efectos prácticos, consideraremos estos conjuntos como intervalos difusos definidos por funciones de pertenencia trapezoidales.

2. Herencia descendente Tradicionalmente suele entenderse por herencia la herencia descendente, es decir, la transmisión de valores o procedimientos de una clase padre (o antepasado) a una clase hijo (o descendiente); una de las pocas generalizaciones de esta idea viene dada por la de regularidad (Mili marco Jugador-de-Baloncesto y Rada 90). En el marco-padre se definen una serie { de atributos que le son propios, e igualmente se es-un Hombre; hace en el marco-hijo. Si se desea realizar una altura = 2.0; inferencia para la cual es necesario conocer algún } atributo del marco-hijo no definido en él, pero marco Juan definido en el marco-padre, se toma éste como { valor por defecto para el razonamiento, siempre y es-un Jugador-de-Baloncesto; cuando no sea posible deducir por otro camino un } valor contrario. En el caso nítido, estos valores son elementos de un cierto dominio. Razonemos sobre fig.1. el ejemplo de la figura 1., que intenta representar mediante un sistema de marcos el enunciado "los jugadores de baloncesto suelen ser altos": Si en el proceso de razonamiento es necesario realizar cualquier inferencia que tenga en consideración la terna (objeto-atributo-valor) correspondiente a la altura de Juan, por defecto se optaría por (Juan,altura,2.0). El razonamiento subyacente en esta herencia es el siguiente: La altura de todo Jugador-de-Baloncesto es 2.0 metros Juan es un Jugador-de-Baloncesto ____________________________________________ Luego la altura de Juan es 2.0 metros Esta formalizacón es inapropiada por varias razones: A) Por una parte, la premisa no es completamente cierta: no se ha dicho que todos los jugadores de baloncesto midan 2.0 metros.Asimismo, el valor nítido que se le atribuye a la altura no es el mas acorde con nuestro conocimiento, que se expresaría como un valor impreciso cercano a los 2.0 metros, es decir, el valor del atributo sería representado por su distribución de posibilidad en el dominio. B) Por otra parte, la conclusión no es segura, ya que se trata de un valor por defecto, y no de un valor asignado o calculado expresamente para JUAN, cuyo grado de pertenecia a la clase JUGADOR-DE-BALONCESTO puede ser incierto. Por todo ello, en un sistema de razonamiento aproximado difuso el Modus Ponens anterior debe reemplazarse por el Modus Ponens Generalizado, en el sentido de Zadeh (Zadeh 78). Así, el mecanismo de la herencia se reduciría a la deducción difusa, y sería fácilmente adaptable a los sistemas expertos de razonamiento aproximado difuso que incorporan el tratamiento conjunto de imprecisión e incertidumbre (vd. el cap. 3 de (Dubois y Prade 88), o de (López de Mántaras 90)). Centremos nuestra atención por el momento en la imprecisión, y por tanto supongamos que las premisas correspondientes al razonamiento deductivo asociado a la herencia son completamente ciertas, con lo que el valor heredado por el marco-hijo coincide exactamente con el valor del atributo del marco-padre. Generalizando, la solución que se plantea es sustituir el valor nítido de un atributo por una distribución de posibilidad definida sobre el dominio de variación de éste:

donde:

π p : X --> [0,1] π p(x) se interpreta como la posibilidad que tiene la variable p de tomar el valor x. π p(x) = 0, se interpreta como “p no puede tomar el valor x”, o “x es imposible” π p(x) = 1, se interpreta como “x es perfectamente posible”

Cuando no sepa nada acerca de los valores que puede tomar p, tomaremos: Åx•X πp(x) = 1 y si se sabe que p toma valores correspondientes a un conjunto difuso A, tomaremos: Åx•X πp(x) = µA(x) Se dice que una distribución de posibilidad está normalizada si al menos un valor del dominio es perfectamente posible para el atributo, en adelante supondremos que todas las distribuciones de posibilidad están normalizadas, es decir: ‚x•X πp(x) = 1 Se dice que una distribución de posibilidad π p es mas especifica que otra π’p si se cumple: Åx•X πp(x) ≤ π’p(x) Cuando esto ocurre, la información de π’p es redundante y puede ser desechada en favor de la mas especifica πp . Desde el punto de vista práctico, la herencia de atributos difusos, representados por distribuciones de posibilidad, tiene el inconveniente de ser, por lo general, poco especifica. Pensemos, volviendo al ejemplo anterior, que la existencia de algunos jugadores de baloncesto no muy altos hace perfectamente posibles valores no muy altos en la distribución de posibilidad, como veremos en el siguiente epígrafe. El valor de herencia por defecto, en este caso, sería poco informativo, disminuyendo así la efectividad del mecanismo. Por ello proponemos que en los sistemas basados en el conocimiento se utilicen dos valores difusos para los atributos sobre los que actue la herencia. A estos valores les denominaremos, “ámbito” y “prototipo”. El primero de ellos corresponde al valor definido anteriormente, como la distribución de posibilidad para cada elemento del dominio. El “prototipo” será el conjunto difuso µ T (x), correspondiente a un valor representativo o típico de la clase. Evidentemente ha de cumplirse la inclusión del prototipo en el ámbito.

()

()

µT x ≤ πp x

Usando este par de valores, ámbito y prototipo, podemos modificar el mecanismo de herencia de acuerdo con informaciones parciales difusas, y en general permitir el uso de los modificadores lingüísticos habituales,. como por ejemplo las que se siguen de las sentencias: (véase figura 2),: “Juan es un Jugador de Baloncesto” π JUAN.h(x) = πJUG-BAL.h(x) “Juan es el típico Jugador de Baloncesto” π JUAN.h’(x) = µT-JUG-BAL.h(x) “Juan es un Jugador de Baloncesto alto ” π JUG−BAL ( x ) − µ T−JUG−BAL ( x ), x ≥ x max π JUAN.h" ( x ) =  µ (x ) = 1 0, x < x max T−JUG−BAL max 

1

πJUG-BAL(x)

(ámbito)

µ T-JUG-BAL(x)

(prototipo) 1

X 2 Valor del atributo h del marco-padre fig.2.

πJUAN.h (x) (ámbito y prototipo) πJUAN.h' (x) (ámbito y prototipo) π JUAN.h" (x) (ámbito y prototipo)

X 2 Valores del atributo h del marco-hijo

Con este modelo se alcanza un mayor poder expresivo. Por ejemplo, al indicar que Juan es un Jugador de Baloncesto alto, el sistema será capaz de extraer el máximo de información de esta sentencia, ya que gracias al mecanismo de herencia y a la existencia de un prototipo, es capaz de determinar una distribución mas especifica. Ademas, es interesante resaltar que un mismo modificador lingüístico aplicado a un mismo dominio, puede dar lugar a interpretaciones diferentes de acuerdo con el contexto o ámbito en el que sea utilizado. Así, se recoge una característica pragmática inherente al lenguaje y al conocimiento humano: no es lo mismo decir que “Juan es un Jugador de Baloncesto alto”, que decir que “Juan es un japonés alto”. (Si Juan mide alrededor de 1.80 el primer enunciado no parece que sea cierto, pero si el segundo). Resumiendo, en ausencia de otra información el mecanismo de herencia nos proporciona el ámbito de los atributos del marco-hijo a partir del ámbito y el prototipo de los correspondientes atributos del marco-padre. El valor por defecto del prototipo correspondiente a un atributo del marco-hijo sobre el que no se tiene ninguna información se hará coincidir con su ámbito. De esta forma, en aquellos casos en los que la herencia se realice en cadena, el efecto será el mismo que si se realizara una herencia directa de la clase superior, sobre la que existe información completa.

3. Herencia ascendente Un caso menos tratado en relación con la herencia, aunque igualmente interesante, se presenta cuando los valores de una clase antepasado se determinan a partir de los valores de sus descendientes (inducción o herencia ascendente). Supongamos que deseamos obtener el valor del atributo del marco-padre h, a partir de los valores h1...hn, correspondientes a los atributos de los marcos-hijos. En los sistemas basados en atributos nítidos, la inducción puede realizarse de varias formas: - eligiendo un marco-hijo al azar, y considerándolo como representante del resto para la herencia ascendente - extrapolando el valor del atributo h a partir de valores estadísticos como la media, la moda o la mediana. Sin embargo, ninguno de estos métodos es enteramente satisfactorio, ya que se pierde información sobre la variabilidad del atributo. En el caso de que los atributos h 1...hn tomen valores difusos (definidos mediante ámbito y prototipo), el ámbito del atributo del marco-padre puede inferirse como la unión de los ámbitos de los atributos de los marcos-hijos, es decir, si los ámbitos de los atributos de los marcos-hijos vienen definidos por las distribuciones de posibilidad π1Kπ n , el ámbito del

atributo del marco-padre se obtiene, considerando la t-norma/t-conorma min/max, y aplicando su propiedad asociativa : π h ( x ) = max{π i ( x )} Esta definición es coherente con la idea intuitiva de posibilidad de que el atributo h tome el valor x, como la “envolvente” de los ámbitos de los atributos de los marcos descendientes de él. De esta forma, los razonamientos en los que intervenga el ámbito de los atributos del marco-padre serán menos específicos que si hubiésemos empleado cualquier representante de entre los marcos-hijos, pero, por el contrario tienen la ventaja de considerar todos los valores de la clase. En general, desde un punto de vista práctico, es deseable poder contar con un prototipo, o valor típico para un atributo. Esto ayuda a obtener conclusiones mas especificas y por tanto mas precisas. Al igual que en el caso nítido, el prototipo puede obtenerse tomando una instancia cualquiera, o bien, hallando un estadístico que sirva como representante. Para ello podemos emplear una media generalizada (Dyckhoff y Pedrycz 84), o una particularización de esta como la media armónica o media aritmética difusa definida de la siguiente forma: Sean N cantidades difusas Q1....QN definidas mediante sus correspondientes funciones de pertenencia µ1(w1)....µN(wN ). La media de estas cantidades se define como la cantidad difusa: N

∑ Qi Q=

i=1

N

Según el principio de extensión (Zadeh 75) la función de pertenencia asociada puede hallarse mediante la expresión: N

  µ Q ( x ) = sup min{µ i (w i )}  

∑ wi

i=1

N

  = x  

A diferencia de lo que ocurre con otras medias, si las funciones de pertenencia de las cantidades difusas se aproximan mediante funciones trapezoidales definidas por cuatro puntos, Q i = (α i ,β i , γ i ,δ i ) , se demuestra fácilmente que el valor de la media armónica de N cantidades difusas trapezoidales será otra cantidad difusa trapezoidal definida por N

(

Q = α,β, γ,δ

)

N

∑ αi

en donde α =

i=1

N

N

∑ βi

, β=

i=1

N

N

∑γi

, γ=

i=1

N

∑ δi

, δ=

i=1

N

El prototipo del atributo del marco-padre, o valor típico medio para este atributo puede ser obtenido como la media de los valores de los ámbitos de los atributos de los marcos-hijos. Además, según la definición realizada se cumple la necesaria inclusión del prototipo en el ámbito para el marco-padre, (vease Dyckhoff y Pedrycz 84),, ya que: µ T.h ( x ) = π h1Kh n ( x ) ≤ max{π i ( x )} = π h ( x )

La herencia ascendente supone en cierta forma un aprendizaje del sistema, ya que a partir de la información de que dispone abstrae ciertas conclusiones que pueden ser utilizadas posteriormente.

4. Herencia colateral Establecida la herencia descendente y ascendente, es fácilmente implementable la herencia colateral, según el esquema de la figura 3., mediante la composición de la herencia ascendente y descendente. Esto proporciona al sistema un tipo de razonamiento por analogía. Efectivamente, si conocemos los valores de los atributos h1...hn para N instancias o marcos herederos de un mismo marco, podemos aproximar por defecto el ámbito y el prototipo del atributo hc de un nuevo marco o instancia heredero del mismo padre, a partir del ámbito y prototipo del correspondiente atributo paterno h.

h

h 1 ......

hn

hc

fig.3.

En la herencia colateral tiene especial relevancia el uso de modificadores lingüísticos que comparan el individuo con otros de su misma clase. De esta forma se puede modular el valor de herencia por defecto en condiciones en las que no sepamos exactamente cuál es el valor del atributo, pero tengamos una indicación vaga sobre su relación con los demás. Sentencias como “La altura de Juan es la normal para un jugador de baloncesto”, “Juan es bajo para ser un jugador de baloncesto”, “Juan es un poco mas alto que la media” contrastan con la escueta sentencia “Juan es un jugador de baloncesto”. Por tanto, aunque en ninguno de los tres casos se pueda aplicar un valor de altura por defecto completamente exacto, con el mecanismo de herencia controlado por ámbito y prototipo difusos podemos establecer distribuciones mas especificas si contamos con mayor información.

5. Herencia descendente múltiple La herencia múltiple en los sistemas de IA ha suscitado fundamentalmente dos críticas desde el punto de vista logicista: A) El valor heredado depende estrechamente del algoritmo particular que implementa la herencia, y de los datos concretos a los que se aplica. En efecto, la opción mas frecuente es establecer una prioridad entre los antecesores, eligiendo el valor por defecto correspondiente al primero de ellos según un orden estática o dinámicamente determinado. B) Es imposible combinar las propiedades heredadas por diferentes caminos. Consideremos por ejemplo el (retorcido) ejemplo de (Patel-Schneider 91): sean las dos clases ELEFANTES-CON-MAS-DE-3-PATAS y ELEFANTES-CON-MENOS-DE-5-PATAS. Si creamos una clase descendiente común de ambas, los sistemas habituales no serán capaces de sintetizar el valor concreto que ha de tener el atributo "número de patas" En el caso difuso, habiendo definido los atributos mediante un ámbito y un prototipo, la herencia múltiple no plantea ninguno de los dos problemas, ya que no se establece un único valor para una clase u objeto, sino una distribución de posibilidad para cada uno de los valores que pueden tomar los atributos de los descendientes (ámbito). La herencia múltiple se resuelve en función del principio de mínima especificidad (Dubois y Prade 86), (López de Mántaras 91), que establece que, en ausencia de otra información, debemos ser tan imprecisos como sea posible. En este caso, el principio se enunciará así:

Cuando disponemos de información procedente de varias fuentes que merecen total confianza, la distribución de posibilidad resultante es la menos especifica de las distribuciones que satisface las restricciones impuestas por todas las fuentes, es decir: ∀x ∈X

K(

)

π p ( x ) = sup w ∈[0,1] w ≤ π ip ( x ) i=1 n

Por tanto, en el caso general, el valor de herencia se obtiene mediante mediante la intersección de los ámbitos de los valores de los atributos de los marcos-padres. Haciendo uso del prototipo y sus modificadores podemos construir distribuciones de posibilidad mas especificas heredadas por defecto, como puede verse en el siguiente ejemplo que aparece en las fig.4. Pueden presentarse situaciones en los que al aplicar el mecanismo de herencia múltiple obtengamos una distribución de posibilidad nula, o que no este normalizada. Estas situaciones denotan una incoherencia en nuestra base de conocimientos, ya que indicarían que ningún valor es completamente posible para los descendientes comunes de ciertos marcos, o al menos, que no lo son bajo las circunstancias que se indican en la base de conocimientos.

6. Conclusión

marco Jugador-de-Baloncesto { es-un Hombre; altura = (1.7,1.9,2.2,2.4); } marco Japones { es-un Hombre; altura = [ambito (1.4,1.6,2.0,2.2) prototipo (1.5,1.6,1.7,1.8)]; } marco Tanaka { es-un Jugador-de-Baloncesto; es-un Japones (altura > prototipo); }

π TANAKA.h (x)

1

πJUG-BAL.h (x) µ>T-JAP.h (x)

En los sistemas de razonamiento aproximado basados en conjuntos y lógica difusa, un mecanismo de herencia entre marcos con atributos 1.6 1.8 2.2 2 X 2.4 difusos es fácilmente implementable, y fig.4. computacionalmente eficiente. El valor difuso al que denominamos ámbito, asociado a un atributo, se interpreta como la distribución de posibilidad para cada uno de los valores nítidos que puede tomar dicho atributo. El razonamiento por defecto clásico en los mecanismos de herencia queda así sustituido por un razonamiento impreciso sobre todos los valores posibles. Como ventaja adicional, la herencia múltiple no produce conflicto entre distintos valores por defecto, permitiendo la detección de incoherencias en la base de conocimientos. Por otra parte, si el sistema de razonamiento permite el tratamiento conjunto de imprecisión e incertidumbre, se puede controlar el grado de incertidumbre introducido al calificar un objeto como perteneciente a una determinada clase, usando para ello el mismo algoritmo de cálculo del Modus Ponens Generalizado, utilizado por el propio motor de inferencias. El uso de prototipos mejora el rendimiento práctico del sistema incorporando el máximo de información disponible sobre un determinado objeto y permitiendo el uso de modificadores lingüísticos incorporables fácilmente a la sintaxis de un lenguaje de representación del conocimiento basado en marcos.

Referencias Brachman,R.J. (1983): What IS-A is and isn´t: an analysis of taxonomic links in semantic networks. Computer 16(10) 30-36. Brachman,R.J. (1985): "I lied about the trees", or defaults and definitions in knowledge representation. AI MAgazine 6(3) 80-93. Dubois, D. y H. Prade (1986): The principium of minimun specificity as a basis for evidential reasoning. Proc. Intl. Conf. on Information Processing and Management of Uncertainty in Knowledge-Based Systems, Paris. Dyckhoff, H. y W. Pedrycz (1984): Generalizad means as a model of compensative conectives. Fuzzy Sets and Systems 14 143-154. Etherington, D,W, (1988): Reasoning with Incomplete Information. Londres, Pitman. Hayes,P. (1979): The logic of frames. En Metzing, D. (ed.): Frame Conceptions and text understanding, Berlín, Walter de Gruyter. Reimpreso en Brachman,R.J. y H.J. Levesque: Readings in Knowledge Representation, San Mateo, Ca., Morgan Kaufman, 1985. López de Mántaras,R. (1990): Approximate Reasoning Models. Chichester, Ellis Horwood. Mili, H. y R. Rada (1990): Inheritance Generalizad to Fuzzy Regularity. IEEE Trans. on Systems, Man and Cybernetics 20(5) 1184-1198. Minsky, M. (1975): A framework for representing knowledge. Memo 306 MIT AI Lab. Reimpreso en Haugeland,J.(ed.): Mind Design, Cambridge, Ma., MIT Press, 1981. Patel-Schneider,P.F. (1991): What´s Inheritance got to do with Knowledge Representation. En Lenzerini et al. (eds.): Inheritance Hierarchies in Knowledge Representation and Programming Languages, Chichester, Wiley. Sombé, L. (1990): Reasoning under incomplete information in Artificial Intelligence. Special issue of the International Journal of Intelligent Systems 5(4) Touretzky, D.S. (1986): The Mathematics of Inheritance Systems. Londres, Pitman. Zadeh, L. (1965): Fuzzy Sets. Information & Control 8 338-353. Zadeh, L. (1975): The concept of a linguistic variable and its application to approximate reasoning. Information Sciences 8 199-249, 8 301-357, 9 43-80. Zadeh, L. (1978): PRUF: A meaning representation language for natural languages. International Journal of Man-Machine Studies 10 395-460 .