Redes Bayesianas y su uso en el

UNIVERSIDAD VERACRUZANA ´ FACULTAD DE MATEMATICAS Redes Bayesianas y su uso en el Diagn´ ostico m´ edico TESIS que para aprobar la Experiencia Educat...
5 downloads 0 Views 732KB Size
UNIVERSIDAD VERACRUZANA ´ FACULTAD DE MATEMATICAS

Redes Bayesianas y su uso en el Diagn´ ostico m´ edico TESIS que para aprobar la Experiencia Educativa Experiencia Recepcional

Correspondiente al Plan de Estudios de la Licenciatura en Matem´ aticas P R E S E N T A:

Adriana Laura L´ opez Lobato DIRECTORES DE TESIS:

Dr. Francisco Sergio Salem Silva Dra. Juana Elisa Escalante Vega

Junio del a˜ no 2014

Xalapa, Ver. M´exico

´Indice general Introducci´ on

IV

1. Preliminares 1.1. Conceptos de Teor´ıa de Gr´aficas . . . . . . . . . . . . . . . . . . . . . 1.1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2. Estructura de una gr´afica . . . . . . . . . . . . . . . . . . . . 1.1.3. Gr´aficas dirigidas . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.4. Gr´aficas ac´ıclicas dirigidas (DAG) . . . . . . . . . . . . . . . . 1.1.5. Separaci´on gr´afica en una DAG . . . . . . . . . . . . . . . . . 1.1.6. Manta de Markov . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Conceptos de Teor´ıa de Probabilidad . . . . . . . . . . . . . . . . . . 1.2.1. La probabilidad como una estructura de razonamiento . . . . 1.2.2. Principios b´asicos . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3. Probabilidad condicional e Independencia . . . . . . . . . . . 1.2.4. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.5. Variables aleatorias y distribuciones de probabilidad conjunta 1.3. Modelos gr´aficos probabil´ısticos . . . . . . . . . . . . . . . . . . . . .

1 1 1 2 3 4 4 6 7 7 7 8 9 9 10

2. Redes Bayesianas 2.1. Definici´on formal y propiedades . . . . . . . . . . . . . . 2.1.1. Condici´on de Markov . . . . . . . . . . . . . . . . 2.1.2. Razonamiento Bayesiano . . . . . . . . . . . . . . 2.2. Redes Bayesianas en el diagn´ostico m´edico . . . . . . . . 2.2.1. Diagn´ostico m´edico . . . . . . . . . . . . . . . . . 2.2.2. Ejemplo de diagn´ostico mediante pruebas cl´ınicas 2.2.3. Ejemplo de diagn´ostico m´edico . . . . . . . . . .

. . . . . . .

12 13 13 14 15 15 16 18

3. Inferencia Bayesiana por medio de ´ arboles de uni´ on 3.1. Estructuras gr´aficas de inter´es . . . . . . . . . . . . . . . . . . . . . .

23 23

ii

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

3.2. 3.3. 3.4. 3.5.

3.1.1. Gr´afica moral . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2. Gr´afica triangular . . . . . . . . . . . . . . . . . . . . . . . . . ´ Arboles de uni´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inferencia en los ´arboles de uni´on . . . . . . . . . . . . . . . . . . . . 3.3.1. Consistencia local de los ´arboles de uni´on . . . . . . . . . . . . Ejemplo de inferencia bayesiana mediante el ´arbol de uni´on . . . . . . 3.4.1. Ejemplo Bronquitis-C´ancer Pulmonar . . . . . . . . . . . . . . Uso del paquete gRain para realizar Inferencia Bayesiana . . . . . . . 3.5.1. C´odigo para “Diagn´ostico mediante pruebas cl´ınicas” . . . . . 3.5.2. C´odigo para “Diagn´ostico m´edico” . . . . . . . . . . . . . . . 3.5.3. C´odigo para “Bronquitis - C´ancer Pulmonar” . . . . . . . . . 3.5.4. C´odigo para obtener gr´aficas morales, triangulares y a´rboles de uni´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24 24 25 26 27 32 32 40 42 43 44 46

Conclusiones

48

Bibliograf´ıa

50

Introducci´ on El diagn´ostico m´edico es un ejemplo de toma de decisiones, ya que se requiere tener en cuenta varios aspectos como el historial cl´ınico, la exploraci´on f´ısica (o s´ıntomas del paciente) y exploraciones complementarias (es decir pruebas diagn´osticas o cl´ınicas) para determinar qu´e enfermedad padece una persona [10]. Las decisiones m´edicas son dif´ıciles de tomar y el resultado del proceso de decisi´on tiene implicaciones de largo alcance sobre el bienestar o incluso la propia vida de los pacientes. En la actualidad la medicina utiliza innumerables adelantos que involucran el uso intensivo de alta tecnolog´ıa como el diagn´ostico por im´agenes, avances quir´ urgicos como la laparoscopia, rob´otica y farmac´euticos [7]. Existen herramientas que tienen el potencial de hacer una diferencia en la medicina. Especialmente los m´etodos que aprovechan los datos disponibles, la experiencia cl´ınica y que al mismo tiempo tienen como base fundamentos s´olidos [2]. Una de estas herramientas son las Redes Bayesianas, que son especialmente adecuadas para el modelado de conocimiento incierto, ya que son capaces de describir de manera concisa un problema modelado a trav´es de un conjunto de variables relacionadas entre s´ı, adem´as de que se puede actualizar la informaci´on que se tiene acerca de las variables del problema, cuando se conoce el valor que toma alguna de ellas para casos concretos [6]. En el campo de la Medicina hay una gran cantidad de datos que se pueden utilizar para diagnosticar un paciente [8]. El objetivo de este trabajo es mostrar c´omo se realizan dichos diagn´osticos mediante el uso de Redes Bayesianas como modelos gr´aficos probabil´ısticos que involucren el historial del paciente, los s´ıntomas y las pruebas diagn´osticas para la toma de decisiones.

iv

La organizaci´on del trabajo es la siguiente: Cap´ıtulo 1: Revisi´on de los conceptos sobre Teor´ıa de Gr´aficas y Teor´ıa de la Probabilidad que son necesarios para comprender y utilizar las Redes Bayesianas. Cap´ıtulo 2: Discusi´on de las definiciones y propiedades esenciales de las Redes Bayesianas y algunos elementos del protocolo del diagn´ostico. En este cap´ıtulo se dar´an dos ejemplos de las representaciones m´as intuitivas del diagn´ostico m´edico: las pruebas cl´ınicas y el diagn´ostico entre dos enfermedades con un mismo s´ıntoma. Cap´ıtulo 3: Explicaci´on de un modelo de Inferencia Bayesiana mediante a´rboles de uni´on que son una extensi´on de las Redes de Bayes, ya que se basan en la estructura de las mismas y las relaciones de dependencia entre las variables observadas para facilitar la realizaci´on de los c´alculos deseados. Los a´rboles de uni´on utilizan una estructura gr´afica-probabil´ıstica secundaria, que ser´a descrita en este cap´ıtulo. Se dar´a soluci´on a un ejemplo de diagn´ostico en el que intervienen historial m´edico, s´ıntomas y pruebas cl´ınicas, adem´as se incluye un apartado que explica la Inferencia Bayesiana en el software libre R, donde se muestran los c´odigos y las soluciones computacionales de los ejemplos vistos en este trabajo.

Cap´ıtulo 1 Preliminares Para poder utilizar las Redes Bayesiana en problemas concretos, se requiere del conocimiento de campos como la Teor´ıa de la Probabilidad y la Teor´ıa de Gr´aficas. En este cap´ıtulo se dar´a una peque˜ na introducci´on a la teor´ıa y propiedades b´asicas de las gr´aficas, as´ı como la terminolog´ıa y bases de Probabilidad, que son fundamentales para la descripci´on del modelo de estudio de este trabajo.

1.1.

Conceptos de Teor´ıa de Gr´ aficas

En esta secci´on se definen los conceptos b´asicos de una gr´afica, as´ı como algunas propiedades de las mismas, con la finalidad de apoyar algunos resultados e inferencias posteriores.

1.1.1.

Definiciones

Definici´ on 1.1.1 (Gr´afica). Una gr´afica es un objeto matem´atico definido como un par G = (V, A) , donde V = {V1 , V2 , ..., Vn } es un conjunto finito y no vac´ıo y A un conjunto finito, que puede ser vac´ıo. A los elementos de V se les llamar´a v´ertices o nodos, a los elementos de A aristas o arcos, descritos como a = (u, v) que conectan a un par de nodos u, v ∈ V . Definici´ on 1.1.2 (V´ertices adyacentes). Decimos que los v´ertices u y v en V de la gr´afica G = (V, A) son adyacentes si est´an conectados mediante una arista a = (u, v) en A. Dependiendo de la relaci´on de orden que existe entre los nodos de una gr´afica, se puede hablar de dos tipos de arcos: dirigidos (de u a v si el arco (u, v) es un par ordenado) y no dirigidos (si el arco (u, v) no es ordenado), se representan u → v y 1

CAP´ITULO 1

2

u − v, respectivamente. Esta clasificaci´on de los arcos como dirigidos o no dirigidos induce una clasificaci´on de las gr´aficas: Definici´ on 1.1.3 (Gr´aficas dirigidas, no dirigidas o mixtas). Una gr´afica que tiene todas sus aristas dirigidas se define como gr´afica dirigida, si todas las aristas de la misma son no dirigidas, se denominar´a gr´afica no dirigida y cuando tiene aristas dirigidas y no dirigidas, se dice que la gr´afica es mixta.

A

B D

E

D B

E C

C (a) Gr´ afica dirigida

A (b) Gr´ afica no dirigida

(c) Gr´ afica mixta

Figura 1.1: Tipos de gr´aficas En la figura 1.1 aparece una gr´afica dirigida, una no dirigida y una mixta. En la gr´afica dirigida 1.1a se puede observar un orden entre los v´ertices, mientras que no existe orden aparente entre los v´ertices de los otros dos tipos de gr´aficas. Es por esta raz´on que s´olo se utilizar´a la teor´ıa perteneciente a las gr´aficas dirigidas para el estudio de las Redes Bayesianas.

1.1.2.

Estructura de una gr´ afica

La estructura de una gr´afica es la configuraci´on en que se encuentran las aristas de la misma. Al estudiarla se pueden encontrar propiedades interesantes y de suma importancia, como los caminos o trayectorias. Definici´ on 1.1.4 (Camino). Sea G = (V, A) una gr´afica. Se dice que una sucesi´on de aristas w = a1 , a2 , ..., an es un camino en G si w ⊆ A y si ai = (vi−1 , vi ), entonces vi es adyacente a vi+1 . Observaci´ on 1.1. Un camino tambi´en puede ser expresado en t´erminos de sus v´ertices, por ejemplo w = a1 , a2 , ..., an es expresado como w = v0 − v1 − ... − vn si ai = (vi−1 , vi ) para i = 1, ..., n.

CAP´ITULO 1

3

Si se busca un camino entre dos nodos v1 , vn se tendr´a una sucesi´on (v1 , v2 , ..., vn ) donde las aristas que conectan a los v´ertices son asumidos como u ´ nicos, por lo que el camino pasa por cada arista s´olo una vez. Definici´ on 1.1.5 (Ciclo). Se dice que un camino w = v0 − v1 − ... − vn es un ciclo si el v´ertice inicial del camino coincide con el v´ertice final del mismo, es decir, vn = v0 .

1.1.3.

Gr´ aficas dirigidas

En las gr´aficas dirigidas existen agrupaciones y relaciones entre los v´ertices que definen conjuntos espec´ıficos como los que a continuaci´on se muestran. Definici´ on 1.1.6 (Ancestro,descendiente). Un ancestro del v´ertice vi es cualquier v´ertice que tiene un camino hasta vi . Un descendiente de vi es cualquier v´ertice al que se puede ir desde vi . A los conjuntos de ancestros y descendientes de vi se le denotar´a como an(vi ) y de(vi ), respectivamente. Definici´ on 1.1.7 (Padres, hijos, familia). Si el camino entre los v´ertices vi y vj est´a compuesto por solamente una arista (vi → vj ) se dice que vi es padre de vj , y se denota por pa(vj ) = vi , y vj es hijo de vi . Se llamar´a familia del nodo vi , f a(vi ), al conjunto conformado por el nodo vi y sus padres pa(vi ), es decir f a(vi ) = vi ∪ pa(vi ).

A B

C F G

D E

H

I Figura 1.2: Gr´afica dirigida

Por ejemplo, en la gr´afica dirigida de la figura 1.2 se tiene que: an(F ) = {A, C} de(F ) = {G, H, I} pa(I) = {E, G}

Los hijos de B son los v´ertices D y E f a(I) = {I, E, G}

CAP´ITULO 1

4

Observaci´ on 1.2. En una gr´afica dirigida G = (V, A) se puede definir al conjunto de v´ertices que no son ancestros de un v´ertice vi como nas(vi ) = V − (as(vi ) ∪ vi ) y al conjunto de los no descencientes de vi como nde(vi ) = V − (de(vi ) ∪ vi ).

1.1.4.

Gr´ aficas ac´ıclicas dirigidas (DAG)

Definici´ on 1.1.8 (Gr´afica ac´ıclica dirigida). Se dice que una gr´afica dirigida G = (V, A) es ac´ıclica cuando no contiene ning´ un ciclo. En la figura 1.3 se muestra una gr´afica ac´ıclida dirigida. Las gr´aficas con esta estructura son b´asicas para poder especificar un problema con incertidumbre en el cual se relacionen las variables de manera causal [5].

A B D

C E

Figura 1.3: Gr´afica ac´ıclica dirigida (DAG)

1.1.5.

Separaci´ on gr´ afica en una DAG

En las gr´aficas ac´ıclicas dirigidas (DAG) es fundamental analizar los tipos de relaciones y conexiones que aparecen entre sus v´ertices. 1. Conexi´on en serie: Es cuando un v´ertice es padre de otro que a su vez es padre de un tercero. En la gr´afica dirigida 1.4a se puede ver dicha conexi´on. 2. Conexi´on divergente: Es cuando un v´ertice es padre de un conjunto de v´ertices no conectados entre s´ı. Vease la gr´afica 1.4b. 3. Conexi´on convergente: Es cuando un conjunto de v´ertices no conectados entre s´ı son padres de un v´ertice espec´ıfico. En la gr´afica 1.4c se presenta una conexi´on divergente.

CAP´ITULO 1

5

A

A

A

B

B C (a) Conexi´ on en serie

B

C

(b) Conexi´on divergente

C (c) Conexi´on convergente

Figura 1.4: Conexiones entre los v´ertices de una DAG La separaci´on gr´afica en una DAG, llamada d-separaci´on, es de suma importancia ya que es la que provee un camino conveniente para representar la dependencia e independencia entre las variables y as´ı poder encontrar las relaciones de probabilidad que se presentan entre las variables de la gr´afica, convergiendo en la condici´on de Markov para Redes Bayesianas, que se presentar´a en la secci´on 2.1.1 [15]. Definici´ on 1.1.9 (d-separaci´on). Sean X,Y y Z tres conjuntos disjuntos de v´ertices de una DAG G = (V, A) . Se dice que Z d-separa X e Y , y se denota como X⊥G Y |Z, si para cualquier camino entre un v´ertice de X y un v´ertice de Y existe un v´ertice v que satisface una de las siguientes dos condiciones: v tiene aristas convergentes, es decir, existen dos arcos apuntando a v, y ni v o sus descendientes est´an en Z. v se encuentra en Z y no tiene aristas convergentes. En la figura 1.5 se muestra un DAG G = (V, A) , donde se pueden ver algunas relaciones de independencia condicionada entre las variables. As´ı se tiene que:

X

Y Z

V

W

Figura 1.5: DAG G con relaciones de independencia condicionada

CAP´ITULO 1

6

X⊥G Y | ∅: X y Y aparecen en una conexi´on convergente y el u ´ nico camino entre X y Y es X − Z − Y y ni Z ni sus descencientes est´an en ∅. V ⊥G W | Z: V y W aparecen en una conexi´on divergente donde el u ´ nico camino entre V y W es V − Z − W , siendo Z el padre de V y W en la conexi´on de la DAG. (X ∪ Y )⊥G (V ∪ W ) | Z: X⊥G V | Z, X⊥G W | Z, Y ⊥G V | Z y Y ⊥G W | Z. En los cuatro casos la conexi´on es en serie y en todos los casos Z es el u ´ nico v´ertice que aparece en el camino entre X y V , X y W , Y y V y Y y W , siendo v´ertice intermedio para cualquiera de los caminos mostrados.

1.1.6.

Manta de Markov

Definici´ on 1.1.10 (Manta de Markov). La manta de Markov de un v´ertice v es el conjunto conformado por los padres de v, los hijos de v y los v´ertices que comparten un hijo con v.

C

B

D

A

E

F Figura 1.6: DAG G

La manta de Markov ayuda a encontrar d-separaciones de una DAG ya que es el conjunto m´ınimo de v´ertices que d-separa al nodo V de todos los dem´as nodos de la red [19], por ejemplo consid´erese la DAG de la figura 1.6. La manta de Markov del v´ertice A es el conjunto S = {B, C, D, F }, entonces A⊥G E | S.

CAP´ITULO 1

1.2.

7

Conceptos de Teor´ıa de Probabilidad

En esta secci´on se dar´an, de manera resumida, los conceptos pertenecientes a la Teor´ıa de la probabilidad que, con los de Teor´ıa de Gr´aficas, permitir´an tener una idea clara de lo que es una Red Bayesiana y c´omo interpretarlas.

1.2.1.

La probabilidad como una estructura de razonamiento

El t´ermino probable es el grado de creencia que tiene el investigador de que cierto hecho ocurra. Si no se sabe si se ha producido el hecho s´olo se le puede asignar un grado de certeza a la ocurrencia del mismo [15]. Para no hablar vagamente sobre las creencia fuertes o d´ebiles de que un hecho ocurra se asignan valores num´ericos a dichos grados de creencia mediane reglas bien definidas. Estas reglas son las llamadas “Leyes de la probabilidad”. Al comprenderlas ser´an utilizadas para predecir las consecuencias l´ogicas de proposiciones y dar´an respuesta a preguntas como: ¿Cu´ales son las consecuencias respecto al grado de creencia de A si asumimos que el grado de creencia de B es alto o bajo?, ¿C´omo cambia el grado de creencia de A si es m´as bajo el grado de creencia de B?. Se pretende seguir la premisa: “Realmente la probabilidad no se trata s´olo de n´ umeros, es sobre la estructura del razonamiento”. Glenn Shafer Despu´es de comprender estos conceptos se podr´an realizar inferencias l´ogicas en el tema que nos compete: el diagn´ostico m´edico.

1.2.2.

Principios b´ asicos

La probabilidad comienza con un experimento aleatorio [3]: Definici´ on 1.2.1 (Experimento aleatorio). Un experimento aleatorio es cualquier actividad, proceso o experimento en el cual el resultado es incierto. Dado un experimento aleatorio se tiene su espacio muestral definido como: Definici´ on 1.2.2 (Espacio muestral (Ω)). El espacio muestral es el conjunto de posibles resultados del experimento aleatorio. En los conceptos de probabilidad que se dar´an a continuaci´on se utilizar´a un espacio discreto y finito, as´ı que en el caso de un espacio muestral discreto y finito se denota como evento a:

CAP´ITULO 1

8

Definici´ on 1.2.3 (Evento). Cualquier subconjunto del espacio muestral Ω. Desde una forma puramente matem´atica, una probabilidad es un n´ umero entre 0 y 1 que se le asigna a un evento mediante una funci´on de probabilidad. Definici´ on 1.2.4 (Funci´on de probabilidad). Dado un experimento aleatorio con un espacio muestral discreto, una funci´on de probabilidad P es una funci´on en Ω con las siguientes propiedades: i) 0P ≤ P (ω) ≤ 1, para todo ω ∈ Ω ii) ω∈Ω P (ω) = 1 P iii) Para todos los eventos A ⊆ Ω, P (A) = ω∈A P (ω) Definici´ on 1.2.5 (Espacio de probabilidad). Un espacio de probabilidad consta de dos elementos (Ω, P ) donde Ω es el espacio muestral y P es una funci´on de probabilidad.

1.2.3.

Probabilidad condicional e Independencia

Si A es un evento de inter´es, cuya probabilidad es P (A), y se agrega la informaci´on adicional de que un evento B ha ocurrido, ¿Cu´al es la nueva opini´on sobre la posibilidad de que ocurra A? Definici´ on 1.2.6 (Probabilidad condicional). Para los eventos A y B, tal que P (B) 6= 0, la probabilidad de A dado B es: P (A | B) =

P (A, B) P (B)

Observaci´ on 1.3. P (A, B) = P (A ∩ B) Definici´ on 1.2.7 (Independencia). Dos eventos A y B son independientes si se cumple que P (A, B) = P (A)P (B). Cuando esto sucede escribimos IP (A, B). Observaci´ on 1.4. Equivalentemente, A y B son independientes si P (A | B) = P (A) con P (A) 6= 0 y P (B) 6= 0. Los eventos que no son independientes se dice que son dependientes.

CAP´ITULO 1

9

TEOREMA 1.2.1 (Regla de la multiplicaci´on). Sup´ongase que B1 , B2 , ..., Bn son eventos en el mismo espacio de probabilidad (Ω, P ), entonces P (B1 , B2 , ..., Bn ) = P (B1 )P (B2 | B1 )P (B3 | B1 , B2 )...P (Bn | B1 , B2 , ..., Bn−1 ) Suponiendo que P (B1 , B2 , ..., Bi−1 ) > 0 para 0 ≤ i ≤ n Definici´ on 1.2.8 (Partici´on). Se dice que B1 , B2 , ..., Bn forman una partici´on de Ω si Bi ∩ Bj = ∅ si i 6= j y ∪ni=1 Bi = Ω. Los eventos que conforman a una partici´on son llamados mutuamente exclusivos y exhaustivos. TEOREMA 1.2.2 (Ley de probabilidad total). Si A es cualquier evento y B1 , B2 , ..., Bn es una partici´on del espacio muestral Ω, entonces P (A) =

n X

P (A | Bi )P (Bi )

i=1

.

1.2.4.

Teorema de Bayes

Se utiliza el Teorema de Bayes cuando no se puede determinar la probabilidad condicional de inter´es directamente, debido a que en algunas aplicaciones el espacio de probabilidad no se desarrolla en el orden adecuado a nuestros intereses [4]. TEOREMA 1.2.3 (Teorema de Bayes). Si A es cualquier evento con probabilidad P (A) > 0 y B1 , B2 , ..., Bn es una partici´on tal que P (Bi ) 6= 0 ∀i (1 ≤ i ≤ n), entonces P (Bj | A) =

P (A | Bj )P (Bj ) P (A | Bj )P (Bj ) = Pn P (A) i=1 P (A | Bi )P (Bi )

.

1.2.5.

Variables aleatorias y distribuciones de probabilidad conjunta

Definici´ on 1.2.9 (Variable aleatoria). Dado un espacio de probabilidad (Ω, P ) una variable aleatoria es una funci´on f : Ω → R la cual asigna a cada elemento de Ω un valor num´erico.

CAP´ITULO 1

10

Al conjunto de valores o estados que la variable aleatoria X puede asumir se le llama espacio de X. Para una variable aleatoria X se utiliza X = x para denotar al conjunto de todos los elementos e ∈ Ω en los que X toma el valor de x. Una variable aleatoria induce una funci´on de probabilidad PX (x) = P (X = x) la cual es llamada distribuci´on de probabilidad de la variable aleatoria X. Definici´ on 1.2.10 (Distribuci´on de probabilidad conjunta). Dadas dos variables aleatorias X y Y , definidas en el mismo espacio muestral Ω, se define la distribuci´on de probabilidad conjunta de X y Y como: P (x, y) = P (X = x, Y = y) Observaci´ on 1.5. Dada una distribuci´on de probabilidad conjunta de X y Y se puede calcular la distribuci´ on de probabilidad marginal de X X P (X = x, Y = y) P (x) = P (X = x) = y

1.3.

Modelos gr´ aficos probabil´ısticos

Hasta este momento se han introducido definiciones b´asicas de Teor´ıa de Gr´aficas y Teor´ıa de Probabilidad. En esta secci´on se busca describir lo que es un modelo gr´afico probabil´ıstico, que ser´a de ayuda para describir y elaborar Redes Bayesianas en el cap´ıtulo 2. En un modelo gr´afico probabil´ıstico intervienen dos componentes importantes relativas a la informaci´on de la que se dispone: informaci´on cualitativa e informaci´on cuantitativa [11]. La informaci´on cualitativa del modelo contiene informaci´on asociada a las relaciones de dependencia entre los v´ertices de la gr´afica que representa al problema, apoy´andose en la Teor´ıa de Gr´aficas. La informaci´on cuantitativa es la informaci´on relativa a la distribuci´on de probabilidad de las variables del problema. Dichas distribuciones pueden ser estimadas a partir de un conjunto de datos o mediante la informaci´on que los expertos tienen acerca del problema de estudio. En consecuencia, contando con la informaci´on cualitativa y cuantitativa del problema se puede definir el modelo asociado al mismo, esto representa un nexo entre la Teor´ıa de Gr´aficas y la Teor´ıa de la Probabilidad: Definici´ on 1.3.1 (Modelo gr´afico probabil´ıstico). Un modelo gr´afico probabil´ıstico es un par (G, P ) donde G es la gr´afica que representa la informaci´on cualitativa del

CAP´ITULO 1

11

problema, siendo los v´ertices las variables del modelo y las aristas las relaciones de dependencia entre dichas variables; y P es el conjunto de distribuciones, que pueden ser condicionadas, mediante las cuales se obtiene la distribuci´on de probabilidad conjunta del problema. Observaci´ on 1.6. En este trabajo los modelos utilizar´an variables discretas. Los modelos gr´afico probabil´ısticos juegan un papel importante en el dise˜ no y an´alisis de sistemas de aprendizaje y de actualizaci´on de la informaci´on, lo que ha llamado la atenci´on en un amplio espectro de disciplinas como la Gen´etica, Ling¨ u´ıstica, Epidemiolog´ıa, Psicolog´ıa, Ciencia forense, Ecolog´ıa, Biolog´ıa, Medicina, entre otras [14]. Para construir uno de ´estos modelos se debe de: a) Definir el problema a resolver: por ejemplo el problema del diagn´ostico m´edico es un ejemplo cl´asico ya que normalmente se plantea la pregunta ¿cu´al es la enfermedad m´as probable que tenga un paciente dado que presenta una serie de s´ıntomas? La definici´on del problema es un paso crucial en el desarrollo del modelo, ya que un mal planteamiento inicial tendr´a consecuencias fatales. b) Seleccionar las variables: aquellas que sean relevantes para la definici´on del problema. Esta tarea debe ser realizada por expertos en el problema a resolver, por ejemplo, las variables relevantes para el problema de diagn´ostico son las enfermedades y sus correspondientes s´ıntomas. c) Obtenci´ on de informaci´ on relevante: adquirir y analizar los datos que sean relevantes para la definici´on del modelo, ya sean cualitativos (gr´afica) o cuantitativos (probabilidades). Normalmente son obtenidos de un experto en el tema o una base de datos. d) Construir el modelo gr´ afico-probabil´ıstico: ya que se conocen las variables relevantes y las relaciones entre ellas, el siguiente paso consiste en definir el modelo gr´afica y probabil´ısticamente. En este paso se utilizan las gr´aficas descritas en este cap´ıtulo ya que son herramientas muy potentes para describir de forma intuitiva las relaciones de dependencia e independencia existentes en el conjunto de variables a tratar [2]. Uno de los principales modelos gr´afico probabil´ısticos son las Redes Bayesianas [12], que se distinguen por el hecho de que sus gr´aficas son DAG’s por lo que sus aristas son dirigidas y las relaciones entre los v´ertices se desarrollan de manera causal.

Cap´ıtulo 2 Redes Bayesianas El reverendo Thomas Bayes (1702-1761) desarroll´o el Teorema que lleva su nombre, que aparece en la publicaci´on Essay Towards Solving a Problem in the Doctrine of Chances (1763), en el siglo XVIII [16]. Desde ese momento el teorema ha tenido un gran impacto en la inferencia estad´ıstica debido a que capacita a quien lo usa a inferir la probabilidad de una causa cuando el efecto de la misma es observado [14]. El t´ermino “Red Bayesiana” es establecido por el inform´atico y fil´osofo Judea Pearl en 1985, al extender el Teorema de Bayes a modelos gr´aficos de las relaciones probabil´ısticas entre muchas variables causalmente relacionadas [17].

(a) Thomas Bayes (1702-1761)

(b) Judea Pearl (1936)

Figura 2.1 Las Redes Bayesianas han tenido un gran impacto en la inferencia estad´ıstica. Existen innumerables aplicaciones en muchas ramas de la ciencia, como se puede ver en [5], [9], [10], [11], [12] y [14].

12

CAP´ITULO 2

13

En este cap´ıtulo se introducir´a la definici´on de Red Bayesiana y algunas aplicaciones en el campo de la Medicina.

2.1. 2.1.1.

Definici´ on formal y propiedades Condici´ on de Markov

Definici´ on 2.1.1 (Condici´on de Markov). Sup´ongase que se tiene una distribuci´on de probabilidad conjunta P de las variables aleatorias en alg´ un conjunto V y una DAG G = (V, A) . Se dice que G = (V, A) satisface la condici´on de Markov si para cada variable X ∈ V , {X} es condicionalmente independiente del conjunto de todos sus no descendientes dado el conjunto de todos sus padres, es decir: IP ({X}, nde(X) | pa(X)) Definici´ on 2.1.2 (Red Bayesiana). Si (G, P ) satisface la condici´on de Markov, se dice que (G, P ) es una Red Bayesiana. Cuando (G, P ) satisface la condici´on de Markov, se dice que G y P satisfacen la condici´on de Markov entre ellos [10].

Figura 2.2: Una DAG G que ilustra la condici´on de Markov

Por ejemplo, consid´erese el DAG G en la figura 2.2. Si (G, P ) satisface la condici´on de Markov, con alguna distribuci´on de probabilidad P de X, Y, Z, W y U, se tendr´an las siguientes independencias condicionales:

CAP´ITULO 2 V´ertice X Y Z W U

14 Padres ∅ X X Y, Z Z

No descendientes ∅ X, Z, U X, Y X, Y, Z, U X, Y, Z, W

Independencia condicional Ninguna IP (Y, {Z, U} | X) IP (Z, Y | X) IP (W, {X, U} | {Y, Z}) IP (U, {X, Y, W } | Z)

Observaci´ on 2.1. N´otese que pa(X) ⊆ nde(X), entonces podemos definir la condici´on de Markov diciendo que X debe ser condicionalmente independiente de nde(X)− pa(X) dado pa(X). Una Red Bayesiana (G, P ) por definici´on es una DAG G y una distribuci´on de probabilidad P que satisfacen la condici´on de Markov [10]. Entonces ¿Por qu´e en la figura 2.2 se muestra una Red Bayesiana como una DAG y un conjunto de distribuciones de probabilidad condicional? La raz´on es que (G, P ) satisface la condici´on de Markov si y s´olo si P es igual al producto de sus distribuciones condicionales en G. Espec´ıficamente se tiene el siguiente teorema: TEOREMA 2.1.1. (G, P ) satisface la condici´on de Markov (y por lo tanto es una Red Bayesiana) si y s´olo si P es igual al producto de sus distribuciones condicionales, de todos los v´ertices dados sus padres en G, siempre que existan estas distribuciones condicionales. Observaci´ on 2.2. Es decir la gr´afica G es una Red Bayesiana, representando a las variables V1 , V2 , ..., Vn si y s´olo si P (V1 , V2 , ..., Vn ) =

n Y

P (Vj |pa(Vj ))

j=1

Del teorema anterior se puede deducir la siguiente proposici´on: Proposici´ on 2.1. Cualquier distribuci´on de probabilidad conjunta puede ser representada mediante una Red Bayesiana. La proposici´on claramente muestra el poder del modelaje con las Redes Bayesianas. Cualquier modelo probabil´ıstico puede ser representado como una Red Bayesiana.

2.1.2.

Razonamiento Bayesiano

Definici´ on 2.1.3 (Abducci´on). La abducci´on es el proceso de formar una hip´otesis explicativa.

CAP´ITULO 2

15

La abducci´on es la u ´ nica operaci´on l´ogica que introduce alguna idea nueva, ya que, la inducci´on solo determina un valor, prueba que algo debe ser, y la deducci´on desarrolla las consecuencias necesarias de una hip´otesis, puede extraer una predicci´on que puede comprobarse mediante la inducci´on [13]. Definici´ on 2.1.4 (Razonamiento abductivo). El razonamiento abductivo es un tipo de razonamiento en el que, a partir de la descripci´on de un hecho o fen´omeno, se ofrece o se llega a una hip´otesis, la cual explica las posibles razones o motivos del hecho mediante las premisas obtenidas. Desde un punto de vista probabil´ıstico-estad´ıstico, se tiene la siguiente definici´on: Definici´ on 2.1.5 (Inferencia Bayesiana o Razonamiento Bayesiano). Es un tipo de inferencia estad´ıstica en la que las evidencias u observaciones se emplean para actualizar o inferir la probabilidad de que una hip´otesis pueda ser cierta. El nombre “Bayesiana” proviene del uso frecuente que se hace del teorema de Bayes durante el proceso de inferencia. La Inferencia Bayesiana se presentar´a en la siguiente secci´on mediante dos ejemplos de Redes Bayesianas en el diagn´ostico m´edico, un campo en el que, impl´ıcitamente, se utiliza este tipo de razonamiento, ya que un buen diagn´ostico observa los s´ıntomas del paciente y determina la enfermedad que m´as probablemente tenga.

2.2.

Redes Bayesianas en el diagn´ ostico m´ edico

La naturaleza cualitativa y cuantitativa de las Redes Bayesianas permiten visualizar f´acilmente las relaciones probabil´ıstica entre las variables, as´ı como realizar inferencias como predicci´on, diagn´ostico y toma de decisiones. Es por estas razones que en el campo de la Medicina y Ciencias de la Salud, donde hay una gran cantidad de datos estad´ısticos y probabil´ısticos, se ha recurrido a ellas para el an´alisis y procesamiento de los datos [9]. En los siguientes apartados se tratar´a el concepto de diagn´ostico m´edico y se desarrollar´an varios ejemplos de Redes Bayesianas en el campo de la Medicina.

2.2.1.

Diagn´ ostico m´ edico

El diagn´ostico m´edico es un proceso en el que se realiza un razonamiento abductivo que involucra la construcci´on de la hip´otesis de una enfermedad dado un conjunto de

CAP´ITULO 2

16

s´ıntomas observados en el paciente. Formalmente, esto es expresado como: D = m´ax P (Ei | S) i

donde P (Ei | S) es la probabilidad de la enfermedad Ei dada la evidencia S que representa el conjunto de los s´ıntomas, historial m´edico y resultados de las pruebas diagn´osticas que presente el paciente. Algunas de las aplicaciones o sistemas de Redes Bayesianas para el diagn´ostico m´edico que se han propuesto desde hace m´as de una d´ecada son: CONVINCE, NESTOR, MUNIN, ALARM, PATHFINDER IV, CPCS MODEL Y DIAVAL [11]. En la siguiente secci´on se presentar´an algunos ejemplos de las aplicaciones m´as intuitivas de las Redes Bayesianas: las pruebas cl´ınicas y el diagn´ostico m´edico.

2.2.2.

Ejemplo de diagn´ ostico mediante pruebas cl´ınicas

En una empresa les piden a sus trabajadores que se realicen radiograf´ıas de torax de manera regular, debido a la exposici´on que tienen a materiales que podr´ıan afectar su salud. Dar´ıo observa en un cartel del hospital que el 60 % de las personas que tienen c´ancer pulmonar tienen un resultado positivo en la prueba que est´a a punto de realizarse. Despu´es de unos d´ıas va con el m´edico y ´este le dice que obtuvo un resultado positivo en su radiograf´ıa. Dario empieza a preocuparse. Despu´es de pensarlo un momento se da cuenta que el dato estad´ıstico que conoce es la probabilidad de tener una prueba positiva dado que se tiene c´ancer pulmonar y a ´el le interesa saber lo contrario ¿Cu´al es la probabilidad de tener c´ancer pulmonar dado que la prueba result´o ser positiva?. Es aqu´ı cuando el doctor puede realizar una Red Bayesiana simple para responder a dicha pregunta y dar un diagn´ostico. La Red Bayesiana G = (V, A) tiene las siguientes caracter´ısticas: El conjunto V tiene como elementos a los nodos R y C, que representan a las variables “Radiograf´ıa” y “C´ancer Pulmonar”, respectivamente, con los siguientes valores: Variable R C

Valor Cuando la variable toma el valor r1 Radiograf´ıa positiva r2 Ragiograf´ıa negativa c1 C´ancer pulmonar presente c2 C´ancer pulmonar ausente

CAP´ITULO 2

17

Adem´as se tienen, mediante observaci´on de datos estad´ısticos, las probabilidades: • Prueba positiva dado que se tiene c´ancer pulmonar: P (r1 | c1 ) = 0.6 • Prueba positiva dado que no se tiene c´ancer pulmonar: P (r1 | c2 ) = 0.02 • Probabilidad de tener c´ancer pulmonar: P (c1) = 0.001 Por lo que, debido a que las variables cumplen con la propiedad de Markov, la Red Bayesiana que representa este problema se muestra en la figura 2.3.

Figura 2.3: Red Bayesiana del ejemplo Radiograf´ıa-C´ancer Pulmonar

La informaci´on cuantitativa de ´esta viene dada por la probabilidad a priori de los v´ertices que no tienen padres (P (c1 )) y la probabilidad condicional (verosimilitud ) de los v´ertices con padres (P (r1 | C)). Conociendo dichas probabilidades se obtienen las siguientes tablas de probabilidades: C c1 c2 P (C) 0.001 0.999

C P (R = r1 | C) P (R = r2 | C)

c1 c2 0.6 0.02 0.4 0.98

Cuadro 2.1: Probabilidades del ejemplo de diagn´ostico mediante pruebas diagn´osticas

CAP´ITULO 2

18

y se pueden calcular: La probabilidad a priori de que cualquier persona obtenga una radiograf´ıa de torax positiva P (r1 ) = P (r1 | c1 )P (c1 ) + P (r1 | c2 )P (c2 ) = (0.6)(0.001) + (0.02)(0.999) = 0.02058 La probabilidad a posteriori deseada, es decir, la probabilidad de que una persona tenga c´ancer pulmonar dado que su prueba result´o ser positiva P (c1 | r1 ) =

P (c1 , r1 ) P (r1 )

Y como se trata de una Red Bayesiana P (c1 , r1 ) = P (c1 )P (r1 | c1 ) entonces P (c1 | r1 ) =

(0.001)(0.6) P (c1 )P (r1 | c1 ) = = 0.02915452 P (r1 ) 0.02058

Se puede concluir entonces que solo el 2.91 % de las personas que obtienen un resultado positivo en esta prueba tienen c´ancer pulmonar, por lo que Dar´ıo no tiene que preocuparse a´ un, ya que la prueba no es confiable y debe realizarse alguna otra que s´ı lo sea para determinar si en realidad tiene c´ancer pulmonar o no.

2.2.3.

Ejemplo de diagn´ ostico m´ edico

M´onica est´a preocupada por que ha tenido una tos muy fuerte (cr´onica) desde hace varios d´ıas, por lo que va con su doctor. El doctor le dice que dicho s´ıntoma es caracter´ıstico de dos enfermedades: Bronquitis y c´ancer pulmonar. El 54 % de las personas que tiene c´ancer pulmonar presentan dicho s´ıntoma y el 10 % de las personas que tienen bronquitis tambi´en presentan ese s´ıntoma.

CAP´ITULO 2

19

¿Cu´al enfermedad es m´as probable que tenga M´onica? Para realizar un diagn´ostico que implique decidir cual enfermedad es m´as probable que tenga un paciente, entre varias enfermedades, se utilizar´a la f´ormula de la secci´on 2.2.1 junto con la inferencia mediante la Red Bayesiana G = (V, A) con las siguientes caracter´ısticas: El conjunto V tiene como elementos a los nodos T ,B y C, que representan a las variables “Tos”, “Bronquitis” y “C´ancer Pulmonar”, respectivamente, con los siguientes valores: Variable T C B

Valor Cuando la variable toma el valor t1 El paciente presenta tos cr´onica t2 El paciente no presenta tos cr´onica c1 C´ancer pulmonar presente c2 C´ancer pulmonar ausente b1 Bronquitis presente b2 Bronquitis ausente

Adem´as se obtienen, mediante observaci´on de datos estad´ısticos, las probabilidades: • El paciente presenta tos cr´onica cuando tiene bronquitis y c´ancer pulmonar: P (t1 | b1 , c1 ) = 0.75 • El paciente presenta tos cr´onica cuando tiene bronquitis y no tiene c´ancer pulmonar: P (t1 | b1 , c2 ) = 0.1 • El paciente presenta tos cr´onica cuando no tiene bronquitis y tiene c´ancer pulmonar: P (t1 | b2 , c1 ) = 0.5 • El paciente presenta tos cr´onica cuando no tiene bronquitis ni c´ancer pulmonar: P (t1 | b2 , c2 ) = 0.05 • Probabilidad de tener c´ancer pulmonar: P (c1) = 0.001 • Probabilidad de padecer bronquitis: P (b1 ) = 0.09 Como puede verse las variables cumplen con la propiedad de Markov. Conociendo estas probabilidades se obtienen las siguientes tablas:

CAP´ITULO 2

20

B b1 P (B) 0.09

b2 0.91

C c1 c2 P (C) 0.001 0.999

B b1 b2 C c1 c2 c1 c2 P (T = t1 | B, C) 0.75 0.1 0.5 0.05 P (T = t2 | B, C) 0.25 0.9 0.5 0.95 Cuadro 2.2: Probabilidades del ejemplo de diagn´ostico m´edico La Red Bayesiana que representa este problema se muestra en la figura 2.4.

Figura 2.4: Red Bayesiana del ejemplo de diagn´ostico m´edico

Al tener la distribuci´on de probabilidades se sabe que, al tratarse de una Red Bayesiana, la probabilidad conjunta de todas la variables en V es expresada como: P (B, C, T ) = P (B)P (C)P (T | B, C)

CAP´ITULO 2

21

as´ı que se calcular´a lo siguiente: La probabilidad a priori de que cualquier persona presente el s´ıntoma de tos cr´onica X X P (t1 ) = P (B, C, t1) = P (B)P (C)P (t1 | B, C) B,C

=

X

B,C

[P (b1 )P (C)P (t1 | b1 , C) + P (b2 )P (C)P (t1 | b2 , C)]

C

= P (b1 )P (c1)P (t1 | b1 , c1 ) + P (b2 )P (c1)P (t1 | b2 , c1 ) +P (b1 )P (c2 )P (t1 | b1 , c2 ) + P (b2 )P (c2 )P (t1 | b2 , c2 ) = (0.09)(0.001)(0.75) + (0.91)(0.001)(0.5) +(0.09)(0.999)(0.1) + (0.91)(0.999)(0.05) = 0.0000675 + 0.000455 + 0.008991 + 0.0454545 = 0.054968 Ahora se calculan las probabilidades a posteriori deseadas, es decir la probabilidad de padecer, ya sea bronquitis o c´ancer pulmonar dado que se tiene como s´ıntoma a la tos cr´onica. Para el c´ancer pulmonar se tiene que: P (c1 | t1 ) =

P (c1 , t1 ) P (t1 )

debido a que se trata de una Red Bayesiana X X P (c1 , t1 ) = P (B, c1 , t1 ) = P (B)P (c1)P (t1 | B, c1 ) B

= = = =

B

P (b1 )P (c1 )P (t1 | b1 , c1 ) + P (b2 )P (c1 )P (t1 | b2 , c1 ) (0.09)(0.001)(0.75) + (0.91)(0.001)(0.5) 0.0000675 + 0.000455 0.0005225

entonces P (c1 | t1 ) =

0.0005225 P (c1 , t1 ) = = 0.00950553 P (t1 ) 0.054968

CAP´ITULO 2

22

Para la bronquitis se tiene que: P (b1 | t1 ) =

P (b1 , t1 ) P (t1 )

debido a que se trata de una Red Bayesiana X X P (b1 , t1 ) = P (b1 , C, t1 ) = P (b1 )P (C)P (t1 | b1 , C) C

= = = =

C

P (b1 )P (c1 )P (t1 | b1 , c1 ) + P (b1 )P (c2 )P (t1 | b1 , c2 ) (0.09)(0.001)(0.75) + (0.09)(0.999)(0.1) 0.0000675 + 0.008991 0.0090585

entonces P (b1 | t1 ) =

P (b1 , t1 ) 0.0090585 = = 0.1647959 P (t1 ) 0.054968

Se puede concluir entonces que es m´as probable que M´onica tenga bronquitis dado que la probabilidad a posteriori de la bronquitis es mayor que la del c´ancer pulmonar, al observarse el s´ıntoma de la tos cr´onica. ´ Este resultado no es concluyente ya que s´olo se est´a observando un s´ıntoma en com´ un de las enfermedades. En el siguiente cap´ıtulo se dar´a un ejemplo m´as completo del diagn´otico entre c´ancer pulmonar y bronquitis, bas´andose en historial cl´ınico, s´ıntomas y pruebas.

Cap´ıtulo 3 Inferencia Bayesiana por medio de ´ arboles de uni´ on En la vida cotidiana la realizaci´on del diagn´ostico de una enfermedad no se basa solamente en un s´ıntoma, o en la conclusi´on que arroja una prueba diagn´ostica, como en los ejemplos de “Diagn´ostico mediante pruebas cl´ınicas” y “Diagn´ostico m´edico”, sino que es el resultado de observar toda esta evidencia, es decir todos los s´ıntomas del paciente y las relaciones que estos tienen con las posibles enfermedades, adem´as de considerar el “historial cl´ınico del paciente” [11]. Al considerar lo anterior, se puede deducir que las gr´aficas, y en consecuencia las Redes Bayesianas, que modelan dichos diagn´osticos tendr´an un mayor grado de complejidad en cuanto al desarrollo de la inferencia. Para atacar esta complejidad se utilizar´an los ´arboles de uni´on [1].

3.1.

Estructuras gr´ aficas de inter´ es

En esta secci´on se presentar´an algunas estructuras gr´aficas que se obtienen tras manipular una Red Bayesiana, ya que en algunas ocasiones se buscan las probabilidades condicionales dado un conjunto de varibles que no se relacionan de manera directa, por lo que no es posible realizar de forma directa ciertos c´alculos. Despu´es de modificar la Red Bayesiana, se obtiene una estructura m´as simple que mantiene algunas propiedades de la gr´afica original, pero que facilitan la tarea de obtener las probabilidades deseadas. A esta modificaci´on t´ecnica se le llama “´arbol de uni´on”.

23

CAP´ITULO 3

3.1.1.

24

Gr´ afica moral

A continuaci´on se dar´a el concepto de gr´afica moral, la cual permitir´a ver de manera gr´afica las dependencias entre los padres de un v´ertice. Definici´ on 3.1.1 (Gr´afica moral). Sea G = (V, A) una DAG. Se define la gr´afica moral asociada a G, y se denota como M, a la gr´afica que se obtiene tras a˜ nadir una arista entre cada par de v´ertices con alg´ un hijo en com´ un y remover la direccionalidad.

3.1.2.

Gr´ afica triangular

Para definir lo que es una gr´afica triangular primero se deben de introducir los conceptos de “bucle” y “cuerda de un bucle”. Definici´ on 3.1.2 (Bucle). En una gr´afica no dirigida G = (V, A) se define un bucle como un camino cerrado, es decir una sucesi´on de v´ertices conectados tales que el v´ertice inicial coincide con el final. Por ejemplo al observar la figura 3.1, en la gr´afica no dirigida existen dos bucles dados por los v´ertices {B, D, E} y {A, C, G, F }.

C

E B A D

G F

Figura 3.1: Ejemplo de bucle

Definici´ on 3.1.3 (Cuerda del bucle). Si en una gr´afica no dirigida hay un bucle, a la arista que une dos v´ertices y que no pertenece al bucle se le denomina cuerda del bucle. Estos conceptos son fundamentales pues con ellos se podr´a obtener una gr´afica triangular, la cual es de gran importancia para construir los ´arboles de uni´on. Definici´ on 3.1.4 (Gr´afica triangular). Se le llama gr´afica triangular, denotada como T, a una gr´afica no dirigida G = (V, A) en la que todos los bucles de longitud mayor o igual que cuatro contienen al menos una cuerda.

CAP´ITULO 3

25

En la figura 3.2 se pueden apreciar dos gr´aficas triangulares obtenidas a partir de la gr´afica 3.1.

C

E B A D

C

E B A

G F

(a)

D

G F

(b)

Figura 3.2: Ejemplos de gr´aficas triangulares El proceso de a˜ nadir cuerdas que dividan a los bucles no es trivial ya que se debe mantener en lo posible la estructura original de la gr´afica, buscando que la triangulaci´on contenga el m´ınimo n´ umero de cuerdas, obteniendo as´ı menos tri´angulos en la gr´afica, lo que ser´a de ayuda para la construcci´on del ´arbol de uni´on. Sin embargo puede demostrarse que el problema de encontrar una triangulaci´on eficiente es NPcompleto [10]. En la pr´actica los algoritmos utilizados para obtener una gr´afica triangular son heur´ısticos, por lo que se elige la triangulaci´on que parece m´as razonable, pero que podr´ıa no ser ´optima [1]. En este trabajo se utilizaron paqueterias de R, como se ver´a en la secci´on 3.5.4, para obtener las gr´aficas morales y triangulares de inter´es.

3.2.

´ Arboles de uni´ on

Los ´arboles de uni´on agrupan en cada uno de sus v´ertices un conjunto de v´ertices que forman un bucle de longitud menor o igual que tres, reduci´endose as´ı la estructura inicial de la gr´afica y facilitando la realizaci´on de c´alculos locales, como se presentar´a en el ejemplo 3.4.1. Para ello se dar´an las definiciones de “clique” y “´arbol de uni´on”. Definici´ on 3.2.1 (Clique). Un clique es el m´aximo subconjunto C de v´ertices en el que cada elemento es adyacente a todos los dem´as.

CAP´ITULO 3

26

Observaci´ on 3.1. La gr´afica triangular es de ayuda para encontrar los cliques de la gr´afica. Definici´ on 3.2.2 (Propiedad del ´arbol de uni´on). Se dice que se cumple la propiedad del ´arbol de uni´on, si para cada par C1 y C2 de cliques con intesecci´on C1,2 , todos los cliques en el camino entre C1 y C2 contienen a C1,2 . Se define al ´arbol de uni´on de la siguiente manera : ´ Definici´ on 3.2.3 (Arbol de uni´on). Un ´arbol de uni´on JT de la gr´afica G es una gr´afica con las siguientes propiedades: Cada v´ertice de JT corresponde a un clique de la gr´afica triangular T de G. Los v´ertices de JT cumplir´an con la propiedad de ´arboles de uni´on. Cada arista de JT contiene a las variables en la intersecci´on de los cliques adyacentes. A estas aristas se les llamar´a separadores S.

3.3.

Inferencia en los ´ arboles de uni´ on

El principal objetivo de una Red Bayesiana es realizar inferencias probabil´ısticas. V´ease [6]. A trav´es de los ´arboles de uni´on se realiza la inferencia al representar la distribuci´on de probabilidad conjunta entre los v´ertices que conforman a un clique. Para ello es necesario definir primero las funciones potenciales de JT. Definici´ on 3.3.1 (Funciones potenciales ψC y φS de un ´arbol de uni´on). La funci´on potencial de cada clique ψC y cada separador φS es aquella que utiliza las probabilidades de la Red Bayesiana inicial para obtener la probabilidad conjunta de las variables del clique, al multiplicar las probabilidades condicionales de las variables de C (o S) y sus padres. A continuaci´on se presenta un algoritmo para obtener las funciones potenciales de un a´rbol de uni´on. Algoritmo Para inicializar las funciones potenciales se seguir´an los siguientes pasos: 1. Igualese todas las funciones potenciales de cada clique y cada separador a la unidad. 2. Para cada variable Xi , seleccione un v´ertice en el ´arbol de uni´on (es decir, clique) que contenga a la variable y sus padres (pa(Xi )) en el DAG original. 3. Multipl´ıquese la funci´on potencial de dicho clique por P (Xi | pa(Xi )).

CAP´ITULO 3

27

La distribuci´on de probabilidad conjunta puede ser expresada ahora en t´erminos de funciones potenciales ψC o φS , definidas en cada clique y cada separador del a´rbol de uni´on, respectivamente. Esta distribuci´on conjunta es dada por: Q ψc (Xc ) P (X) = Qc∈C s∈S φs (Xs ) donde X = X1 , X2 , ..., Xn . La idea es transformar una representaci´on de las distribuciones conjuntas a otras donde para cada clique C la funci´on potencial d´e la distribuci´on marginal de las variables en C, es decir: ψC (XCi ) = P (XCi ) lo que se aplicar´a tambi´en a los separadores. ´ Esto se ver´a m´as claro en el ejemplo “Bronquitis-C´ancer pulmunar” de la seccion 3.4.1. Ahora se explicar´a como funciona la inferencia Bayesiana en los a´rboles de uni´on, para despu´es aplicarla en un ejemplo de diagn´ostico m´edico donde se involucren s´ıntomas, pruebas e historial cl´ınico.

3.3.1.

Consistencia local de los ´ arboles de uni´ on

La consistencia local se logra mediante el intercambio de informaci´on entre los cliques vecinos. Definici´ on 3.3.2 (Consistencia local). Se dice que un a´rbol de uni´on es localmente consistente si para cualesquiera dos cliques vecinos U y W con intersecci´on S se cumple X X ψU = ψW U \S

W \S

Actualizaci´ on de la funci´ on potencial Sup´ongase que se tienen dos cliques U y W que tienen una intersecci´on no vac´ıa S, como en la figura 3.3.

CAP´ITULO 3

28

´ Figura 3.3: Arbol de uni´on

Los cliques U y W tienen las funciones potenciales ψU y ψW , respectivamente, y S tiene una funci´on potencial φS que se inicializa con valor 1. La distribuci´on de probabilidad conjunta P (X) para todas las variables en V de la Red Bayesiana es la siguiente: P (X1 , X2 , ..., Xn ) =

ψU · ψW . φS

La idea detr´as de la actualizaci´on es modificar las funciones potenciales de tal manera que la funci´on potencial resultante de la marginalizaci´on del separador S desde cualquiera de los cliques, U o W , d´e el mismo valor φS = P (S), es decir X X ψU = φS = ψW . U \S

W \S

Consid´erese una situaci´on en la que se tiene nueva evidencia que cambia ψU por ψU∗ , esto debido a que se fija una de las variables en U a un estado la Pparticular. Con φS ∗ finalidad de mantener la consistencia se cambiar´an φS y ψW por U \S ψU y ψW · φS , respectivamente, para satisfacer X X ∗ ψU∗ = φ∗S = ψW . U \S

W \S

∗ Observaci´ on 3.2. Al definir φ∗S y ψW de esta manera se cumple con la consistencia local X X X φ∗ X φ∗ φ∗ ∗ ψW = S · φS = φ∗S = ψU∗ . ψW = ψW · S = S · φS φS φS W \S

W \S

W \S

U \S

A continuaci´on se estudiar´an las diferentes fases en las que se realiza la propagaci´on de la informaci´on en un ´arbol de uni´on.

CAP´ITULO 3

29

Fases de propagaci´ on Al seleccionar un clique del ´arbol de uni´on, se pueden realizar dos tipos de fases de propagaci´on de la informaci´on a trav´es del ´arbol: 1. Fase de recopilaci´on o recolecci´on: Cuando el flujo de la informaci´on llega de los dem´as cliques al clique elegido. 2. Fase de distribuci´on: Cuando el flujo de la informaci´on va del clique elegido a los dem´as cliques. En la figura 3.4a se puede observar la fase de recolecci´on de los cliques C1 = {A, B} y C3 = {C, R} al clique C2 = {B, C}, mientras que en la figura 3.4b se aprecia la fase de distribuci´on del clique C2 = {B, C} a los dem´as cliques.

(a) Fase de recolecci´ on

(b) Fase de distribuci´on

Figura 3.4 En algunos casos, al obtener las probabilidades deseadas s´olo se necesita la utilizaci´on de una de las dos fases; todo depender´a del tipo de problema que se desee resolver.

CAP´ITULO 3

30

Algoritmo para la construcci´ on del ´ arbol de uni´ on En [9] se encuentra el siguiente algoritmo para la construcci´on del a´rbol de uni´on de una Red Bayesiana Algoritmo 1. Moralizar: Crear la gr´afica moral M de la Red Bayesiana G como se ilustra en la secci´on 3.1. 2. Triangular: Obtener la gr´afica triangular T de la gr´afica moral M del punto 1 como se muestra en la secci´on 3.1. 3. Cliques: Identificar los cliques de la gr´afica triangular. ´ 4. Arbol de uni´ on: Crear una gr´afica JT en la que cada clique sea un v´ertice, y los cliques adyacentes est´en unidos mediante arcos no dirigidos. 5. Reparametrizar: Utilizar los par´ametros de las distribuciones de G para calcular las probabilidades de los cliques del ´arbol de uni´on. Ejemplo Sea G la Red Bayesiana de la figura 3.5a, al moralizarla obtenemos a M, que ser´a la misma que la gr´afica triangular T, debido a que no hay bucles, representada en la figura 3.5b.

(a) Red Bayesiana

(b) Gr´ afica Moral y triangular

Figura 3.5 Al identificar los cliques de M se construye el ´arbol de uni´on JT de la figura 3.6.

´ Figura 3.6: Arbol conjunto JT

CAP´ITULO 3

31

Las funciones potenciales ψAB , ψBC y φB se definen como: ψAB = P (A) · P (B | A) φB = 1 ψBC = P (C | B) Para mantener la consistencia local, se actualizan las funciones potenciales mediante el flujo de informaci´on entre los cliques vecinos. Primero se actualiza ψBC basandose en ψAB . ψAB = P (A, B) X P (a, B) = P (B) φ∗B = a ∗ ψBC =

φ∗B φB

· ψBC =

P (B) · P (C | B) = P (B, C) 1

Las potenciales de los cliques se han convertido en probabilidades marginales. Introduciendo evidencia Ahora consid´erese el caso en el que se tiene evidencia. Sup´ongase que todos los v´ertices son binarios en la Red Bayesiana de la figura 3.5a y se tiene la evidencia (A = a1 ). Entonces al realizar la actualizaci´on AB → BC se llega a que:

φ∗B =

X

∗ ψAB = P (A = a1 , B)

P (A = a1 , B) = P (A = a1 , B)

a ∗ ψBC =

φ∗B P (A = a1 , B) · ψBC = · P (C | B) = P (A = a1 , B, C) φB 1

Se puede ver que se han obtenido las marginales como antes, y la evidencia est´a presente en todos los t´erminos. Las potenciales son marginales sin normalizar. Al normalizarlas se obtienen las condicionales P (B | A = a1 ) y P (B, C | A = a1 ). En la siguiente secci´on se presentar´a una aplicaci´on de las Redes Bayesianas en el diagn´ostico m´edico utilizando ´arboles de uni´on para realizar la inferencia bayesiana.

CAP´ITULO 3

3.4.

32

Ejemplo de inferencia bayesiana mediante el ´ arbol de uni´ on

Cuando se quiere determinar la presencia o ausencia de una enfermedad en una persona, se toman en cuenta los resultados de las pruebas de dicha enfermedad, adem´as de considerarse tambi´en los s´ıntomas que presenta el paciente y los antecedente m´edicos (historial cl´ınico) que tenga [10]. En esta situaci´on es claro que se pueden emplear las Redes Bayesianas para realizar una inferencia probabil´ıstica.

3.4.1.

Ejemplo Bronquitis-C´ ancer Pulmonar

Problema: Sup´ongase que una persona tiene antecedentes de tabaquismo, los cuales tienen una influencia directa en la salud del paciente, ya que el paciente se vuelve propenso a padecer bronquitis o c´ancer pulmonar. A su vez, la presencia o ausencia de cada una de estas enfermedades tiene una influencia directa con el s´ıntoma de tos cr´onica. Asimismo, la presencia o ausencia de c´ancer pulmonar tiene una influencia directa con el hecho de que una radiograf´ıa de torax resulte positiva o negativa. En esta situaci´on se realizar´a una inferencia probabil´ıstica que implique el uso de caracter´ısticas que no est´en relacionadas de forma directa, por ejemplo obtener las probabilidades condicionales de padecer ya sea bronquitis o c´ancer pulmonar cuando el paciente presenta antecedentes de tabaquismo, t´os cr´onica y una radiograf´ıa de torax positiva, por lo que las probabilidades condicionales no se pueden actualizar utilizando una sencilla aplicaci´on del Teorema de Bayes ni una Red Bayesiana sencilla, as´ı que se usar´an los conceptos abordados en la secci´on anterior. El problema presenta ciertas caracter´ısticas o estados que se quieren determinar, pero que no se pueden calcular con certeza, por lo que s´olo se determina “que tan probable” es que dicha caracter´ıstica particular se encuentre en un estado particular. Para ello se representan las caracter´ısticas mediante variables aleatorias y se desarrollan las relaciones probabil´ısticas entre las variables. En el problema se identifican las variables aleatorias como: “Antecedentes de tabaquismo” (A), “Bronquitis” (B), “C´ancer pulmonar” (C), “Tos cr´onica” (T ) y “Radiograf´ıa” (R), con sus respectivos conjuntos de valores mutuamente exclusivos y exhaustivos, representados en el siguiente cuadro:

CAP´ITULO 3

33 Variable A B C T R

Valor La variable toma el valor a1 Hay antecedentes de tabaquismo a2 No hay antecedentes de tabaquismo b1 Bronquitis presente b2 Bronquitis ausente c1 C´ancer pulmonar presente c2 C´ancer pulmonar ausente t1 Tos cr´onica presente t2 Tos cr´oncia ausente r1 Radiograf´ıa positiva r2 Radiograf´ıa negativa

Ahora se deben identificar las influencia directas entre las variables, por ejemplo A → B debido a que los antecedentes de tabaquismo tienen influencia directa con la presencia o ausencia de bronquitis, del mismo modo C → R debido a que la presencia o ausencia de c´ancer pulmonar tiene una influencia directa con el resultado de una radiograf´ıa de torax. No existe un arco entre A y R ya que el presentar antecedentes de tabaquismo no tiene una implicaci´on directa con los resultados de la radiograf´ıa, s´olo la tiene a trav´es de su influencia en la presencia de c´ancer pulmonar. Al obtener todas estas influencias se obtendr´a la representaci´on cualitativa de la Red Bayesiana. Despu´es se obtendr´a la parte cuantitativa al “juzgar” las probabilidades que tienen los valores de las variables aleatorias que son accesibles, es decir, determinar las probabilidades apriori (P (A)) y las verosimilitudes (P (B | A), P (C | A), P (T | B, C) y P (R | C)) mediante el an´alisis y estudio de datos estad´ısticos, la experiencia de los doctores, o ambos, obteni´endose as´ı las siguientes probabilidades: P (ai ) = 0.2 P (b1 | a1 ) = 0.25

P (b1 | a2 ) = 0.05

P (c1 | a1 ) = 0.003

P (c1 | a2 ) = 0.00005

P (t1 | b1 , c1 ) = 0.75 P (t1 | b1 , c2 ) = 0.1 P (r1 | c1 ) = 0.6

P (t1 | b2 , c1 ) = 0.5 P (r1 | c2 ) = 0.02

(Estas probabilidades fueron obtenidas de [10]).

P (t1 | b2 , c2 ) = 0.05

CAP´ITULO 3

34

El resultado ser´a la Red Bayesiana para el problema representada en la figura 3.7.

Figura 3.7: Red Bayesiana G del ejemplo Bronquitis-C´ancer pulmonar

Inferencia mediante el ´ arbol de uni´ on de G El problema que queremos resolver es el siguiente: ¿Qu´e enfermedad es m´as probable que tenga un paciente, bronquitis (b1 ) o c´ancer pulmonar (c1 ), si presenta antecedentes de tabaquismo (a1 ), t´os cr´onica (t1 ) y una radiograf´ıa de t´orax positiva (r1 )? Para dar respuesta a esta pregunta, es claro que se deben de obtener las siguientes probabilidades condicionales P (B = b1 | A = a1 , T = t1 , R = r1 ) P (C = c1 | A = a1 , T = t1 , R = r1 )

CAP´ITULO 3

35

las cuales se calcular´an utilizando el ´arbol de uni´on de la gr´afica G de la figura 3.7 al realizar los pasos descritos en el algoritmo 3.3.1: 1. Se realiza la gr´afica Moral M de la Red Bayesiana G , ilustrada en la figura 3.8.

Figura 3.8: Gr´afica moral M de la Red Bayesiana G

2. Se realiza la gr´afica triangular T de M, que, en este caso, es la misma gr´afica de la figura 3.8, ya que no hay bucles con longitud mayor o igual que cuatro. 3. Se identifican los elementos de los bucles de longitud menor o igual que tres, los cuales ser´an los v´ertices del ´arbol de uni´on (cliques). En este caso los cliques ser´an los sunconjuntos de V : {A, B, C}, {B, C, T } y {C, R}. 4. Se construye el ´arbol de uni´on JT, fij´andose en que se cumpla la propiedad del a´rbol de uni´on: en este caso, como son tres v´ertices en el a´rbol de uni´on existen tres intersecciones entre estos: {A, B, C} ∩ {B, C, T } = {B, C}, {A, B, C} ∩ {C, R} = {C} y {B, C, T } ∩ {C, R} = {C} Por lo que el orden en que deben de estar ordenados los cliques es: C1 = {A, B, C}, C2 = {B, C, T } y C3 = {C, R}. Ya que de otro modo no se cumple la propiedad mencionada. Los separadores (S) del ´arbol de uni´on ser´an las intersecciones entre los cliques vecinos, es decir: S1 = C1,2 = {B, C} y S2 = C2,3 = {C}.

CAP´ITULO 3

36

La gr´afica del ´arbol de uni´on resulta ser la figura 3.9.

´ Figura 3.9: Arbol de uni´on JT del ejemplo Bronquitis-C´ancer pulmonar

Con esto se termina la construcci´on de la parte cualitativa del a´rbol de uni´on. 5. Para la parte cuantitativa se debe considerar las siguientes tablas de probabilidades obtenidas de los datos en la Red Bayesiana de la figura 3.7. A a1 P (A) .2

a2 .8

A P (b1 |A) P (b2 |A)

A a1 a2 P (c1 |A) .003 .0005 P (c2 |A) .997 .9995

C P (r1 |C) P (r2 |C) B b1 C c1 c2 P (t1 |B, C) .75 .1 P (t2 |B, C) .25 .9

a1 a2 .25 .05 .75 .95

c1 c2 .6 .02 .4 .98 b2 c1 c2 .5 .05 .5 .95

Cuadro 3.1: Probabilidades del ejemplo Bronquitis-C´ancer Pulmonar Las funciones potencia de los cliques y los saparadores del a´rbol de uni´on de la figura 3.9 son: ψABC = P (A)P (B | A)P (C | A) φBC = 1 ψBCT = P (T | B, C) φC = 1 ψCR = P (R | C) Por lo que las representaciones iniciales de las probabilidades, al realizar los c´alculos, son las siguientes:

CAP´ITULO 3

37 ψABC = P (A)P (B | A)P (C | A) B b1 b2 C c1 c2 c1 c2 P (a1 , B, C) 0.00015 0.04985 0.00045 0.14955 P (a2 , B, C) 0 0 0 0

φBC

C c1 = 1 P (b1 , C) 1 P (b2 , C) 1

c2 1 1

ψBCT = P (T | B, C) B b1 b2 C c1 c2 c1 c2 P (t1 |B, C) .75 .1 .5 .05 P (t2 |B, C) 0 0 0 0

φC = 1

´ Figura 3.10: Arbol de uni´on

C c1 P (C) 1

c2 1

ψCR = P (R | C) C c1 c2 P (r1 | C) .6 .02 P (r2 | C) 0 0

Observaci´ on 3.3. Las probabilidades que est´an marcadas como 0 se deben a que se tiene como evidencia el conjunto E = {A = a1 , T = t1 , R = r1 }, por lo que todos los casos que no cumplan con al menos uno de estos valores para las variables aleatorias ser´an 0. Ahora, mediante la fase de recolecci´on hacia el clique {A, B, C} comenzando por el clique inferior, como se mostrar´a a continuaci´on, se obtendr´an las probabilidades deseadas.

CAP´ITULO 3

38 ∗ ψABC = ψABC · B C P (a1 , B, C) P (a2 , B, C)

φ∗BC

=

φ∗BC φBC

b1 c1 .0000675 0

P

∗ T ψBCT

b2 c2 .0000997 0

c1 0.000135 0

C P (b1 , C) P (b2 , C)

c2 0.00014955 0

c1 c2 .45 .002 .3 .001 φ∗

∗ ψBCT = ψBCT · φCC B b1 b2 C c1 c2 c1 c2 P (t1 , B, C) .45 .002 .3 .001 p(t2 , B, C) 0 0 0 0

φ∗C =

Figura 3.11: Recolecci´on

ψCR

P

R

ψCR

C c1 P (C) .6

c2 .02

C c1 = P (R | C) P (r1 | C) .6 P (r2 | C) 0

c2 .02 0

Observaci´ on 3.4. La recolecci´on comienza con el clique ψCR , al realizar la suma sobre los valores de R se encuentra las probabilidades del separador φ∗C , el cual, al ser multiplicado por las probabilidades condicionales del clique ψBCT arrojar´a las ∗ probabilidades de ψBCT , y as´ı sucesivamente hasta llegar a obtener las probabilidades ∗ . del clique ψABC ∗ La tabla de probabilidades conjuntas ψABC muestra las probabilidades que se obtienen con la evidencia E, como se mostr´o en 3.3.1, es decir:

B b1 b2 C c1 c2 c1 c2 P (E, B, C) .0000675 .0000997 0.000135 0.00014955 P (E, B, C) 0 0 0 0

CAP´ITULO 3

39

obtendremos las probabilidades deseadas de la siguiente manera: a) Para la probabilidad de que el paciente tenga bronquitis dada la evidencia E se calcula P (b1 , a1 , t1 , r1 ) P (B = b1 | A = a1 , T = t1 , R = r1 ) = P (a1 , t1 , r1 ) donde X φ∗ABC = .0000675 + .0000997 = 0.0001672 P (b1 , a1 , t1 , r1 ) = B=b1

P (a1 , t1 , r1 ) =

X

φ∗ABC = 0.00045175

A=a1

entonces P (B = b1 | A = a1 , T = t1 , R = r1 ) =

0.0001672 = 0.3701162 0.00045175

b) Para la probabilidad de que el paciente tenga c´ancer pulmonar dada la evidencia E se calcula P (c1, a1 , t1 , r1 ) P (C = c1 | A = a1 , T = t1 , R = r1 ) = P (a1 , t1 , r1 ) donde P (c1 , a1 , t1 , r1 ) =

X

φ∗ABC = .0000675 + 0.000135 = 0.0002025

C=c1

P (a1 , t1 , r1 ) =

X

φ∗ABC = 0.00045175

A=a1

entonces 0.0002025 = 0.4482568 0.00045175 Se puede decir entonces que la probabilidad de que un paciente tenga bronquitis dado que presenta antecedentes de tabaquismo (a1 ), t´os cr´onica (t1 ) y una radiograf´ıa de t´orax positiva (r1 ) es aproximadamente del 37 %, mientras que la probabilidad de que padezca c´ancer pulmonar dada la misma evidencia es, aproximadamente, del 45 %. P (C = c1 | A = a1 , T = t1 , R = r1 ) =

En conclusi´on, es m´as probable que el paciente padezca c´ancer pulmonar dada dicha evidencia.

CAP´ITULO 3

3.5.

40

Uso del paquete gRain para realizar Inferencia Bayesiana

El software libre R es un lenguaje de programaci´on para el an´alisis de datos y realizaci´on de gr´aficos estad´ısticos. Es de gran ayuda en la soluci´on de problemas ya que simplifica el proceso realizado al tratar c´odigos simples y m´ ultiples paquetes. V´ease [18]. En la actualidad existen paquetes de R como bnlearn, gRain y gRbase que se especializan en la realizaci´on de las gr´aficas de las Redes Bayesianas y la inferencia de las mismas. A continuaci´on se dar´a la soluci´on de los ejemplos realizados en el trabajo mediante el paquete gRain de R. Cuando se quiere trabajar con Redes Bayesianas en R se deben de agregar las siguientes paqueterias, que deben ser previamente instaladas:

´ Estas contienen funciones y propiedades espec´ıficas que permitir´an graficar las Redes Bayesianas y realizar inferencia en las mismas. Algunas de estas funciones son: 1. Para la parte cualitativa de la Red Bayesiana: list: Crea una lista de objetos (v´ertices de la Red Bayesiana). dagList: Crea la DAG al utilizar la lista creada con la funci´on anterior. plot: Grafica la Red Bayesiana del c´odigo anterior. 2. Para la parte cuantitativa de la Red Bayesiana: cptable: Crea las tablas de probabilidad condicional entre las variables. compileCPT: Realiza revisiones espec´ıficas, por ejemplo, que la gr´afica definida sea ac´ıclica o que las tablas muestren relaciones condicionales entre los v´ertices adyacentes del DAG, etc.

CAP´ITULO 3

41

grain: Crea objetos de la clase grain para que se puedan aplicar las funciones para la inferencia. compile: Compila la Red Bayesiana, es decir, construye la Red Bayesiana. 3. Para realizar la Inferencia Bayesiana: propagate: Realiza la propagaci´on de la informaci´on cuantitativa en toda la Red Bayesiana (se utilizar´a solo en caso de que las probabilidades condicionales que se desean obtener no tienen una aparente relaci´on directa). setFinding: Introduce evidencia. querygrain: Obtiene la distribuci´on condicional de un conjunto de variables. Si se ha definido la funci´on anterior, el querygrain encontrar´a la distribuci´on condicional de un nodo dada la evidencia. Estos paquetes y funciones, a la par con otros m´as, se explican y ejemplifican en [5] y [12].

CAP´ITULO 3

3.5.1.

42

C´ odigo para “Diagn´ ostico mediante pruebas cl´ınicas”

A continuaci´on se presenta el c´odigo del ejemplo “Diagn´ostico mediante pruebas cl´ınicas”. Para poder seguir este c´odigo se recomienda observar la Red Bayesiana ilustrada en la figura 2.3 de la secci´on 2.2.2.

Mediante estos c´odigos se obtuvieron las probabilidades de que el paciente tenga o no c´ancer pulmonar (C) dado el resultado de la radiograf´ıa de torax (R) (P (C | R)). La interpretaci´on de los resultados aqu´ı presentados se muestran en la secci´on 2.2.2.

CAP´ITULO 3

3.5.2.

43

C´ odigo para “Diagn´ ostico m´ edico”

La Red Bayesiana de la figura 2.4 ilustra el ejemplo de “Diagn´ostico m´edico” de la secci´on 2.2.3.

Con los c´odigos aqu´ı mostrados se obtienen las probabilidades P (C | T ) y P (B | T ), es decir, la probabilidad de que el paciente tenga o no c´ancer pulmonar (C) dado el

CAP´ITULO 3

44

s´ıntoma de tos cr´onica y la probabilidad de que el paciente tenga o no bronquitis (B) dado el s´ıntoma de tos cr´onica, respectivamente. La interpretaci´on de estos resultados se muestra en la secci´on 2.2.3.

3.5.3.

C´ odigo para “Bronquitis - C´ ancer Pulmonar”

En la figura 3.7 de la secci´on 3.4.1 se muestra la gr´afica de la Red Bayesiana de este ejemplo, con la interpretaci´on de los resultados obtenidos.

CAP´ITULO 3

45

CAP´ITULO 3

46

Sea la evidencia E los antecedentes de tabaquismo (A), el s´ıntoma de tos cr´onica (T ) y el resultado de la radiograf´ıa de torax (R). Mediante estos c´odigos se obtienen las probabilidades P (C | A, T, R) y P (B | A, T, R), es decir, la probabilidad de que el paciente tenga c´ancer pulmonar dada la evidencia y la probabilidad de que tenga bronquitis dada la evidencia, respectivamente.

3.5.4.

C´ odigo para obtener gr´ aficas morales, triangulares y ´ arboles de uni´ on

Para obtener las gr´aficas moral, triangular y el ´arbol de uni´on de una Red Bayesiana, con las paqueterias vistas, se utilizan las siguientes funciones: moralize: Realiza la gr´afica moral de la Red Bayesiana. triangulate: Realiza la gr´afica triangular de la gr´afica moral obtenida con el c´odigo anterior. jTree: Realiza la gr´afica del ´arbol de uni´on de la gr´afica triangular obtenida con el c´odigo anterior. rip: Muestra como est´an compuestos los cliques y separadores del a´rbol de uni´on. Uso en R: Durante la parte cuantitativa del c´odigo de la Red Bayesiana se crea un objeto de la clase grain con la funci´on grain. Dicho objeto es el que se moralizar´a y triangulizar´a. El siguiente c´odigo es el empleado para realizar la gr´afica moral y triangular ´ del ejemplo 3.4.1, figura 3.8, Esto es continuaci´on del c´odigo para Bronquitis-C´ancer Pulmonar.

La gr´afica del ´arbol de uni´on se realiza mediante el siguiente c´odigo:

CAP´ITULO 3

47

N´otese que el ´arbol de uni´on en R aparece como en la figura anterior, por lo que los gr´aficos de los ´arboles de uni´on fueron realizados a mano, para que se vean de forma m´as clara los elementos de los cliques y separadores. La figura 3.9 es la misma que esta gr´afica.

Conclusiones En este trabajo se han presentado los conceptos b´asicos de Redes Bayesianas para aplicarlas en el diagn´ostico m´edico. La metodolog´ıa seguida para obtener los diagn´osticos consisti´o en utilizar tres formas de inferencia: El uso directo del Teorema de Bayes, ilustrado en el ejemplo “Diagn´ostico mediante pruebas cl´ınicas” de la secci´on 2.2.2. Inferencia directa al encontrar probabilidades marginales, mostrada en el ejemplo “Diagn´ostico m´edico” de la secci´on 2.2.3. Inferencia mediante ´arboles de uni´on, vistos en el cap´ıtulo 3, al resolver el ejemplo “Bronquitis-C´ancer Pulmonar” de la secci´on 3.4.1 Estos son ejemplos relativamente sencillos para ilustrar el diagn´ostico mediante Redes de Bayes, pero en la realidad los problemas se pueden complicar demasiado, por ejemplo la figura 3.12 es una Red Bayesiana que ilustra el diagn´ostico de hepatitis. Como puede verse hay una gran cantidad de v´ertices y aristas, lo que complica el c´alculo de la inferencia probabil´ıstica. Para este tipo de casos resulta imposible hacer los c´alculos a mano, por lo que existen programas espec´ıficos como los paquetes de R que se estudiaron en el cap´ıtulo 3, o los mencionados en la secci´on 2.2.1 que realizan la inferencia e incluso permiten visualizar de manera gr´afica la red. Las Redes Bayesianas son reconocidas como una herramienta conveniente para modelar los procesos del razonamiento m´edico, ya que combinan el conocimiento de los expertos con los datos cl´ınicos existentes. Esto permite realizar una inferencia basada en observaciones parciales que son el resultado de estudiar los datos particulares de cada paciente durante todo el proceso de diagn´ostico, pero su aplicaci´on requiere de una consideraci´on cuidadosa.

48

RESUMEN Y CONCLUSIONES

49

Figura 3.12: Red Bayesiana del diagn´ostico de hepatitis

Cabe mencionar que desde el punto de vista matem´atico, los resultados obtenidos son satisfactorios, pero desde el punto de vista m´edico pueden provocar cierta incertidumbre, por lo delicado del trabajo, ya que el m´ınimo error, en cuanto a establecer las relaciones entre las variables u obtener las probabilidades a posteriori, podr´ıa ser fatal. La experiencia del doctor no puede ser reemplazada. Tambi´en es importante trabajar en la interpretaci´on que se le da a las variables y a los resultados obtenidos, para as´ı lograr con ´exito el diagn´ostico m´edico y la toma de decisiones. En este trabajo se abordan t´ecnicas m´as complejas como son los a´rboles de uni´on, que permitieron resolver problemas para los cuales la Red Bayesiana no era suficiente y se dan las bases para la realizaci´on de futuras investigaciones sobre las diversas aplicaciones de las Redes Bayesianas en R para dar soluci´on a problemas inferenciales en otras ´areas.

Bibliograf´ıa [1] Barber, David, Probabilistic Modelling and Reasoning. The Junction Tree Algorithm, URL http://www.cs.helsinki.fi/u/bmmalone/probabilistic-modelsspring-2014/JunctionTreeBarber.pdf (Consultado en mayo 2014). [2] Barrientos Mart´ınez, R., Cruz Ram´ırez, N., Evaluaci´on del Potencial de Redes Bayesiana en la Clasificaci´on en Datos M´edicos, Art´ıculo, Facultad de F´ısica e Inteligencia Artificial, Instituto de Ciencias de la Salud, Universidad Veracruzana, Xalapa, Veracruz, M´exico, 2008. [3] Dobrow, Robert, Probability with aplications and R, Wiley, New Jersey, 2013. [4] Haigh, John, Probability Models, Springer Undergraduate Mathematics Series, UK, 2005. [5] Høojsgaard, S., Edwards, D., Lauritzen, S., Graphical Models with R, Springer, USA, 2012. [6] Koski, T., Noble, J., Bayesian Networks: An introduction, Wiley, UK, 2009. [7] Marasco, J., Doerfler, R., Doc, what are my chances?, Art´ıculo, The UMAP Journal, 2011. [8] Moy´ e, L., Statistical Reasoning in Medicine: The intuitive P-Value Primer, Springer, USA, 2006. [9] Nagarajan, R., Scutari, M., L` ebre, S., Bayesian Networks in R with Applications in Systems Biology, Springer, USA, 2013. [10] Neapolitan, Richard, Learning Bayesian Networks, Prentice Hall Series in Artificial Intelligence, USA, 2003. [11] Pourret, O., Oni´ sko, A. Bayesian Networks: A practical Guide to Applications, Wiley, 2008. 50

BIBLIOGRAF´IA

51

[12] Shahbaba, Babak, Biostatistics with R: An introduction to Statistics Through Biological Data (Use R!), Springer, USA, 2012. [13] Soler Toscano, Fernando, Cuadernos de l´ogica, epistemolog´ıa y lenguaje. Volumen 2: Razonamiento adbuctivo en l´ogica cl´asica, Individual author and College Publications, UK, 2012. [14] Stone, James, Bayes’ Rule A tutorial Introduction to Bayesian Analysis, Sebtel Press, England, 2013. [15] Taroni, F., Aitken, C., Garbolino, P., Biedermann,A.,Bayesian Networks and Probabilistic Inference in Forensic Science, John Wiley & Sons, Ltd, Inglaterra, 2006. [16] Wikipedia, Biograf´ıa Thomas Bayes (2013) URL http://es.wikipedia.org/wiki/Thomas Bayes (Consultado en mayo 2014). [17] Wikipedia, Biograf´ıa Judea Pearl (2013) URL http://es.wikipedia.org/wiki/Judea Pearl (Consultado en mayo 2014). [18] Wikipedia, R (Lenguaje de programaci´on) (2013) URL http://es.wikipedia.org/wiki/R (lenguaje de programaci %C3 %B3n) (Consultado en mayo 2014). [19] Wikipedia, Red Bayesiana (2013) URL http://es.wikipedia.org/wiki/Red bayesiana (Consultado en mayo 2014).