LECTURA 6.1 SIMULACIÓN Y ANÁLISIS DE MODELOS ESTOCÁSTICOS

Azarang M., Garcia E. Mc. Graw Hill. México

CAPITULO 1

GENERALIDADES DEL MODELADO 1.1 INTRODUCCIÓN Un modelo es una representación de la realidad desarrollado con el propósito de estudiarla. En la mayoría de los análisis no es necesario considerar todos los detalles de la realidad, entonces, el modelo no sólo es un sustituto de la realidad sino también una simplificación de ella. Tomando en cuenta las herramientas que se utilizan, una clasificación de los modelos daría como resultado: Modelos ¡cónicos

Son los modelos físicos que se asemejan al sistema real, generalmente manejados en otra escala. Modelos análogos

Son los modelos en los que una propiedad del sistema real se puede sustituir por una propiedad diferente que se comporta de manera similar. Modelos simbólicos

Son aquéllos en los que se utiliza un conjunto de símbolos en lugar de una entidad física para representar a la realidad. Los modelos simbólicos, dentro de los cuales se encuentran los modelos de simulación, se clasifican a su vez en:

Modelos determinísticos

En estos modelos, los valores de las variables no se ven afectados por variaciones aleatorias y se conocen con exactitud. Un ejemplo es el modelo de inventarios conocido como lote económico. Modelos estocásticos o probabilísticos

Los valores de las variables dentro de un modelo estocástico sufren modificaciones aleatorias con respecto a un valor promedio; dichas variaciones pueden ser manejadas mediante distribuciones de probabilidad. Un buen número de estos modelos se pueden encontrar en la teoría de líneas de espera. Modelos dinámicos

La característica de estos modelos es el cambio que presentan las variables en función del tiempo; son ejemplo de éstos los modelos de series de tiempo, pronósticos y programación dinámica. Modelos estáticos

En este tipo de modelos no se maneja la variable tiempo, esto es, representan a un sistema en un punto particular del tiempo; son ejemplo los modelos de programación lineal. Modelos continuos

Son modelos en los que las variables pueden tomar valores reales y manejarse mediante las técnicas de optimización clásica. Son ejemplos los modelos para el estudio de fluidos, intercambio de calor, etcétera. Modelos discretos

Las variables del sistema toman valores sólo en el rango de números enteros. Por ejemplo, los modelos que representen la producción de piezas en una empresa metal-mecánica. Independientemente de la clasificación de un modelo, existe una tendencia a seleccionarlos dependiendo de ciertas características, las cuales hacen más deseables algunos modelos sobre otros. La siguiente lista muestra las características principales que debe tener todo modelo: • Confiabilidad. • Sencillez. • Bajo costo de desarrollo y operación. • Manejabilidad. • De fácil entendimiento, tanto el modelo como los resultados. • La relación costo-beneficio debe ser positiva.

1.2 DISTRIBUCIONES DE PROBABILIDAD Al modelar un sistema, se debe diferenciar entre dos tipos de datos: los primeros permanecen sin cambio a través del tiempo y se conocen como "parámetros"; los segundos presentan cambios a través del tiempo y se conocen como "variables". Por ejemplo, el modelado de un sistema mediante simulación es útil cuando la información del sistema tiene carácter dinámico y probabilístico, debido principalmente a que la interacción de esa información es, por lo general, difícil de analizar. La variabilidad que presenta el segundo tipo de datos debe modelarse de acuerdo con ciertas ecuaciones matemáticas que sean capaces de reproducirla; en la mayoría de los casos dicha variablilidad puede clasificarse dentro de alguna : ución de probabilidad. Así pues, uno de los pasos más importantes de todo •1 proceso de modelado estocástico es la búsqueda de información y su análisis estadístico posterior basado principalmente en la clasificación de cada serie de datos dentro de alguna distribución de probabilidad. Algunas de las distribuciones más comunes se analizan a continuación. 1.2.1 DISTRIBUCIONES CONTINUAS Ente tipo de distribuciones se utilizan para modelar la aleatoriedad en aquellas lades o eventos en los cuales los valores de las variables pueden estar dentro de un rango de valores reales. A continuación se describen algunas de as funciones continuas más utilizadas.

Figura 1.1

Gráfica de la función de densidad uniforme.

Figura 1.2

Gráfica de la función de densidad exponencial.

Figura 1.3

Gráfica de la función de densidad de Weibull.

Figura 1.4

Gráfica de la función de densidad triangular.

Figura 1.5

Gráfica de la función de densidad normal.

Figura 1.6

Gráfica de la función de densidad lognormal.

1.2.2 DISTRIBUCIONES DISCRETAS Este tipo de distribuciones sirven para modelar la aleatoriedad de una variable que sólo puede tomar valores enteros. Las siguientes distribuciones son algunas de las más utilizadas en el modelado de sistemas estocásticos.

Figura 1.7

Gráfica de la función de probabilidad de Bernoulli.

Figura 1.8

Gráfica de la función de probabilidad uniforme discreta.

Figura 1.9

Gráfica de la función de probabilidad binomial.

Figura 1.10

Gráfica de la función de probabilidad Poisson.

Figura 1.11 Gráfica de la función de probabilidad geométrica.

Normalmente el paso de búsqueda y análisis de la información es el que más nempo consume dentro del desarrollo total del modelo; tomando en consideraión que no se cuenta con ningún tipo de información, es posible afirmar que arte puede tomar del 60 al 70% del tiempo total de desarrollo del modelo.

En la mayor parte de los sistemas, al analizar la información, ésta se encuentra iisponible en forma de series a través del tiempo, como se muestra en la ñgura 1.12. p

roducción

Figura 1.12 Serie de tiempo.

Esta información, tabulada en dicho formato no es de utilidad cuando se trata de obtener un comportamiento basado en variabilidad con cierto comportamiento probabilístico. Así pues, si el analista desea conocer el comportamiento, es necesario modificar la forma de presentación de datos y presentarla como tablas de frecuencia, con la finalidad de realizar cualquiera de las siguientes pruebas: 2

• Prueba de bondad de ajuste X . • Prueba de Kolmogorov-Smirnov.

1.3.1 PRUEBA DE BONDAD DE AJUSTE 5í2 Como ya se mencionó, esta prueba se utiliza para encontrar la distribución de probabilidad de una serie de datos. La metodología de la prueba x2 es 1a siguiente: 1. Se colocan los n datos históricos en una tabla de frecuencias de m = *ra intervalos. Se obtiene la frecuencia observada en cada intervalo i (FO¿). Se calcula la media y la variancia de los datos. 2. Se propone una distribución de probabilidad de acuerdo con la forma de la tabla de frecuencias obtenida en el paso 1. 3. Con la distribución propuesta, se calcula la frecuencia esperada para cada uno de los intervalos (FE¡) mediante la integración de la distribución propuesta y su posterior multiplicación por el número total de datos. 4. Se calcula el estimador:

5. Si el estimador C es menor o igual al valor correspondiente %2 con m - k - I grados de libertad (k - número de parámetros estimados de la distribución) y a un nivel de confiabilidad de 1 - a, entonces no se puede rechazar la hipótesis de que la información histórica sigue la distribución propuesta en el punto 2.

Ejemplo. Mediante la prueba %2 determine el tipo de distribución de probabi- 1 lidad que sigue la demanda de automóviles a un nivel del 95%, si a través del I tiempo se ha registrado el comportamiento consignado en la figura 1.13. Obtenga la tabla de frecuencias de la figura 1.13 considerando 7 intervalos y cuantificando la frecuencia para cada uno de ellos:

Figura 1.13

Comportamiento de la demanda.

La distribución de probabilidad esperada que se propone, observando los datos de la columna FO, es una distribución uniforme entre a = O y b - 13 automóviles por día, o sea:

Sustituyendo los valores de los límites para obtener F(x) y multiplicándolos por el total de datos, se tiene FE para cada intervalo.

Calculando el estadístico C con los datos de FE¿ y FO^ se obtiene C= 4.092 El valor C = 4.092, comparado con el valor de la tabla yj^%t 6 = 12.59, indica que no podemos rechazar que los datos anteriores se comportan de acuerdo a una distribución uniforme entre O y 13 automóviles demandados por día con un nivel de confianza del 95%. Entonces, Demanda ~ U (O, 13) automóviles/día.

Si el objetivo es encontrar el tipo de distribución de probabilidad de una serie de datos, es posible utilizar la prueba de bondad de ajuste de Kolmogorov-Smir-nov, la cual, comparándola con la de %2, es más eficiente en varios aspectos ya que trabaja con la distribución de probabilidad acumulada. La metodología es la siguiente: 1. Se colocan los n datos históricos en una tabla de frecuencias con m = V/7 intervalos. Para cada intervalo se tendrá la frecuencia observada ¿ (FO¿). Se calcula la media y la variancia de los datos. 2. Se divide la frecuencia observada de cada intervalo por el número total de datos. A este resultado para obtener la probabilidad observada i (PO¿). 3. Se calcula la probabilidad acumulada observada de cada intervalo (PAO¿) del paso 2. 4. Se propone una distribución de probabilidad de acuerdo con la forma de la tabla de frecuencias obtenida en 1. 5. Con la distribución propuesta se calcula la probabilidad esperada para cada uno de los intervalos (PE¿) mediante la integración de la distribución propuesta.

6. Se calcula la probabilidad acumulada esperada (PAE¡) para cada intervalo de clase. Se calcula el valor absoluto entre PAOi y PEOt para cada intervalo y se selecciona la máxima diferencia, llamándola DM. 8. El estimador DM se compara con un valor límite correspondiente a la tabla 6 en el apéndice B con n datos y a un nivel de confiabilidad de 1 - a. Si el estimador DM es menor o igual al valor límite de la tabla 6, entonces no se puede rechazar que la información histórica sigue la distribución propuesta en el paso 4.

Ejemplo. Mediante la prueba de Kolmogorov-Smirnov determine el tipo de ¡atribución de probabilidad que siguen los datos del ejemplo anterior, con un ircl del confianza del 95%. Obtenga la tabla de frecuencias, considerando 7 intervalos:

Intervalo

FO

FOA

POA

0-1

6

6

1-3 3-5 5-7 7-9

6 5 7 6

12 17 24 30

9-11 11-13

6 5

36 41

0.146 0.293 0.414 0.585 0.738 0.878 1.000

La distribución de probabilidad esperada que se propone, según los datos de columna FO, es una distribución uniforme entre O y 13 automóviles por día,

LS = límite superior de cada intervalo, Evaluando la ecuación anterior, se obtiene la tabla siguiente:

Intervalo

PAE = F (LS)

0- 1

0.0769 0.2307 0.3846 0.5384 0.6923 0.8461 1.0000

1-3 3-5 5-7 7-9

9-11 11-13

Al obtener la diferencia término a término entre PEA y POA, se tiene

El valor Z)Mes igual a la máxima diferencia, osea, 0.0694, que comparándolo contra el valor 18

20 12 7 4 2 1 5

20 32 39 43 45 46 51

0.3921 0.6274 0.7647 0.8431 0.8823 0.9019 1.0000

De acuerdo con los datos de la columna de FO, se puede pensar que siguen distribución de probabilidad exponencial con media X = 6, esto es:

Integrando la función desde el límite inferior del primer intervalo hasta el Imite superior de cada uno de los intervalos.

evaluar la ecuación anterior se obtiene Intervalo

PEA

0-3 3-6 6-9 9-12 12-15 15- 18 > 18

0.3934 0.6321 0.7768 0.8446 0.9179 0.9502 1.0000

alculando las diferencias absolutas en cada intervalo: Intervalo \PEA- POA\ 0-3 3-6 6-9 9-12 12-15 15-18 >18

0.0013 0.0049 0.0121 0.0215 0.0356 0.0483 0.0000

La DM- 0.0483 se compara con la d5o/0j51 de la tabla 6 del apéndice el valor límite es 0.1904, lo cual indica que los datos de la demanda de café siguen una distribución de probabilidad exponencial con media X — 6 toneladas/día, es decir, Demanda ~ Exp (A, - 6) toneladas de café/día. Ejemplo. Un proveedor indica que siempre entrega su mercancía en 7 días o menos. Sin embargo, el jefe del almacén hizo un muestreo de las últimas entregas de este proveedor y obtuvo lo siguiente: Días de entrega de un pedido

Frecuencia

0-1 2-3 4-5 6-7 8-9 10- 11 12- 13 14-15 16-17

0 1 8 12 20 10 3 1 0

Obviamente, no tarda 7 días o menos. ¿Qué se puede decir acerca de los días que tarda en entregar un pedido? Observando los datos se puede pensar que siguen una distribución normal con media de 8 días y una desviación estándar de 2 días. La función normal no es integrable, así que se utilizará la tabla normal estándar. Intervalo FO FOA POA(l) PEA \POA- PEA\ 0-1 2-3 4-5 6-7 8-9

10- 11 12- 13 16- 17

0 1 8 12 20 10 3 0

0 1 9 21 41 51 54 55

0.000 0.018 0.164 0.382 0.745 0.927 0.982 1.000

0.000025 0.00621 0.06681 0.3021 0.6979 0.9332 0.999975 0.99999

0.000025 0.01197 0.0968 0.0797 0.0475 0.00599 0.000025 0.000010

De la tabla con distribución normal estándar, se lee la probabilidad acumulada desde - oo hasta z¿; por ejemplo, para el tercer intervalo:

Con el valor de z3 = -1.5 se busca en la tabla normal estándar; el valor correspondiente desde - oo a -1.5 es 0.06681. El procedimiento es similar para cada uno de los intervalos. La DM- 0.0968 se compara con la d5% 55 = 0.1833, y ya que DM es menor, entonces no se puede rechazar la hipótesis de que los días de entrega de los pedidos siguen una distribución normal con media de 8 días y desviación :idar de 2 días (variancia = 4) con un nivel de confianza de 95%. Tiempo de entrega ~ N (8, 4) días Los procedimientos presentados, se encuentran ya en paquetes computacionales en los que el usuario sólo tiene que introducir la serie de datos a través rl tiempo, y con un procedimiento de prueba y error realiza la búsqueda de la distribución de probabilidad que más se adecué. Dentro de los principales paquetes que realizan este análisis se pueden citar SANDIE y STATGRAPP .\S. ambos para un ambiente DOS. Una de las ventajas de utilizar los paquetes es la rapidez con la que se puede analizar la información, siempre y cuando ésta tenga un carácter probabilístico común, como puede ser exponencial, normal, Erlang, etcétera; en caso de que la información no presente ese comportamiento, es necesario identificar otro tipo ? distribuciones más complejas y analizar en forma manual la información. Por último, es importante aclarar que el procedimiento de análisis de la formación para la búsqueda de una distribución de probabilidad conocida : rr sentado en este capítulo puede evitarse, asimismo, se puede manejar toda la información mediante distribuciones de probabilidad generales.

1.4

PROBLEMAS

-1. Una máquina procesa piezas con un tiempo que sigue una distribución exponencial con media de 20 minutos/pieza. Indique cuál es la probabilidad de que una pieza cualquiera sea procesada en un tiempo mayor a 35 minutos. .-2, Si la estatura de los bebés recién nacidos sigue una distribución normal (4.100, 0.500) kg, indique cual es la probabilidad de que un recién nacido pese: a) menos de 3.800 kg, fe) entre 3.900 y 4.050 kg, c) más de 5.100 kg. .3. Si el tiempo entre llegadas a un restaurante sigue una distribución exponencial con media de 15 minutos, calcule la probabilidad de que el tiempo entre llegadas sea menor a 15 minutos. .4. El tiempo entre fallas de una máquina es Weibull con parámetros de forma y escala de 2 y 50, respectivamente. ¿Cuál es la probabilidad de que una máquina falle antes de 45 horas de trabajo? -5. Si el número de roturas/tonelada en la producción de hilo poliéster sigue una distribución geométrica conp = 0.5, calcule la probabilidad de: a) obtener 3 defectos/tonelada, 6) tener entre 4 y 10 defectos, c) no tener defectos.

1.6. Si para el problema anterior la distribución de probabilidad es Binomial con N = 10 y p = 0.4, ¿qué valores de probabilidad se obtendrían? 1.7. Para el siguiente conjunto de números: 5, 8, 4, 7, 8, 2, 4, 4, 3, 5, 6, 7, 8, 4, 8, 7, 3, 4, 5, 6, 7, 2, 3, 4, 5 3, 5, 6, 1, 2, 3, 2, 5, 6, 7, 8, 7, 1, 5, 6, 7, 3, 4, 2, O, 1, O, O, 2, 3 realice la prueba de bondad de ajuste para determinar si siguen una distribución uniforme entre O y 8, a un nivel de confianza del 95%. 1.8. Realice la prueba de Kolmogorov-Smirnov a los números de la siguiente lista y demuestre a un nivel 1 - a = 95% que son uniformes (O, 1).

0.778 0.899 0.895 0.678

0.897 0.277 0.907 0.845

0.951 0.341 0.002 0.963

0.234 0.456 0.345 0.298

0.395 0.482 0.404 0.622

0.234 0.789 0.982 0.045

0.783 0.456 0.123

0.405 0.479 0.345

1.9. Los telares de tipo picañol detienen su producción de tela automáticamente al ocurrir una rotura, hasta que un operario va a repararla. El tiempo entre paros de las máquinas ha arrojado los siguientes resultados medidos en minutos: 1.88 3.53 1.42 0.39 0.80 0.54 0.53 1.28 0.34 5.50 1.90 1.80 0.82 0.01 4.91 0.15 0.79 2.16 0.10 0.35 0.02 0.21 0.05 1.10 0.36 2.81 0.80 0.04 0.24 0.90 1.50 0.26 1.49 0.26 1.03 0.53 0.63 0.66 0.45 1.73 2.62 0.36 2.03 0.17 0.38 2.67 2.03 1.00 4.29 0.48 Determine con un nivel de aceptación 1 - a = 90% la distribución de probabilidad del tiempo entre paros. 1.10. Los datos en meses del tiempo entre fallas de un automóvil son: 36.33 48.00 32.02 36.78 38.52 40.33 35.78 45.39 35.99 36.68 41.52 36.54 36.60 40.56 40.42 33.92 39.82 34.48 34.35 37.73 35.89 31.75 41.91 45.70 31.50 44.58 34.04 32.03 48.53 47.29 41.91 38.45 36.10 40.57 34.28 35.90 48.47 32.86 40.91 32.80 38.69 41.33 49.31 45.99 34.06 37.46 35.97 39.22 41.92 31.08 Construya un histograma y determine la distribución de probabilidad a un nivel 1 - a = 95% con la prueba de bondad de ajuste %2. 1.11. Datos históricos en minutos del tiempo de inspección de la elongación de un hilo de nylon son: 2.71 2.12 1.66 0.34 2.24 6.92 4.01 7.96 13.51 3.57 1.12 1.18 4.18 3.08 0.80 3.86 0.57 0.57 1.80 3.50 5.31 2.52 2.40 3.10 2.34 4.48 12.09 2.62 3.13 16.47 2.19 0.32 18.24 1.87 4.90 17.21 0.53 1.97 0.00 4.24 0.71 5.13 1.87 2.73 4.83 3.76 8.88 1.94 3.73 8.94 Construya un histograma y determine la distribución de probabilidad a un nivel 1 - a = 95% con la prueba de bondad de ajuste i2.

El número de horas de vida de un componente electrónico se comporta de acuerdo con los datos históricos siguientes: 151.3 155.1 150.1 158.7 148.8 148.7 147.9 153.1 151.6 150.9 149.2 160.3 157.7 146.9 150.6 146.8 144.5 160.9 147.7 150.0 157.1 136.6 146.7 142.8 150.0 144.5 156.2 145.6 150.2 151.7 158.8 149.6 144.8 145.2 158.8 150.1 149.6 142.1 150.6 151.6 145.5 154.6 158.4 164.2 152.6 144.5 147.5 142.3 149.3 148.5 Construya un histograma y determine la distribución de probabilidad de los datos a un nivel 1 - a = 90% utilizando la prueba de bondad de ajuste de Kolmogorov-Smirnov. El peso (kg) de 50 piezas se comporta aleatoriamente de acuerdo con: 0.13 45.2 8. 6 93.1 39.7 43.45 10 . 0.74 46.0 3^,3 2 4 1 3 8 0 6 7 120. 56.1 33 . 12.7 7.08 2.87 77 0 18.6 55.6 5.50 5 4 8 8 . 8 0 7 0 45.4 28.9 15 . 17.5 32.9 19.06 17 5 8.75 3.20 14.8 1 4 1 9 1 3 . 3 6 20.8 6.44 3 . 103. 20.9 47.26 12 . 0.62 29.5 33.3 7 2 9 0 0 3 7 1 0 35.7 16.9 17.72 10.0 33.3 55.91 3. 0 20.8 34.5 9.94 2 3 2 5 3 1 6 Sería adecuado considerar que el peso se distribuye exponencialmente con ji = kg? I resultado de aceptación o rechazo de 50 lotes consecutivos se codifica con 1 o O, respectivamente. A partir de los resultados siguientes,

1

0

0

0

0

0

0

0

0

0

1

0

1

0

1

0

0

0

0

0

1 1

0

1 1 1

0

0

1

1

0

0

1

0

1 1 1

0

0

0

1

0

0

0

0

0

0

0

1

0

íestre que el evento "aceptar un lote" sigue una distribución Bernoulli con p - 0.35 con un nivel de confianza 1 - a de 95%. Se sospecha que el número de defectos/lámina en cierto proceso sigue una distribución binomial con p = 7 y TV = 5. A partir de la siguiente muestra de 50 datos:

demuestre si las sospechas son ciertas mediante la prueba de bondad de ajuste un nivel de confianza del 90%. En caso negativo, ¿qué distribución de proba-hflidad sería más adecuada para modelar el número de defectos?