UNIVERSIDAD TECNOLÓGICA DEL PERÚ Vicerrectorado de Investigación

ESTADÍSTICA I TINS Básicos CONTABILIDAD

TEXTOS DE INSTRUCCIÓN BÁSICOS (TINS) / UTP

Lima - Perú

ESTADÍSTICA I

© ESTADÍSTICA I Desarrollo y Edición

:

Vicerrectorado de Investigación

Elaboración del TINS

:

• Ing. José Fernández Chavesta • Ing. Tito Agüero Arias

Diseño y Diagramación

:

Julia Saldaña Balandra

Soporte académico

:

Instituto de Investigación

Producción

:

Imprenta Grupo IDAT

Queda prohibida cualquier forma de reproducción, venta, comunicación pública y transformación de esta obra.

2

ESTADÍSTICA I

“El presente material contiene una compilación de obras de Estadística publicadas lícitamente, resúmenes de los temas a cargo del profesor; constituye un material auxiliar de enseñanza para ser empleado en el desarrollo de las clases en nuestra institución. Éste material es de uso exclusivo de los alumnos y docentes de la Universidad Tecnológica del Perú, preparado para fines didácticos en aplicación del Artículo 41 inc. C y el Art. 43 inc. A., del Decreto Legislativo 822, Ley sobre Derechos de Autor”.

3

ESTADÍSTICA I

4

ESTADÍSTICA I

Presentación La Matemática, ciencia de la más alta jerarquía, en el concierto de las Ciencias, desde los albores de la civilización sigue siendo la base del desarrollo científico, tecnológico y humanístico de nuestro mundo. La Estadística como conjunto de conocimientos de la Matemática, se erige en el espacio del pensamiento probabilístico; permite la sistematización y análisis de datos, la síntesis de resultados en el tratamiento de datos, conduce a la validación de resultados y facilita la producción de informes confiables; basado en datos obtenidos en diferentes sucesos ocurridos en el acontecer de los actos del hombre. En cada espacio de la actividad del hombre y de la dinámica de la sociedad organizada, los procesos de medición, las técnicas de evaluación, los métodos de optimización, los métodos de pronóstico, las técnicas de confiabilidad, la teoría de decisiones, etc., se valen de la Ciencia de la Estadística; tanto en el gobierno de un Estado, cuando en la gestión óptima y confiable de empresas, como también en la dirección humanística de las instituciones educativas, la validación de las investigaciones, etc. De allí que, en la formación académica de profesionales, se debe conceder al estudio de la Estadística un espacio sustancial, en la convicción de dotar a sus estudiantes un instrumento matemático analítico pertinente a la necesidad que plantea un determinado ejercicio, problema o proyecto de orden macro o micro económico. En este marco, se ha desarrollado el presente texto de instrucción, dirigido a estudiantes de Contabilidad; basado en un acucioso trabajo de selección de temas, contenidos en diferentes fuentes bibliográficas, concordantes con el sillabus de la Asignatura de Estadística I. El trabajo prolijo de recolección y selección ha sido posible gracias a la denodada labor académica de los profesores José Fernández Chavesta y Tito Agüero Arias, quienes han cristalizado su experiencia profesional y académica en la preparación del presente texto. El texto en mención plasma la preocupación institucional de innovación de la enseñanza-aprendizaje en educación universitaria, que en acelerada continuidad promueve la producción de materiales educativos, actualizados en concordancia 5

ESTADÍSTICA I

a las exigencias de estos tiempos y ha sido estructurado según los siguientes capítulos: El capítulo I comprende la parte introductoria al curso, el desarrollo de algunos conceptos básicos así como la importancia de la estadística, métodos estadísticos, variables y su clasificación, y la escala de medición de las variables. El capítulo II comprende el estudio de la recolección y procesamiento de datos, así como el diseño de cuestionarios. El capítulo III trata de la Organización y Distribución de frecuencias. El capítulo IV trata sobre la Presentación Tabular y la presentación Gráfica de Datos. El capítulo V introduce las Medidas de tendencia Central (Media Aritmética, Geométrica, Armónica), la Mediana y la Moda. El capítulo VI abarca el estudio de las Medidas de posición (cuartiles, deciles, percentiles). El capítulo VII nos introduce al tema de las Medidas de dispersión (rango, desviación media, desviación estándar, varianza y coeficiente de variación). El capítulo VIII trata de la Regresión y Correlación lineal simple. Al finalizar estas líneas, el reconocimiento institucional a los profesores Ing. José Fernández Chavesta e Ing. Tito Agüero Arias, quienes habiendo trabajado con denuedo han hecho posible éste texto de instrucción, como expresión de su destacada labor profesional y académica. VICERRECTORADO DE INVESTIGACIÓN

6

ESTADÍSTICA I

Índice

CAPÍTULO I Introducción: Conceptos Básicos ............................................................. 1.1 Definición ........................................................................................... 1.2 Importancia de la Estadística .............................................................. 1.3 ¿Por qué se aplica tan poco? .............................................................. 1.4 Métodos Estadísticos .......................................................................... 1.5 Ramas de la Estadística....................................................................... 1.6 Población o Universo.......................................................................... 1.7 Muestra .............................................................................................. 1.8 Parámetro y Estadígrafo...................................................................... 1.9 Variables ............................................................................................. 1.10 Medición de las variables.................................................................... Ejercicios .....................................................................................................

11 11 11 12 13 14 15 15 15 15 16 18

CAPÍTULO II 2.1 Recolección y Procesamiento de Datos .............................................. 21 2.2 Diseño de Cuestionarios ..................................................................... 22 CAPÍTULO III 3.1 Clasificación de Datos ........................................................................ 31 CAPITULO IV 4.1 Representación de Datos..................................................................... 4.2 Tablas o Cuadros Estadísticos ............................................................ 4.3 Gráficos o Diagramas ......................................................................... Ejercicios .....................................................................................................

43 43 46 54

CAPÍTULO V 5.1 Medidas de Resumen .......................................................................... 61 5.2 Medidas de Tendencia Central............................................................ 61 5.3 Relación entre la Media Aritmética, Mediana y Moda....................... 72

7

ESTADÍSTICA I

CAPÍTULO VI 6.1 Medidas de Posición ........................................................................... 6.2 Cuartiles para Datos no Agrupados .................................................... 6.3 Deciles para Datos no Agrupados....................................................... 6.4 Percentiles para Datos no Agrupados ................................................. 6.5 Cuartiles para Datos Agrupados ......................................................... 6.6 Deciles para Datos Agrupados............................................................ 6.7 Percentiles para Datos Agrupados ......................................................

79 79 81 82 84 85 87

CAPÍTULO VII 7.1 Medidas de Dispersión........................................................................ 89 7.2 Características de las Medidas de Dispersión..................................... 96 Ejercicios ..................................................................................................... 96 CAPÍTULO VIII 8.1 Medidas de Forma .............................................................................. 8.2 Coeficiente de Asimetría .................................................................... 8.3 Coeficiente de Curtosis ....................................................................... Ejercicios .....................................................................................................

103 103 105 107

CAPÍTULO IX 9.1 Distribuciones Bidimensionales.......................................................... 9.2 Coeficiente de Correlación Lineal ...................................................... 9.3 Regresión Lineal ................................................................................. Ejercicios .....................................................................................................

113 114 117 120

Bibliografía ................................................................................................. 131

8

ESTADÍSTICA I

Distribución Temática CLASE 1-2 3-4 5-6 7-8 9-10 11-12 13-14 15-16 17-18

19-20 21-22 23-24

25-26

TEMA Introducción, Métodos Estadísticos, Variables. Manejo de variables Recolección y procesamiento de datos Diseño de cuestionarios Organización y Distribución de frecuencias Presentación Tabular y Gráfica de Datos(Casos prácticos) Medidas de tendencia Central (Media Aritmética, Geométrica, Armónica) Práctica N° 1 La Mediana: Concepto Aplicaciones Calculo de la Mediana aplicación en la administración La Moda : Concepto Aplicaciones Calculo de la moda (casos prácticos) Relación entre la Media aritmética, Mediana y Moda (Escogimiento para los casos prácticos) Problemas de Aplicación en la Administración Análisis Unidimensional con las medidas de posición central Práctica N° 2 Repaso general Problemas de Aplicación EXAMEN PARCIAL Medidas de dispersión: Rango y Cuantiles, Desviación Cuantil y Desviación Media Calculo del Rango Desviación Cuartel y Desviación media (Aplicaciones ) Concepto de los Sextiles, Deciles, Percentiles Práctica N° 3 La varianza con datos no agrupados y agrupados. Calculo de la Varianza(Problemas de Aplicación) Desviación standard: Características y propiedades. Práctica N° 4

9

SEMANA HORAS 1

5

2

5

3

5

4

5

5

5

6

5

7

5

8

5

9

5

10

2

11

5

12

5

13

5

14

5

ESTADÍSTICA I

CLASE 27-28

29-30

31-32

33-34

TEMA Coeficiente asimetría: coeficiente intercuartilico. Problemas de aplicación con la desviación estándar y el coeficiente de Variación Coeficiente de kurtosis, coeficiente de sesgo, coeficiente de variabilidad. Resolución de problemas sobre mediadas de Asimetría y Curtosis y análisis Unidimensional Práctica N° 5 Análisis bidimensional, variables nominal, ordinal, matriz 2 x 2 tablas de contingencia. Casos Prácticos Regresión simple nivel de medición, intervalo y razón. Regresión simple. Cálculo e interpretación. Problemas de pronosticación y predicción aplicando Regresión y correlación lineal simple EXAMEN FINAL EXAMEN SUSTITUTORIO

10

SEMANA HORAS 15

5

16

5

17

5

18

5

19 20

2 2

ESTADÍSTICA I

CAPÍTULO I

Introducción: Conceptos Básicos

1.1.

DEFINICIÓN La Estadística es un conjunto de técnicas utilizadas para recopilar, organizar, presentar, analizar e interpretar datos, con el fin de obtener conclusiones y tomar decisiones sobre determinados hechos o fenómenos en estudio. Desde un punto de vista Científico la estadística es una ciencia que está ligada a los métodos científicos en la toma, recopilación, crítica, clasificación, presentación y análisis de la información. En conclusión, la estadística es el conjunto de procedimientos que nos permiten analizar la muestra

1.2.

IMPORTANCIA DE LA ESTADÍSTICA La Estadística es importante porque a través de sus técnicas se puede reunir información para su respectivo análisis y posterior toma de decisiones. Las estadísticas son fundamentales a los efectos de gestionar y mejorar temas o actividades tales como: • • • • • • • • • •

El control de calidad. El nivel de averías y sus frecuencias. Los tiempos para cambios o preparación de herramientas. Los niveles de productividad de distintos procesos, actividades y productos. Los costos correspondientes a distintos tipos de conceptos y actividades. La gestión de créditos y cobranzas. El seguimiento del flujo de fondos. Los niveles de satisfacción de los clientes y usuarios. Los tipos de accidentes y sus frecuencias. El análisis paretiano de defectos, costos, rentabilidades, ventas. 11

ESTADÍSTICA I

• • • • • • • • • • • • • • • • • • • • • •

1.3.

Ventas por clientes, vendedores, zonas y productos. Predicciones de ventas por zonas, productos, servicios o sucursales. Capacidad de los procesos en cuanto a generación de niveles de costos, calidad y productividad. Tiempos totales de ciclos productivos. Tiempos de respuestas. Gestión de inventarios. Cumplimiento de aprovisionamiento por parte de los proveedores. Predicción de ventas por canales de comercialización. Proyectos de inversión. Probabilidades para la construcción del "Árbol para la Toma de Decisiones". Evolución de los distintos ratios económicos – financieros y patrimoniales a lo largo del tiempo. Estudios e investigación de mercado. Tiempos de máquinas y personal por actividad. Cantidad y representación porcentual de distintos problemas y sus efectos económicos en la organización. Tasa de polivalencia del personal. Productos más demandados, a nivel global, por zona y por canal de comercialización. Porcentajes de actividades generadoras de valor agregado para los clientes finales, de valor agregado para la empresa y carentes de valor agregado. Tiempos promedios, máximos y mínimos de reparaciones por tipo de averías. Cálculos de costos y en especial para el Costeo Basado en Actividades. Para los cálculos de productividades. Coeficientes de correlación. Estadística del personal (directivos y empleados)

¿POR QUÉ SE APLICA TAN POCO? En parte por una cuestión cultural de parte de los empresarios, pero en mayor medida a la falta de preparación de los profesionales, en materia estadística, sobre todo de aquellos que asesoran en cuanto a la gestión de las empresas. Lo antes descrito es menos frecuente en los países anglosajones, los cuales tienen una fuerte cultura e inclinación por las estadísticas y las probabilidades. 12

ESTADÍSTICA I

Otro tanto se da en Japón o Corea, países que dan a la educación de las estadísticas y matemáticas una fuerte preponderancia en sus planes de estudios y luego en la aplicación práctica. Sin lugar a dudas la cuestión no es disponer de datos estadísticos, si los mismos no son debidamente interpretados, o ni siquiera son tenidos en consideración. Por lo tanto es menester concientizar y formar a los directivos y empleados acerca de la fundamental y trascendental importancia de la información estadística a la hora de planificar, dirigir y controlar la marcha de la empresa. Las estadísticas combinadas con el Control de Gestión y el Tablero de Comando están en condiciones de producir resultados verdaderamente arrolladores. Si a ello se le suma las posibilidades para las grandes empresas de disponer de sistemas de simulación, las decisiones estratégicas que se adopten tomarán nuevas formas y colores.

1.4.

MÉTODOS ESTADÍSTICOS 1.4.1 Concepto Son un conjunto de procedimientos que se aplican en una secuencia lógica con el fin de recopilar, organizar, presentar, analizar e interpretar datos de algunos hechos concretos.

1.4.2. Etapas El estudio de los métodos estadísticos comprende las siguientes etapas: • Etapa de planeamiento • Etapa de recolección de datos • Etapa de elaboración de datos • Etapa de presentación de datos • Etapa de análisis e interpretación de datos • Etapa de publicación de datos

13

ESTADÍSTICA I

1.5.

RAMAS DE LA ESTADÍSTICA 1.5.1. Estadística Descriptiva Es la parte de la estadística que se encarga en la recolección, crítica, clasificación, simplificación, presentación y análisis descriptivos de los datos. A la estadística descriptiva se le puede destacar mediante el siguiente diagrama:

1.5.2. Estadística Inferencial Es la rama de la estadística que se encarga de Inferir o estimar los problemas de los parámetros de la población a partir de las conclusiones del análisis de la muestra.

14

ESTADÍSTICA I

1.6.

POBLACIÓN O UNIVERSO Conjunto grande y completo de individuos, elementos o unidades que presentan características comunes.

1.7.

MUESTRA Es un subconjunto de la población.

1.8.

PARÁMETRO Y ESTADIGRAFO 1.8.1. PARÁMETRO Es una medida que se utiliza para describir las características de la población, para ello es necesario la información completa de la población, las conclusiones contienen una certidumbre total. Las más importantes son: La media poblacional (Ux) La varianza poblacional (σ2) La proporción poblaciónal (P)

1.8.2. ESTADIGRAFO Es una medida utilizada para describir las características de la muestra y las conclusiones contienen un cierto grado de incertidumbre o de probabilidad. Las mas usadas son: La media muestral ( x ) La varianza muestral (s2) La proporcion muestral (p)

1.9.

VARIABLES Son magnitudes que tienden a sufrir modificaciones o cambios de un dominio determinado. Estadísticamente es una característica que posee una población y puede tomar diferentes valores.

15

ESTADÍSTICA I

1.9.1. CLASIFICACIÓN Y MANEJO DE VARIABLES 1.9.1.1.VARIABLES CUALITATIVAS Su dominio de variación es objeto de clasificación. Ejemplos: Lugar de nacimiento: Lima, Lambayeque, Trujillo. Estado Civil: soltero, casado, viudo, divorciado, conviviente.

1.9.1.2.VARIABLES ORDINALES Su dominio de variación es objeto de clasificación y orden. Ejemplo: Nivel de Instrucción : Analfabeto, primaria, secundaria, superior técnica, superior universitaria. Nivel socioeconómico: alta, media, baja.

1.9.1.3.VARIABLES CUANTITATIVAS Su dominio de variación puede ser contado o medido. Se clasifica en:

A) V. CUANTITATIVA DISCRETA Cuando los valores del dominio de variación son contados, por lo tanto solo asumen valores enteros. Elemplos: Número de nacidos vivos, Número de alumnos, Cantidad de trabajadores.

B) V. CUANTITATIVA CONTINUA Cuando los valores del dominio de variación pueden ser medidos; pueden asumir valores decimales. Ejemplos: Peso, Temperatura, Talla, Sueldo, utilidades, costos de produccion, etc.

1.10. MEDICIÓN DE LAS VARIABLES A)

Escala Nominal Es el nivel mas simple de medición donde la variable establece categorías sin importar el orden. En este nivel de medición las categorías solo se nombran o se enumeran, pero no se comparan. Ejemplo: estado civil, sexo.

16

ESTADÍSTICA I

B)

Escala ordinal Es el segundo nivel de medición donde la variable establece categorías jerarquizadas. Este nivel de medición no mide las magnitudes de las diferencias, pero si permite apreciar que los valores asignados a los individuos caen más altos o más bajos que otros. Ejemplo: -Totalmente de acuerdo -De acuerdo -Neutral -En desacuerdo -Totalmente en desacuerdo.

C)

Escala de Intervalo Es el tercer nivel de medición , entre cuyos diversos valores que toma la variable existen a la vez, clasificación, orden y grados de distancia iguales entre las diferentes categorías, es decir, los intervalos son considerados como equivalentes y con un origen convencional( la unidad de medida no necesariamente tiene que partir del valor cero; solo sirve como punto o valor de comparación). Ejemplo: Temperatura: Una persona puede llegar a tener 39ºC de fiebre, pero ello no significa que su grado de temperatura haya tenido que partir de 0ºC. Rendimiento académico Indices de precios al consumidor

D)

Escala de razón o proporción Es el nivel más alto de medición, y donde la variable supone o comprende a la vez a todos los casos anteriores: clasificación, orden, distancia, y origen único natural( la unidad de medida necesariamente tiene que partir del valor cero). Ejemplo: -

Edad:un trabajador puede tener 30 años de edad, pero para llegar a esa edad, necesariamente ha tenido que partir de 0 años Estatura Peso Sueldo

17

ESTADÍSTICA I

CLASIFICACIÓN DE LAS VARIABLES SEGÚN SU ESCALA DE MEDICIÓN NOMINAL -CUALITATIVAS -ORDINALES ORDINAL

VARIABLES INTERVALO

CUANTITATIVAS -Discretas -Continuas

RAZÓN O PROPORCIÓN

EJERCICIOS 1) 2) 3)

4) 5) 6)

Explique la diferencia entre una variable y una constante Explique la diferencia entre datos cualitativos y cuantitativos Indique si las siguientes variables son cualitativas, cuantitativas u ordinales: a) La vida útil de un fluoresecente b) La marca de un foco c) La cotización de acciones d) El número de accidentes por semana en una fábrica e) Los tipos de accidentes que ocurren en una fábrica f) El número de personas que asisten diariamente al trabajo, en una fábrica. g) Categoría Docente h) Lugar de nacimiento i) Sueldo de los trabajadores j) Nivel de inflación mensual Explique la diferencia entre una escala nominal y una ordinal Explique la diferencia entre una escala ordinal una de intervalo Explique la diferencia entre una escala de intervalo y una de razón

18

ESTADÍSTICA I

7)

8) 9)

10) 11)

La siguiente información se incluye en el registro personal de Arturo Fernández: a) Sexo: maculino b) Estado civil: soltero c) Escolaridad: Superior d) Estatura: 1.63 m. e) Peso: 56 kg. f) Años de experiencia: 5 años g) Labor: Asistente Administrativo h) Sueldo: S/1600 mensual Se pide clasificar cada elemento del registro personal según el tipo de dato y el método de medida. ¿Cuáles son las ramas de la Estadística? defina c/u de ellos con ejemplos. ¿Qué tipo de variables son las siguientes, según su naturaleza:? Ej. 9.1. Número de empresas: ...... Cuantitativas discretas........................... 9.2. Velocidad de los móviles:................................................................... 9.3. Regiones:............................................................................................ 9.4. Volumen de ventas:............................................................................. 9.5. Accidentes de trabajo:......................................................................... 9.6. Estudio:................................................................................................ 9.7. Utilidades de una empresa:................................................................. 9.8. Profesionales:...................................................................................... 9.9. Clases sociales:.................................................................................... 9.10. Partidos Políticos................................................................................. ¿Qué diferencia existe entre población y una muestra? ¿Cuál es la diferencia entre Parámetro y estadígrafo? Explique detalladamente.

19

ESTADÍSTICA I

20

ESTADÍSTICA I

CAPÍTULO II

Recolección y Procesamiento de Datos 2.1.

RECOLECCIÓN Y PROCESAMIENTO DE DATOS Antes de procesar un conjunto de datos para la toma de decisiones, el analista debe encontrar los datos apropiados. La recolección de datos consiste en la obtención de la información. Se realiza teniendo en cuenta lo siguiente:

A)

FUENTES DE INFORMACIÓN a) Fuente primaria Cuando la información se obtiene directamente de la misma persona o entidad, utilizando ciertas técnicas(entrevistas, cuestionarios,etc.)

b) Fuente Secundaria Cuando la información a obtener, ya ha sido recopilada y elaborada por otras personas o instituciones.

B)

SISTEMAS DE RECOLECCIÓN DE DATOS a) Registros Ejemplos: Registro de Contribuyentes, Registro Electoral, Registro Civil.

b) Encuestas Censal. Ejemplo: Censo de población y vivienda Muestral.

C)

TÉCNICAS DE RECOLECCIÓN DE DATOS -

Cuestionarios formularios. Observación Entrevista Encuestas de puerta en puerta Teléfono 21

ESTADÍSTICA I

2.2.

DISEÑO DE CUESTIONARIOS 2.2.1. Introducción Los cuestionarios en el proceso de investigación son una práctica común utilizada por los investigadores.

2.2.2. Supuestos El uso de cuestionarios en investigación supone que: 1. El investigador debe partir de objetivos de estudio perfectamente definidos 2. Cada pregunta es de utilidad para el objetivo planteado por el trabajo. 3. El investigador debe estructurar las preguntas teniendo en mente siempre los objetivos del trabajo. 4. El que contesta está dispuesto y es capaz de proporcionar respuestas fidedignas.

2.2.3. Confiabilidad Una pregunta es confiable si significa lo mismo para todos los que la van a responder. Se puede confiar en una escala cuando produce constantemente los mismos resultados al aplicarla a sujetos similares. La confiabilidad implica consistencia. El investigador debe asegurarse que el tipo de persona a quien se le van a hacer las preguntas tenga la información necesaria para poder responder. El asegurar la respuesta de los que se les aplique el cuestionario redundará en resultados confiables. Para la confiabilidad de los resultados hay que determinar por qué no todos respondieron el cuestionario. Es necesario investigar con los no respondientes para conocer las razones. Un cuestionario largo es demasiado cansado y las preguntas finales se responden sin entusiasmo, lo cual le resta confiabilidad.

2.2.4. Validez Una pregunta es válida si estimula información exacta y relevante. La selección y la redacción influyen en la validez de la pregunta. Algunas preguntas que son válidas para un grupo de personas, pueden no serlo para otro grupo. Entre menos tenga que reflexionar el sujeto, más válida será la respuesta. La validez implica congruencia en la manera de plantear las preguntas.

22

ESTADÍSTICA I

2.2.5. Preguntas clave 1. ¿De cuánto tiempo disponen quienes responderán para contestar el cuestionario? 2. ¿Cuánto tiempo tiene el investigador para editarlo, presentarlo, aplicarlo, codificarlo, procesarlo y analizarlo? 3. ¿Qué tan dispuestos están para responder quienes van a contestar? 4. ¿Cuánto costará su aplicación?

2.2.6. Antes de diseñar el cuestionario Es necesario determinar si el cuestionario tendrá preguntas abiertas o cerradas. Para el análisis de las preguntas es mejor que éstas sean cerradas. Para cerrarlas, primero se deben hacer las preguntas abiertas con una muestra de la población. Con estas respuestas, se pueden diseñar las preguntas cerradas. Es necesario estar seguros de que los encuestados respondan. Por eso es importante conocer las opiniones de los posibles sujetos acerca del tema a investigar, antes de diseñarlo. El contacto inicial es fundamental para lograr que los encuestados respondan. Hay que preparar una explicación para los encuestados sobre la importancia de su participación y lo que se hará con los resultados de la investigación. En esta explicación se les debe asegurar el anonimato de su participación y ofrecerles una copia del resumen del trabajo cuando éste esté terminado (habrá que cumplir esta promesa). El investigador tiene que pensar en cómo va a presentar los resultados antes de elaborar el cuestionario. Hay que involucrar a alguien que sea responsable de capturar la información de los cuestionarios así como a una persona que haga el procesamiento de los datos en la computadora. Ellos pueden ayudar a determinar la mejor presentación de cada una de las preguntas.

2.2.7. Diseño del cuestionario El título del trabajo debe estar al inicio del cuestionario. Hay que incluir instrucciones breves, pero incluirlas. Es conveniente usar una tipografía diferente a la de las preguntas. Los puntos importantes deben ir cercanos al inicio del cuestionario.

23

ESTADÍSTICA I

Hay que numerar las preguntas. Es importante agrupar las preguntas en secciones lógicas. Debe haber una categoría para cada posible respuesta, pues si se omite una opción, se forzará al que responde a contestar de una manera que no refleje su respuesta. Por eso en ocasiones se necesita abrir una opción de "otros" con un renglón amplio para dejar esa parte de la pregunta abierta. También, a veces, es necesario incluir una opción de "no sé", pues si no existe ésta, el sujeto puede seleccionar cualquier respuesta simplemente para no dejarla en blanco. Se debe asegurar que cada opción que se presente sea excluyente. Por ejemplo: ¿Qué carro tienes? ___ Camioneta ___ Wolkswagen ___ de cuatro puertas ___ de dos puertas. Alguien puede responder Wolkswagen y de dos puertas. Para evitar ese problema las opciones deben ser: ___ Camioneta ___ Carro de dos puertas ___ Carro de cuatro puertas ___ Wolkswagen de dos puertas ___ Wolkswagen de cuatro puertas. Las preguntas se deben colocar verticalmente pues en ocasiones es confuso si hay que marcar en las líneas antes o después de la opción. Ejemplo: ____ Excelente ____Regular ____Bueno ____Malo ____Pésimo Es mejor: ___Excelente ___Regular ___Bueno ___Malo ___Pésimo Hacer preguntas para un grupo reducido de personas no es aconsejable. Por ejemplo: En caso afirmativo contesta las siguientes diez preguntas. Quien respondió negativamente a la pregunta anterior pensará que el cuestionario no es para él. 24

ESTADÍSTICA I

Además una pregunta de ese tipo puede formularse en forma diferente. Por ejemplo: ¿Estás casado? ____sí ____no. En caso afirmativo ¿trabaja tu cónyuge? ____sí ____no. Es mejor preguntar: ¿Trabaja tu cónyuge? ___sí ___no ___no estoy casado. Hay que evitar preguntas cuyas respuestas tengan que priorizarse. Es difícil priorizar si las opciones son más de tres. Hacerlo del 1 al 10 es imposible mentalmente. Además eso implica que no hay dos posibles respuestas con la misma prioridad y en ocasiones eso no es cierto. Antes de redactar una pregunta hay que pensar en las diversas maneras que se puede presentar la respuesta y hay que seleccionar la más fácil tanto para el sujeto como para el análisis de datos que se tendrá que hacer con las respuestas. Si se tiene que escoger entre la facilidad de respuesta para la computadora y la comodidad del que responde, siempre se debe seleccionar el segundo. Un cuestionario bien construido satisface las necesidades del encuestado así como de la computadora. Las preguntas deben incluir un solo elemento. Hay que evitar hacer dos preguntas en una. Esto es muy común y confunde mucho al lector. Por ejemplo: ¿Puedes estudiar cuando hay un radio o una televisión prendida en tu casa? Puede que con radio si pueda estudiar la persona que responde, pero no con televisión. Otro ejemplo La información ¿es interesante e importante? Si interesante e importante son sinónimos, entonces la pregunta es redundante. Con un solo adjetivo es suficiente. La pregunta debe ser corta; eso evita incluir más información de la que se debe preguntar

2.2.8. Consejos sobre la presentación La apariencia física de un cuestionario es la imagen del investigador con el encuestado. Su misma forma motiva o impide su lectura.

25

ESTADÍSTICA I

En cuestionarios largos, hay que identificar cada página con alguna marca por si se separan las hojas. Lo mejor es no hacer cuestionarios largos Si hay preguntas por ambos lados de la página, al final de la primera hoja se debe poner "vuelta" La hoja no debe verse sobrecargada. Los espacios vacíos son agradables. Hay que dejar suficiente espacio entre cada una de las preguntas.

2.2.9. Consejos sobre el lenguaje Una redacción pobre influye en el resultado y también en la calidad de las respuestas obtenidas. El sujeto no debe tener que adivinar lo que se quiso preguntar. La pregunta debe estar escrita en lenguaje claro. La palabra cuestionario asusta o intimida al que va a responder. Encuesta es mejor. Las preguntas deben estar redactadas para no ofender al sujeto. Hay que utilizar lenguaje común y corriente. No especializado. No deben usarse palabras vagas ni palabras ambiguas o que tengan varios significados. Las preguntas no deben estar en negativo. No se debe abreviar. La formulación correcta de una pregunta es una tarea muy difícil, mucho más de lo que una persona que nunca ha diseñado un cuestionario puede imaginarse. Hay que hacerlo con cuidado.

2.2.10. Consejos generales El contestar un cuestionario es una imposición para quien lo contesta. Hay que estar conscientes de ello. El uso de un cuestionario es únicamente para hacer preguntas que no se pueden obtener de ninguna otra manera. Lo que recuerda el sujeto no se debe considerar como un hecho. Puede ser muy diferente el hecho a lo que recuerda la persona que está respondiendo. Todas las preguntas en el cuestionario tienen que ser analizadas. Por eso hay que seleccionar únicamente reactivos indispensables para obtener los objetivos del trabajo. Es indispensable pilotear el cuestionario.

26

ESTADÍSTICA I

Se debe establecer el procedimiento de análisis y evaluación de los resultados antes de llevar a cabo la encuesta. Así se sabrá cómo analizar las respuestas. Vale la pena consultar a expertos en estadística y en procesamiento de datos antes de aplicar un cuestionario. Las posibles respuestas tienen que estar cerca de las preguntas. Esto evita confusiones. El decidir utilizar un cuestionario obedece a los indicadores que el autor determine en sus fundamentos teóricos. Analizar los indicadores puede ayudar al investigador a determinar que el cuestionario no es el instrumento adecuado para el estudio que desea realizar.

2.2.11. Análisis de los resultados Es necesario una revisión detallada de lo que se introduce a la computadora para asegurar que la información que entre a ella sea la que está plasmada en el cuestionario. Hay que revisar la información capturada con cada cuestionario. No se debe esperar hasta el final, pues pudiera suceder que es necesario hacer todo de nuevo.

2.2.12. Algunos consejos para entrevistas Si la entrevista es en una oficina, es necesario asegurarse que el entrevistado estará disponible y que tiene el tiempo para responder a las preguntas. El entrevistador tiene que ser muy objetivo en sus presentaciones para que en todas se utilice el mismo tono de voz, pronunciación de los reactivos, modismos, el lenguaje del cuerpo y vestimenta. Todo esto influye en las respuestas y se trata de que todos los entrevistados entiendan lo mismo y estén motivados de la misma manera. El entrevistar en la casa del sujeto a veces resulta práctico para el entrevistado. Quizá a través de una llamada por teléfono, se pueda hacer una cita con él. Hay tres factores importantes en una entrevista: 1) La calidad del entrevistador. Hay que aprender a establecer un contacto positivo desde el primer momento. Hay cosas impredecibles que afectarán sin que el entrevistador pueda remediarlas: la edad, el sexo, su manera de vestir y su personalidad. Ni modo. Por eso hay que cuidar todo lo demás.

27

ESTADÍSTICA I

2)

La introducción que hace el entrevistador al entrevistado. Le tiene que indicar el objetivo del estudio y debe convencerlo de que vale la pena responder a sus preguntas.

3)

La manera como está estructurada la entrevista. Hay que iniciar con preguntas interesantes para "enganchar" al entrevistado. Ejemplos: ¿Qué clientes les generan los mayores beneficios? ¿Qué zonas o regiones son las que generan mayores ventas en unidades monetarias y volúmenes? (en total y por producto) ¿Cuáles son las reparaciones que más se han producido en el último trimestre? ¿En que día de trabajo de cada mes logra llegar al punto de equilibrio? ¿Qué tipo de reparaciones han generado mayores egresos? ¿Puede decirme cuales son la capacidad de los diferentes procesos en materia de costos, productividad y calidad? ¿Cuál es el nivel de rotación o permanencia de clientes? ¿Sabe en que etapa del ciclo de vida se encuentra cada uno de sus productos o servicios? ¿Cuál es el nivel de satisfacción de sus clientes? ¿Cuáles son las enfermedades que más clientes reportan? ¿Cuáles son los problemas que más consultas originan? Si posee un restaurante ¿cuáles son los platos más pedidos durante el año y por temporada? ¿Cuáles son los vinos más pedidos y cuáles los más vendidos? Si dirige una librería ¿cuáles son los temas más vendidos? ¿Cuál es la rentabilidad que le aporta cada tema? ¿Cómo contribuye cada tema a lograr el punto de equilibrio? Si dirige un hotel ¿cuál es el tiempo promedio de estadía? ¿La cantidad de clientes por zona o región? ¿La cantidad de tiempo por región y su relación con la cantidad de tiempo de estadía? ¿La facturación por profesión, zona, motivo de su visita (turismo, negocios, salud, profesionales, capacitación, otros)?

28

ESTADÍSTICA I

2.2.13. Ejemplo de Cuestionario o Formulario PERFIL SOCIOECONÓMICO Y ACADÉMICO DEL ESTUDIANTE DEL PRIMER CICLO O INGRESADO A LA UNIVERSIDAD Esta encuesta es ESTRICTAMENTE CONFIDENCIAL,tiene como finalidad recolectar datos sobre aspecto socio-econòmicos,familiares y acadèmicos del estudiante ingresado a la universidad,a fin de disponer de un marco de referencia para orientar el proceso Enseñanza-Aprendizaje y mejorar el rendimiento acadèmico del universitario.Por tanto,le agradecemos responder con la mayor sinceridad,seriedad y objetividad. CODIGO o MATRICULA: ESPECIALIDAD 1. DATOS GENERALES: 1.1. SEXO: Hombre( ) Mujer ( ) 1.3. LUGAR DE NACIMIENTO Provincia:________________ Departamento:______________ 1.5. En que distrito vive reside actualmente?

NOMBRE Y APELLIDO: CICLO o SEMESTRE

1.2. EDAD en años:21 1.4. ESTADO CIVIL: Soltero ( )1 Casado Viudo ( )3 Divorciado Conviviente ( )5 Separado 1.6. ¿Cuántos años reside Ud. en lima?

( )2 ( )4 ( )6

2. ANTECEDENTES DE LA SECUNDARIA: 2.1. En què colegios terminó sus estudios secundarios? Estatal( )1 No estatal( )2

2.2. ¿En qué provincia està ubicado su colegio secundario?

2.3. ¿Cuándo(fecha)terminò sus estudios secundarios? 2.5. ¿Qué asignaturas le agradaban o tenìa màs èxito en secundaria? 1._______________________ 2._______________________ 3._______________________ 4._______________________

2.4. ¿Qué año repitio alguna vez? 1ro() 2do() 3ro() 4to() 5to() 2.6. En què asignaturas desaprobò alguna vez en la secundaria? 1.________________________ 2.________________________ 3.________________________ 4.________________________

3. ASPECTOS ACADÈMICOS UNIVERSITARIOS: 3.1. ¿Cuándo postuló por primera vez, a la U. ò 3.2. ¿Cuándo ingresò a esta universidad? Centro Sup. De estudios? 3.3. En què asignatura tienes dificultades ahora en la 3.4. Al mes,cuànto estima que gasta universidad? 1.Derechos de enseñanza:________ 1._______________________ 2.Material de enseñanza:_________ 2._______________________ 3.Pasajes,refrigerios,etc.:_________ 3._______________________ 4._______________________ Total: 3.5. ¿Cómo calificarìa la calidad de las clases que 3.6. Ha seguido otra profesiòn: recibe ahora? Si( ) Cuàl:_______________ Muy buenas( ) Buenas( ) Regulares ( ) Malas ( ) 3.7. Està Ud. siguiendo la Profesiòn que pensò estudiar: Si ( ) No( ) ¿Qué carrera preofesional le gustarìa seguir?____________________

29

ESTADÍSTICA I

4. ASPECTOS LABORALES, ECONOMICOS Y FAMILIARES: 4.1. Trabaja actualmente en algo? 4.2. ¿Què hace o que cargo desempeña? Si( )Donde:___________________ 4.3. SI NO TRABAJA, DE QUIEN DEPENDE ECONÒMICAMENTE? De los padres ( )1 De padres y hermanos ( )2 Sòlo del padre ( )3 Sòlo de la madre ( )4 Sòlo de hermanos ( )5 Otros ( )6 4.4. Nivel Educativo de sus pares: 4.5. Señale eb que intervalo se encuentran los Padre Madre ingresos mensuales de: 1 ( )Primaria Incompleta ( ) Padre Madre 2 ( )Primaria Completa ( ) 1) Menos de 50 ( ) ( ) 3 ( )Secundaria Incompleta ( ) 2) De 50 a 70 ( ) ( ) 4 ( )Secundaria Completa ( ) 3) De 71 a 100 ( ) ( ) 5 ( )Superior Incompleta ( ) 4) De 101 a 150 ( ) ( ) 6 ( )Superior Completa ( ) 5) De 151 a 200 ( ) ( ) 6) De 201 a 250 ( ) ( ) 4.6. Carrera profesional de: 7) De 251 a 300 ( ) ( ) Padre:_______________________ 8) De 301 a 400 ( ) ( ) 9) Màs de 400 ( ) ( ) Madre:______________________ 4.7. Si trabajan actualmente,que ocupaciòn o cargo desempeñan: 1._______________________ 2._______________________ 3._______________________

4.8. ¿Cuántos hermanos son Uds.?

4.10. ¿Què profesiones tienen sus hermanos? 1.____________________ 2.____________________ 3.____________________

4.11. La vivienda de Uds. es propia?

4.9. ¿Cuántos de Uds. Esrudian actualmente?

4.12. Sus padres, tienen auto propio? No( ) Si( )

4.13. Si ud. trabaja en algo, en cuànto estima su ingreso mensual? (S/.) 1( )Menos de 50 2( )De 50 a 100 3( )De 101 a 150 4( )De 151ª 200 5( )De 201 a 300 6( )Màs de 300 4.14. Sus sugerencias para mejorar el Rendimiento Acadèmico y la Formaciòn Profesional en su Especialidad: 1.______________________________________________________________________ 2.______________________________________________________________________ Obsevaciones y comentarios: Fecha

Responsable: Estudios y Datos R.A.

30

ESTADÍSTICA I

CAPÍTULO III

Clasificación de Datos 3.1.

CLASIFICACIÓN DE DATOS La clasificación tiene por finalidad organizar los datos en categorías, y realizar una Distribucion de Frecuencias mediante una tabla

3.1.1. DISTRIBUCIÓN DE FRECUENCIAS DE LOS DATOS CUALITATIVOS Sean Ci : C1,C2,C3,.......................Cn, las categorías de la muestra o población, un cuadro o tabla que ordena los datos es: CATEGORIAS C1 C2 C3 C4 . . . . Cn

No de Datos (fi) f1 f2 f3 f4 . . . . fn

Ejemplo: La compañía Multicomp solicitó a varias personas que indicaran sus colores favoritos. 15 personas indicaron que el color rojo era su color favorito, 10 escogieron el verde, 5 eligieron el azul y 3 el amarillo. Tabular los datos. Solución: COLOR Rojo Verde Azul Amarillo Total

FRECUENCIA 15 10 5 3 33

31

ESTADÍSTICA I

3.1.2. DISTRIBUCIÓN DE FRECUENCIAS DE LOS DATOS CUANTITATIVOS Para su organización y posterior análisis, es necesario agruparlos en clases o intervalos. Esta forma de organización se conoce con el nombre de Distribución de Frecuencias.

3.1.2.1. ELABORACIÓN DE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIAS Cálculo del rango o recorrido: (R) Es la distancia entre el dato mayor y el dato menor. Se halla restando el dato máximo y el dato mínimo.

Determinación del número de clases: (K) El número de clases es el número de categorías o intervalos en el que se va a dividir la información. Por lo general, el número de clases a elegir varía entre 5 y 15. La siguiente tabla puede servir de guía para determinar el número de clases: Número de observaciones Menos de 30 De 30 hasta menos de 60 De 60 hasta menos de 130 De 130 hasta menos de 250 De 250 hasta menos de 500 De 500 hasta menos de 1000 De 100 hasta menos de 2000 De 2000 hasta menos de 4000 De 4000 hasta menos de 8000 De 8000 a más

Número de clases 5 6 7 8 9 10 11 12 13 14

Sin embargo, existe también otra forma de determinar el número de clases, mediante la Regla de Sturges: K= 1 + 3,3 log N, N=número total de datos. También se puede aplicar la siguiente fórmula: K=R/n, n = número total de datos.

32

ESTADÍSTICA I

Amplitud del Intervalo: (C) Llamado también ancho de clase, es la cantidad de datos que están comprendidos en un intervalo de clase. Se forma por 2 límites que van a definir una clase. Límites son los valores extremos de un intervalo : límite superior y límite inferior. C= (R+1) / K El valor de C se redondea al entero solo si los datos son enteros. Si son decimales, C se redondea al número de decimales de la información. El tipo de redondeo es por exceso.

Intervalos de clase: (I) Representa los límites inferior y superior de cada clase

Frecuencia absoluta simple: (f) Es el número de veces que se repiten los valores dentro de los diferentes intervalos en que se ha dividido la información

Frecuencia absoluta acumulada: (F) Se obtiene sumando y acumulando los valores absolutos clase por clase en orden ascendente.

Frecuencia relativa simple: (h) Resulta al dividir cada una de las frecuencias absolutas simples entre la frecuencia total

Frecuencia relativa acumulada: (H) Se obtiene sumando y acumulando los valores relativos clase por clase en orden ascendente. Por lo general, a las frecuencias relativas las multiplicamos por 100, para obtener los valores expresados en porcentaje.

Punto medio o marca de clase: (Xi) Es la semisuma de los límites inferior y superior de cada intervalo de clase. 33

ESTADÍSTICA I

Ejemplo: Se tiene el número de clientes por día en una lavandería: 21 24 27 20

25 21 17 19

35 23 26 20

22 16 19 23

18 23 29 22

Se pide clasificar los datos en un cuadro de frecuencias.

Solución:

a)

Cálculo del rango o recorrido: ( R ) R= Xmax – Xmin = 35 – 16 = 19

b)

Determinación del número de clases: ( K ) K=1 + 3,3 log n K=1 + 3,3 log 20 K= 1 + 3,3 x 1,30 K=5,29 = 5 (se debe redondear siempre al entero más próximo)

c)

Determinación de la amplitud del intervalo: ( C ) C= (R+1) / K = (19+1) / 5 = 4

d)

Formación de los intervalos de clase: ( Ii ) Dato mínimo=16( es el límite inferior de la primera clase).A este primer límite se le suma la amplitud del intervalo(C) y se obtiene el límite inferior de la segunda clase (20), y así sucesivamente.

*

Se recomienda que los intervalos formados deben ser de tipo semi abiertos por ser éstos mas funcionables y de mayor operatividad a los problemas de tipo cuantitativo.

Los límites superiores se determinan por deducción y de la misma forma anterior:

34

ESTADÍSTICA I

Ki

Ii [16 – 20> [20 – 24> [24 – 28> [28 – 32> [32 – 36>

1 2 3 4 5

e)

Frecuencia absoluta simple( fi ) Se contabiliza la cantidad de datos que hay en cada intervalo de clase

Ki

Ii

Conteo ó fi

1 2 3 4 5

[16 – 20> [20 – 24> [24 – 28> [28 – 32> [32 – 36>

5 9 4 1 1 ∑ fi =20

La tabla completa de frecuencias quedaría de la siguiente forma: Ki 1 2 3 4 5

Ii [16 – 20> [20 – 24> [24 – 28> [28 – 32> [32 – 36>

fi 5 9 4 1 1

∑ fi =20

20

Fi 5 14 18 19 20

hi 0,25 0,45 0,20 0,05 0,05

∑ hi =1,00

35

Hi 0,25 0,70 0,90 0,95 1,00

hi(%) 25 45 20 5 5

100

Hi(%) 25 70 90 95 100

ESTADÍSTICA I

3.1.2.2.

PROPIEDADES Y RELACIONES DE LAS FRECUENCIAS 1) Las frecuencias absolutas son cantidades enteras positivas (o cero en algunos casos). 2) 0 = < h < =1 ó 0% = < h < = 100% 3) La suma de las frecuencias absolutas de todas las clases es igual al número total de datos. 4) La suma de las frecuencias relativas es igual a 1 ó 100%. 5) La frecuencia absoluta acumulada de la última clase es igual al número total de datos. 6) La frecuencia relativa acumulada de la última clase es igual a 1 ó 100

EJERCICIOS RESUELTOS 1)

Al averiguar el grado de instrucción en una muestra de 120 trabajadores de una Empresa, se obtuvieron los siguientes resultados: Analfabetos 38, primaria 63, secundaria 16 y superior 3 Se pide: a) Ordenar la información proporcionada en el cuadro de frecuencias b) Interpretar algunos valores de las frecuencias relativas. Solución: Variable: grado de instrucción, tipo ordinal. Organización de datos:

GRADO DE NÚMERO DE INSTRUCCIÓN TRABAJADORES Analfabeta 38 Primaria 63 Secundaria 16 Superior 03 TOTAL 120 Recordar que hi = fi/n b)

FRECUENCIA RELATIVA(Hi) 0,317 0,525 0,133 0,025 1,000

FRECUENCIA RELATIVA (%) 31,7 52,5 13,3 02,5 100,0

Interpretación: h1 : el 31,7% de los trabajadores son analfabetos. h2 : el 52,5% de los trabajadores tienen instrucción primaria. h4 : el 2,5% de los trabajadores tienen instrucción superior. 36

ESTADÍSTICA I

2)

Los siguientes datos son los pesos medidos en kg. de 30 productos enlatados: 75,8 69,3 96,2 86,3 99,8 84,6 75,2 74,1 76,0 86,5 70,2 61,8 58,4 69,2 68,4 68,3 75,0 67,3 82,2 72,1 59,4 65,5 76,4 76,5 81,0 65,0 86,2 68,3 65,9 69,0 Se pide: a) Organizar los datos en una tabla completa de distribución de frecuencias. b) Interpretar el valor de algunas frecuencias. Solución: a) Variable : peso, tipo cuantitativa continua. Utilizaremos la regla de sturges : Cálculo del rango: R = Xmax – Xmin R = 99,8 – 58,4 = 41,4 Número de clases: K = 1+ 3,3 log N K = 1+ 3,3 log(30) K = 1+ 3,3(1,48) K=6 Amplitud del Intervalo: C = (R+1) /K = (41,4+1) /6 = 7,06 = 7,1(ya que los datos aparecen con un decimal) Luego, la tabla completa de frecuencias es:

Ki 1 2 3 4 5 6

Ii [58,4 – 65,5> [65,5 – 72,6> [72,6 – 79,7> [79,7 – 86,8> [86,8 – 93,9> [93,9 – 101.0> Total

fi 4 12 6 6 0 2 30

Fi 4 16 22 28 28 30

hi 0,133 0,400 0,200 0,200 0,000 0,067 1,000

37

Hi 0,133 0,533 0,733 0,933 0,933 1,000

hi(%) 13,3 40,0 20,0 20,0 00,0 06,7 100,0

Hi(%) 13,3 53,3 73,3 93,3 93,3 100,0

ESTADÍSTICA I

b)

3)

F3 : 22 productos tienen entre 58,4 y 79,6 kg de peso h2 : el 40% de los productos pesan entre 65,5 y 72,5 kg H4 : el 93,3% de los productos tienen como peso máximo 86,7 kg.

Los siguientes datos que se presentan en una tabla incompleta de frecuencias, corresponden a las calificaciones de un grupo de estudiantes del curso de estadística: Ki 1 2 3 4 5

Ii [ - > [05 - > [09 > [ > [ >

Hi(%) 20 60 70 85

fi 12

hi(%)

Si se sabe que la amplitud del intervalo es igual en todas las clases, completar los datos que faltan en la tabla de frecuencias.

EJERCICIOS 1)

Se tiene una distribución de frecuencias con 4 intervalos de amplitud constante para 50 datos: Ki 1 2 3 4

[ [ [ [

Ii -4> -6> > - 10>

fi

hi 0,08

Hi 0,40

12 0,36

Se pide completar la tabla de frecuencias. 2)

Hallar las frecuencias que faltan en el siguiente cuadro de frecuencias: Ki 1 2 3 4

Ii [ - 25> [ - > [ - 45> [ 45 - >

fi

hi 0,15 0,25

Hi

0,90 60

38

ESTADÍSTICA I

3)

Se presentan los siguientes datos correspondientes al número de calorías que se debe dar en una dieta a un grupo de 50 trabajadores de una mina: 3250 2150 1520 4238 4239

2118 3250 3842 4119 4950

3520 2455 3000 4590 3920

2118 1980 2219 2638 2215

3448 3525 2641 3792 2330

1890 2451 4445 3019 1250

2735 3767 2788 3209 4670

4520 4215 1960 4504 4575

3210 2966 2322 3722 3432

2588 4680 4520 4129 2697

Se pide agrupar los datos en un cuadro de frecuencias. 4)

Los siguientes datos corresponden a la Empresa Azucarera Tumán, sobre la clasificación del personal ocupado en el año 2006. Socios: 2800, no socios : 1100 ; eventuales: 2500. a) Ordene los datos en una tabla de distribución de frecuencias. b) Analizar algunos datos de las frecuencias halladas.

5)

En setiembre del 2006 el Dpto. de personal de una Empresa recolectó los siguientes datos, referentes al número de hijos por framilia, en una muestra de 40 familias: 6 12 4 10 11 15 9 13 8 11 9 9 8 10 12 11 10 9 8 5 12 10 12 8 9 11 12 8 7 10 11 12 9 7 8 8 9 10 13 15 a) Ordenar los datos , agrupándolos en un cuadro de frecuencias. b) Interpretar los valores de las frecuencias absolutas y relativas.

6)

Un grupo de jóvenes de la Universidad Tecnológica del Perú, de la Carrera de Administración, visitaron la Empresa Azucarera Tumán, en la Provincia de Chiclayo, y se interesaron por el nivel de ingresos de sus trabajadores. Una muestra de 35 trabajadores arrojó los siguientes resultados en soles(mensual): 1350 2150 2000 2100

860 1200 1500 900

750 1300 990 800

1160 960 970 700

1150 1320 920 700 850 760 1450 1090 890 760 760 1450 1350 1600 980 1230

1200 1300 1100

a) Ordenar la información agrupando los datos en un cuadro completo de frecuencias. b) Efectuar el análisis del cuadro. 39

ESTADÍSTICA I

7)

se tiene la siguiente información:

Li – Ls Xi fi [ 6.5 > [ - 10,1 > 12,5 [ > [ > Completar los datos que faltan en la tabla.

Fi

hi 0,10

22 40

0,25 0,15

8)

¿Porqué se organizan los datos en distribuciones de frecuencias?

9)

Antes de introducir una nueva llanta en el mercado, la Good Year realiza pruebas de duración de las estrías de una llanta con una muestra aleatoria de 150 llantas. La siguiente distribución de frecuencias muestra los resultados: Numero de millas(miles) De 20 a menos de 25 De 25 a menos de 30 De 30 a menos de 35 De 35 a menos de 40 De 40 a menos de 45 De 45 a menos de 50 De 50 a menos de 55 Total a) b)

Frecuencia 7 14 28 45 30 15 11 150

Construya una distribución de frecuencias relativas para este conjunto de datos Construya una distribución acumulada de frecuencias relativas que indique el porcentaje de llantas que duró más de 40000 millas.

10)

¿En qué consiste la tabulación para datos agrupados?

11)

¿Qué ventajas tiene las frecuencias relativas frente a las absolutas?

12)

¿Qué quiere decir que los errores por agrupamiento se compensan?

13)

A continuación se transcribe las edades de 50 integrantes de un programa de servicio social del gobierno.

40

ESTADÍSTICA I

81 66 43 39 92 a) b) c)

53 88 54 87 72

67 67 76 76 82

60 65 70 97 80

80 52 97 86 70

64 72 68 45 65

56 74 82 60 50

54 65 75 45 58

91 73 79 65 70

61 69 60 76 56

Construir con estos datos un cuadro estadístico de distribución de frecuencias e interprete. Halle el porcentaje de integrantes que tiene edades menor de 65 años. Hallar la edad mínima del 45% de los integrantes.

41

ESTADÍSTICA I

42

ESTADÍSTICA I

CAPÍTULO IV

Presentación de Datos 4.1.

PRESENTACIÓN DE DATOS La presentación de datos se hace principalmente a través de 2 formas: a través de cuadros o tablas estadísticas , y a través de gráficos estadísticos.

4.2.

TABLAS O CUADROS ESTADÍSTICOS Consiste en la presentación ordenada de los datos en filas y columnas con el objeto de facilitar su lectura y posterior análisis e interpretación.

4.2.1.

PARTES DE UNA TABLA ESTADÍSTICA 1) Título Expresa en forma resumida la información que contiene. Debe ser breve, concreto y completo. Debe contener lo siguiente: La institución o área geográfica al que pertenecen los datos. Responde a la pregunta: ¿a dónde pertenece la información?. Ejemplo: Universidad de San Martín de Porres. La naturaleza de los datos. Responde a la pregunta: ¿qué contiene la tabla?. Ejemplo: Alumnos matriculados. El criterio de la clasificación de los datos. Responde a la pregunta ¿cómo se presenta el contenido e la tabla?. Ejemplo: Por años, según sexo. El período que abarca la información que se está presentando. Responde a la pregunta: ¿cuándo?. Ejemplo: perído 2000 – 2002. Cuando es necesario, debajo del título, debe expresarse la unidad de medida de la variable. Ejemplo: miles de soles, en %, etc. 2) Encabezado Está formado por la primera fila superior y nos indica las características(variables) del fenómeno en estudio. 43

ESTADÍSTICA I

3) Columna matriz Está formado por la primera columna de la izquierda y nos indica también las características (variables) del fenómeno en estudio. Ejemplo: Años 4) Cuerpo de la tabla Es el contenido de la tabla, es decir, la información que se presenta en filas y columnas. 5) Fuente Nos indica el lugar de donde se obtuvieron los datos, contenidos en la tabla. Ejemplo: Universidad de San Martin de Porres, Dpto. de Estadística. Ejemplo:

Cuadro Nº 1 UNIVERSIDAD DE SAN MARTIN DE PORRES Alumnos matriculados por años, según sexo 2000 – 2005 AÑOS 2000 2001 2002 2003 2004 2005

SEXO Masculino 1200 1350 1680 4320 6900 8000

Femenino 1450 1200 2000 3520 5800 7500

TOTAL 2650 2550 3680 7840 12700 15500

FUENTE: Universidad de San Martin de Porres, Dpto. de Estadística.

4.2.2. TIPOS DE TABLAS ESTADÍSTICAS 1)

Tablas de una sola entrada o entrada simple Presentan una sola variable, análisis o característica y su clasificación va definida en columna matriz. Ejemplo:

44

ESTADÍSTICA I

Cuadro Nº 2 BASA S.A. Número de trabajadores estables, por nivel de instrucción Lima, Marzo 2006 NIVEL DE INSTRUCCIÓN Analfabeta Primaria Secundaria Superior TOTAL

CANTIDAD 38 63 16 03 120

% 31,7 52,5 13,3 02,5 100,0

FUENTE: Basa S.A., Dpto. de Personal

2) Tablas de 2 entradas o entrada doble Presentan simultáneamente 2 variables, análisis o características relacionados, donde una va definida en columna matriz (vertical) y la otra en encabezado (horizontal). Ejemplo:

Cuadro Nº 3 BASA S.A. Número de trabajadores estables, por nivel de instrucción, según sexo Marzo 2006 NIVEL DE INSTRUCCIÓN Analfabeta Primaria Secundaria Superior TOTAL

SEXO Masculino 28 32 09 01 70

Femenino 10 31 07 02 50

TOTAL 38 63 16 03 120

FUENTE: Basa S.A., Dpto. de Personal

3)

Tablas Complejas Presentan en forma simultánea 3 ó más variables. Ejemplo:

45

ESTADÍSTICA I

Cuadro Nº 4 BASA S.A. Número de trabajadores estables, por nivel de instrucción, según estado civil y sexo Marzo 2006 NIVEL DE INSTRUCCIÓN Analfabeta Primaria Secundaria Superior TOTAL

ESTADO CIVIL SOLTERO CASADO Masculino Femenino Masculino Femenino 06 04 22 06 09 06 23 25 03 02 06 05 01 02 18 12 52 38

TOTAL 38 63 16 03 120

FUENTE: Basa S.A., Dpto. de Personal

4.3.

GRÁFICOS O DIAGRAMAS Es la representación en dibujo que permite destacar la magnitud o modificación de las características de una variable, o comparar las diversas relaciones entre variables, ofreciendo una visión panorámica y rápida del fenómeno en estudio.

4.3.1. TIPOS DE GRÁFICOS Entre los principales, tenemos: -Gráfico de columnas -Gráfico de barras -Gráfico de líneas -Gráfico circular -Gráfico xy (dispersión), etc.

4.3.2. IMPORTANCIA Los gráficos son importantes porque permiten observar en forma instantánea el comportamiento de los datos de una variable determinada, y además nos permite formar una idea bastante aproximada sobre las tendencias de las variables en el futuro. Ejemplo: Se tiene el siguiente cuadro:

46

ESTADÍSTICA I

Nº de cajas de gaseosas (en miles) consumidas en Lima, por años y según Distrito: DISTRITO Lima Miraflores Ate Surquillo Surco Los Olivos San Martín

AÑO 2003 250 300 180 220 198 230 150

AÑO 2004 180 320 230 240 190 200 120

AÑO 2005 300 400 350 340 420 450 400

AÑO 2006 500 450 600 560 540 559 700

Se pide construir los gráficos que permitan representar lo siguiente: a) La venta de gaseosas de los 3 primeros Distritos y de los 2 primeros años. b) La venta de gaseosas de los 4 últimos Distritos y de todos los años. c) El número total de cajas consumidas por año. Solución: a)

CAJAS DE GASEOSAS CONSUMIDAS POR AÑOS SEGUN DISTRITO (miles)

CANTIDAD (miles)

350 300 250 200

LIMA

150

MIRAFLORES

100 50 0 AÑO 2003

AÑO 2004

47

ESTADÍSTICA I

b) CONSUMO DE GASEOSAS POR AÑOS SEGUN DISTRITO (miles) 700 600 500 CANTIDAD 400 (miles) 300 200 100 0 SURQUILLO

AÑO 2003 AÑO 2004 AÑO 2005 AÑO 2006 LOS OLIVOS DISTRITO

c)

CANTIDAD (miles de cajas)

CONSUMO DE CAJAS DE GASEOSAS POR AÑOS (miles) 4500 4000 3500 3000 2500 2000 1500 1000 500 0 AÑO 2003

AÑO 2004

48

AÑO 2005

AÑO 2006

ESTADÍSTICA I

CONSUMO DE CAJAS DE GASEOSAS POR AÑOS (miles) AÑO 2003 1800 AÑO 2006 4000

AÑO 2004 1790 AÑO 2005 2690

4.3.3. HISTOGRAMA Es un gráfico que se utiliza para representar la distribución de frecuencias absolutas o relativas simples. Consiste en un grupo de rectángulos adyacentes que tienen sus bases en el eje de las abscisas (donde se representan los intervalos de clase de la variable) y altura igual a las frecuencias de cada clase. Ejemplo: Se tiene el siguiente cuadro: Cuadro Nº5 ONDIVEL INTERNATIONAL SAC NUMERO DE TRABAJADORES POR EDAD Mayo 2006 EDAD (años) [20 – 25> [25 – 30> [30 – 35> [35 – 40> [40 – 45> [45 - 50> TOTAL Elaborar el Histograma. 49

CANTIDAD 25 20 32 30 14 12 133

ESTADÍSTICA I

Solución:

CANTIDAD DE TRABAJADORES POR EDAD (años)

Nº DE TRABAJADORES

35 30

20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49

25 20 15 10 5 0 1 EDAD

4.3.4. POLÍGONO DE FRECUENCIAS Consiste en un gráfico lineal que se obtiene uniendo los puntos medios de la parte superior de los rectángulos, en el Histograma. Se debe cerrar el polígono, es decir, interceptarlo con el eje x. Ejemplo: Con referencia al cuadro anterior grafique el polígono de frecuencias Solución: Se agrega una clase antes de la primera, y otra después de la última clase: EDAD (años) [15 - 20> [20 – 25> [25 – 30> [30 – 35> [35 – 40> [40 – 45> [45 – 50> [50 - 55>

CANTIDAD 0 25 20 32 30 14 12 0 50

ESTADÍSTICA I

Luego, el gráfico sería:

NUMERO DE TRABAJADORES

CANTIDAD DE TRABAJADORES POR EDAD 35 30 25 20 15 10 5 0 15-19

20-24

25-29

30-34

35-39

40-44

45-49

50-54

EDAD (años)

4.3.5. OJIVAS Son gráficos que se utilizan para representar las frecuencias acumuladas absolutas o relativas. Son de 2 tipos: “Ojivas menor que”, y “Ojivas o más” Para su elaboración se trabaja con los límites inferiores de cada intervalo de clase, y las frecuencias acumuladas correspondientes. Ejemplo: para el caso anterior:

51

ESTADÍSTICA I

Cuadro Nº6 ONDIVEL INTERNATIONAL SAC NUMERO DE TRABAJADORES POR EDAD Mayo 2006 EDAD (años) [20 – 25> [25 – 30> [30 – 35> [35 – 40> [40 – 45> [45 - 50> TOTAL

CANTIDAD 25 20 32 30 14 12 133

a) Graficar la ojiva “menor que” Solución: Agregamos una clase anterior a la primera y posterior a la última clase: Frecuencia Acumulada “menor que” 0 25 45 77 107 121 133

EDAD (años) Menor que 20 Menor que 25 Menor que 30 Menor que 35 Menor que 40 Menor que 45 Menor que 50

52

ESTADÍSTICA I

Ojiva menor que: ONDIVEL INTERNATIONAL SAC DISTRIBUCION ACUMULADA "menor que" DE TRABAJADORES POR EDAD Mayo 2006

140

NUMERO DE TRABAJADORES

120

100

80

60

40

20

0 20-24

25-29

30-34

35-39

40-44

45-49

50-54

EDAD (años)

b) Graficar la ojiva “ó mas” Solución: Agregamos una clase anterior a la primera y posterior a la última clase: Frecuencia Acumulada “ó más” 133 121 107 77 45 25 0

EDAD (años) 20 ó más 25 ó más 30 ó más 35 ó más 40 ó más 45 ó más 50 ó más

53

ESTADÍSTICA I

Ojiva ó más:

ONDIVEL INTERNATIONAL SAC - DISTRIBUCION ACUMULADA "o más" DE TRABAJADORES POR EDAD - Mayo 2006

NUMERO DE TRABAJADORES

140 120 100 80 60 40 20 0 20-24

25-29

30-34

35-39

40-44

45-49

50-54

EDAD (años)

EJERCICIOS 1)

En el Caserío Callanca (Dpto. de Lambayeque) se llevó a cabo un estudio para determinar el tipo de material utilizado en la construcción de sus pequeños negocios: Los resultados fueron los siguientes: quincha: 120, adobe: 480, madera: 80, ladrillo: 20, Otros: 100. a) Elaborar una tabla estadística y analizar los resultados. b) Representar la información utilizando los gráficos más apropiados.

2)

Se dispone de la siguiente información:

54

ESTADÍSTICA I

DEPARTAMENTO DE LAMBAYEQUE Número de trabajadores en un Programa ocupacional de emergencia Agosto 2005 – Noviembre 2006 NÚMERO DE TRABAJADORES 2290 3030 5400 6340 9800 12460 15600 17000 20800 25340 20900 30200 35500 39580 42000 45000

MESES Agosto 2004 Setiembre Octubre Noviembre Diciembre Enero 2005 Febrero Marzo Abril Mayo Junio Julio Agosto Setiembre Octubre Noviembre

FUENTE: Ministerio de Trabajo; Dirección general de Empleo.

Se pide representar la información utilizando el gráfico más apropiado. 3)

Antes de introducir una nueva llanta en el mercado, la Good Year realiza pruebas de duración de las estrías de una llanta con una muestra aleatoria de 150 llantas. La siguiente distribución de frecuencias muestra los resultados: Número de millas(miles) De 20 a menos de 25 De 25 a menos de 30 De 30 a menos de 35 De 35 a menos de 40 De 40 a menos de 45 De 45 a menos de 50 De 50 a menos de 55 Total

55

Frecuencia 7 14 28 45 30 15 11 150

ESTADÍSTICA I

a) Construya un histograma y el polígono de frecuencias b) Construya una ojiva “menor que” para la distribución acumulada de frecuencias relativas c) ¿Qué porcentaje de llantas duró menos de 40000 millas? d) Construya la ojiva “o más” 4)

El área de proyectos de una Empresa constructora realiza un estudio de factibilidad para determinar si debe construir un Complejo turístico. Para ello analiza las siguientes series de datos sobre el número de visitantes en el Centro de la Ciudad: Año 1991 1992 1993 1994 1995 1996 1997 1998

Visitantes 250265 250929 321333 342269 268528 468136 390139 300140

Año 1999 2000 2001 2002 2003 2004 2005 2006

Visitantes 271140 282742 244006 161524 277134 382343 617737 453881

a) ¿Qué tipo de gráfico se debe construir? b) Construya la gráfica apropiada para esta serie de datos 5)

Los siguientes datos representan las 65 determinaciones de la emisión diaria (en toneladas) de Oxido de Azufre de una planta industrial: 9 10,9 11,8 12 12,6 13 13,5 14 14,3 15,3

9,5 11 12 12 13 13 13,6 14 14,5 15,3

10 11 12 12,1 13 13,2 13,6 14,2 14,5

10 11 12 12,2 13 13,2 13,7 14,2 14,6

a) Construir una tabla de frecuencias completa b) Construir el gráfico más apropiado c) Elabore las ojivas.

56

10 11 12 12,3 13 13,4 14 14,2 15

10,5 11,3 12 12,5 13 13,5 14 14,3 15

10,6 11,7 12 12,6 13 13,5 14 14,3 15

ESTADÍSTICA I

6)

El tiempo en horas de 120 familias que utilizan su computadora se tabularon en una distribución de frecuencias de 5 intervalos de amplitud iguales a 4 siendo el tiempo mínimo de uso 2 horas la primera y segunda frecuencias iguales al 10% y 15% del total de casos respectivamente. Si el 73.75% de las familias lo usaron menos de 17 horas y el 85% menos de 19 horas. Determine las frecuencias y grafique el histograma y polígonos de frecuencias. ¿Cuál es el tiempo mínimo del 60 % de familias? ¿Cuál es el máximo inferior del 88% de familias?

7)

Después del incremento de precios en los artículos de primera necesidad, se decide hacer un estudio sobre el gasto que tiene cierto grupo de personas en un mercado, obteniéndose el siguiente resultado: Los gastos van de $22 a 27$ diarios, el 20% de las personas gasta de $23.5 o menos y el 40% gasta más de $24.75 en una distribución simétrica con 5 intervalos de clase de amplitud igual a $ 1.02 Complete el cuadro de distribución de frecuencias. Hallar el mínimo superior del 55% de personas. Grafique el histograma y ojivas.

8)

La demanda diaria de azúcar (decenas de kilos) recopilada durante 190 días en el supermercado santa Isabel se tabula en una distribución de frecuencia simétrica de cinco intervalos de amplitud iguales a cuatro. Si la marca de clase del intervalo central es igual a 12 y la curva de frecuencias absolutas satisface la relación: f(x)=-(x-12)2 + 70 Complete el cuadro de distribución de frecuencias. Grafique el histograma y polígono de frecuencia acumulados (las dos ojivas). Halle la demanda diaria del 80% de menores gastos.

9)

Las puntuaciones de un Test, aplicado a un grupo de estudiantes se tabularon en una distribución de frecuencias de seis intervalos de igual amplitud de manera que la marca de clase del segundo intervalo es 25 y el limite superior del quinto intervalo es 60; si las frecuencias en porcentajes

57

ESTADÍSTICA I

del primero al cuarto son respectivamente 15, 20, 35, y 14; y el 94% de las puntuaciones son menores que 60. Organice el cuadro de distribución de frecuencias Grafique el polígono e histograma de frecuencias ¿Qué porcentaje de estudiantes tienen a lo más 53 puntos? ¿Qué porcentaje de estudiantes tiene al menos 38 puntos? ¿ Hallar analítica y gráficamente 10) Los ingresos familiares en decenas de dólares, se tabularon en una distribución de frecuencias Simétricas de seis intervalos, siendo las frecuencias f3 =30, f2 = f1 + 5, y F6 = 150. Además se índica que el límite inferior del sexto intervalo es igual a 60 y el 75% de los ingresos son mayores de 43.5 Completar el cuadro de distribución de frecuencias Calcular el ingreso máximo inferior del 60% de familias Calcule el ingreso mínimo superior del 70% de las familias. 11) La inversión anual, en miles empresas fue: 37 17 27 28 36 19 29 37 15 39 18 30 28 33 28 22 46 25 25 18

de dólares de una muestra de 50 pequeñas 10 33 41 23 24

34 27 26 31 18

25 27 12 29 42

6 24 46 35 38

24 26 18 21 39

20 31 23 25 14

Aplicando la regla general para la construcción de distribución de Frecuencia. Construya el cuadro de distribución de frecuencias. Grafique el histograma y polígono de frecuencias Determine el % de empresas con una inversión entre 14 mil y 36 mil dólares Determine el número de empresas cuya inversión sea menos de 25 mil dólares Determine el % de empresas con una inversión de al menos 22 mil dólares. 12) Se tiene una distribución de frecuencias absolutas y relativas de los dividendos en % pagados por acción por 20 compañías elegidas al azar en el mercado de Lima:

58

ESTADÍSTICA I

13) Se tiene: % INTERVALOS [0.00 , 0.10> [0.10 , 0.20> [0.20 , 0.30> [0.30 , 0.40> [0.40 , 0.50> [0.50 , 0.60> [0.60 , 0.70> [0.70 , 0.80> [0.80 , 0.90> [0.90 , 1.00> TOTAL

N° DE EMPRESAS 1 0 1

FRECUENCIAS RELATIVAS 0.05

0.15 0.20 2 0.00 3 0.00

Con esta información se pide: a) Graficar el Histograma y el polígono de frecuencias b) Hallar el % de dividendos pagados por Acción menor de 0.57% analítico y gráficamente. c) Hallar la cantidad de empresas cuyos dividendos por Acción sean al menos de 0.63% analítico y gráficamente. d) Hallar el dividendo en % pagados por acción mínima del 45% de las empresas

59

ESTADÍSTICA I

60

ESTADÍSTICA I

CAPÍTULO V

Medidas de Resumen 5.1.

MEDIDAS DE RESUMEN Las medidas de resumen o estadígrafos más importantes son: De tendencia central: media aritmética, mediana, moda, media geométrica,etc. De posición: deciles, cuartiles, percentiles De dispersión: rango, desviación media, desviación estándar, varianza, coeficiente de variación.

5.2.

MEDIDAS DE TENDENCIA CENTRAL Son valores que sirven para describir las características de la población o muestra además sirven para evaluar los valores anormalmente altos o anormalmente bajos (Valores extremos) También son estadígrafos que permiten hallar un solo valor numérico e indican el centro de un conjunto de datos.

5.2.1. Media o promedio aritmético ( X ) Es la medida más estable

A) Media aritmética para datos no agrupados a) Media aritmética o promedio aritmético simple Se calcula sumando todos los valores de la distribución y dividiendo dicha suma entre el total de los datos. X=

∑ xi , N

N = número de datos.

Ejemplo: Las notas de práctica de un alumno en el curso de Estadística son: 15, 12, 13. 17 y 08. Si se elimina la nota más baja, hallar el promedio aritmético de las prácticas. Solución: 61

ESTADÍSTICA I

X=

∑ xi = 15 + 12 + 13 + 17 = 14, 25 = 14 4

N

b) Media aritmética o promedio ponderado Se utiliza cuando prevalece cierto peso, importancia o repetición de los datos en el estudio. X=

∑ xi.ni ∑ ni

xi = cada uno de los datos ni = peso, importancia o repetición Ejemplo: Las notas de un alumno en el curso de estadística fueron: Promedio de prácticas = 12 (peso 1) Examen parcial = 09 (peso 1) Examen final = 14 (peso 2) Hallar el promedio final del curso. Solución: Los pesos de cada rubro son diferentes, luego: X=

∑ xi.ni = (12 × 1) + (09 × 1) + (14 × 2) = 12 + 9 + 28 = 49 = 12, 2 = 12 1+1+ 2 4 4 ∑ ni B) Media aritmética para datos agrupados a) Método largo X=

∑ xi.fi ∑ fi

xi = punto medio o marca de clase fi = frecuencia absoluta Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es:

62

ESTADÍSTICA I

Consumo(kg /sem) 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

Número de familias 15 26 20 13 6

Hallar el consumo de carne promedio Solución: Ii 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

fi 15 26 20 13 6 ∑fi = 80

Por fórmula: X=

Xi (0+1,9)/2 = 0,95 (2+3,9)/2 = 2,95 (2+5,9)/2 = 4,95 6,95 8,95

Xi.fi 15x0,95 = 14,925 26x2,95 = 76,70 20x4,95 = 99,00 90,35 53,70 ∑ Xi.fi = 334,00

∑ xi.fi = 334 = 4, 2 kg ∑ fi 80

Rpta.: El consumo promedio de carne de las 80 familias, es de 4,2 kg.

b) Método clave Se utiliza cuando las cantidades de los intervalos o frecuencias son muy grandes. Se le llama también técnica de codificación, y consiste en utilizar códigos en vez de marcas de clase. La codificación consiste en elegir un punto de partida al que se le asigna un código cero(U = 0), el cual puede ser asignado a cualquier clase, pero se recomienda hacerlo en la clase donde se ubica la máxima frecuencia. Luego se asignan para las clases inferiores, códigos o valores de U enterosnegativos en forma correlativa hasta llegar a la primera clase(-1, -2, -3 …). Para las clases superiores se asignan códigos o valores de U enteros positivos, También en forma correlativa hasta llegar a la última clase.(1, 2, 3 ….) 63

ESTADÍSTICA I

Para este método se utiliza la siguiente fórmula: ⎡ ∑ fi.U ⎤ X = X0 + ⎢ ⎥ .C ⎢⎣ ∑ fi ⎥⎦ Xo = marca de clase en donde U = 0 Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es: Consumo(kg /sem) 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

Número de familias 15 26 20 13 6

Hallar el consumo de carne promedio, utilizando el método clave Solución: Ii 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

fi 15 26 20 13 6 ∑fi = 80

Xi (0+1,9)/2 = 0,95 (2+3,9)/2 = 2,95 (2+5,9)/2 = 4,95 6,95 8,95

U -1 0 1 2 3

fi . U 150x(-1)= -15 260x0 = 0 200x1 = 20 26 18 ∑ fi . U = 49

Por fórmula: ⎡ ∑ fi.U ⎤ ⎡ 49 ⎤ X = X0 + ⎢ ⎥ .C = 2, 95 + ⎢ ⎥ .2 = 4, 2 kg ⎣ 80 ⎦ ⎣⎢ ∑ fi ⎦⎥ Rpta.: El consumo promedio de carne de las 80 familias, es de 4,2 kg. Observe el mismo resultado que el hallado por el método largo.

64

ESTADÍSTICA I

5.2.2. MEDIA GEOMÉTRICA ( Xg ) Es un estadígrafo que permite promediar series de datos como tipos de interés anual, proporciones o porcentajes, índices y tasas de crecimiento, inflación, etc. Se calcula de la siguiente forma:

a) Media geométrica para datos no agrupados Xg = (X1.X2.X3……Xn)1/n Xn = valores de los datos n = número de datos

Ejemplo: El índice de crecimiento de niños vacunados a través de los años ha sido el siguiente: 2003: 100%, 2004: 186%, 2005: 230%. Hallar el índice de crecimiento promedio. Solución: Xg = (100 x 86 x 230)1/3 Xg = 162,3% Rpta.: el índice de crecimiento anual promedio de niños vacunados es de 162,3%

b) Media geométrica para datos agrupados Xg = (X1f1.X2f2.X3f3……Xifi )1/ Σfi X1, X2, Xi = marcas de clase F1, f2,….fi = frecuencias absolutas Ejemplo: La siguiente información corresponde a los casos de tifoidea (en %), según reporte de las postas médicas donde fueron atendidos: Ki 1 2 3 4 5

Casos de tifoidea 0 – 19 20 – 39 40 – 59 60 – 79 80 – 99 TOTAL

65

Número de postas 10 14 17 8 6 55

ESTADÍSTICA I

Hallar el promedio de casos de tifoidea atendidos en las postas médicas. Solución: Calculando las marcas de clase: Ki

Casos de tifoidea

Xi

1 2 3 4 5

0 – 19 20 – 39 40 – 59 60 – 79 80 - 99 TOTAL

9,5 29,5 49,5 69,5 89,5

Número de postas(fi) 10 14 17 8 6 55

Aplicando la fórmula:

Xg = (9,510 .29, 514 .49, 517 .69, 58 .89, 56)1/55 Desarrollando directamente con calculadora o aplicando logaritmos: Xg = 36,3% Rpta.: las 55 postas atendieron en promedio el 36,3 % de los casos de tifoidea.

5.2.3. MEDIA ARMÓNICA (Ma) Es el reciproco de la suma de los valores inversos de la variable estadística divididos entre el número total de datos y se calcula con la siguiente fórmula

∑ Xi = Xa =

1 X1

N

+ X12 + ... + X1n N

Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores pequeños). Su problema: cuando algún valor de la variable es cero ó próximo a cero no se puede calcular.

66

ESTADÍSTICA I

Ejemplo: Un automóvil que hace viajes de ida y vuelta entre las ciudades A y B, realiza el viaje entre A y B a razón de 80 Km por hora y el viaje entre B y A a 120 Km por hora, La velocidad promedio del viaje de ida y vuelta será de Ma = (1/80+1/120)/2 = [(120+80)9600]/2 = 19200/200 = 96 km/h

5.2.4. LA MEDIANA (Me) Es el estadígrafo que representa el punto medio de los datos, en el cual cae el 50% de la información.

a) Mediana para datos no agrupados Es el valor central cuando la serie es impar. Cuando la serie es par la mediana es el promedio aritmético de los 2 valores centrales. Previo a su cálculo la serie de datos tiene que ordenarse de menor a mayor. Ejemplo 1: Hallar la mediana de las edades de 5 trabajadores: 20, 35, 19, 24, 31 Solución: Ordenando los datos : 19, 20, 24, 31, 35. Observamos que el dato que cae en el centro es 24, por lo tanto la mediana es 24 años. Se puede interpretar como que el 50% de los trabajadores tiene hasta 24 años de edad. Ejemplo 2: Hallar la mediana de las edades de 6 trabajadores: 48, 52, 39, 25, 53, 21 Solución: Ordenando los datos: 21, 25, 39, 48, 52, 53 Observamos que en el centro caen 2 valores: 39 y 48, por lo tanto la mediana es el promedio aritmético de los 2 valores: (39+48) / 2 = 87/2 = 43,5 años

67

ESTADÍSTICA I

b) Mediana para datos agrupados Pasos: 1) Se determina la frecuencia acumulada(Fi) 2) Se ubica la clase mediana: la clase en la cual estará incluida la mediana: (∑ fi)/2 La clase mediana será aquella en donde la primera frecuencia acumulada contenga el valor (∑ fi)/2. 3) Se aplica la fórmula:

⎡ ∑ fi ⎤ − ∑ fi −1 ⎥ ⎢ ⎥ .C Me = Li + ⎢ 2 f ME ⎢ ⎥ ⎢⎣ ⎥⎦

Li = límite inferior del intervalo de la clase mediana (∑ fi)-1 = suma de las frecuencias absolutas anteriores a la clase mediana fMe = frecuencia de la clase mediana Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es: Consumo(kg /sem) 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

Número de familias 15 26 20 13 6

Hallar la mediana del consumo de carne. Solución:

68

ESTADÍSTICA I

Consumo(kg /sem) 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

Ki 1 2 3 4 5

Número de familias

Fi

15 26 20 13 6 ∑ fi = 80

15 41 61 74 80

(∑ fi)/2 = 80/2 = 40 La primera frecuencia acumulada que contiene a 40 es 41(ver cuadro), por lo tanto la clase mediana se encuentra en la segunda clase. Luego:

Li = 2 W=2

(∑ fi)-1 = 15

fMe = 26

Reemplazando valores: ⎡ ( ∑ fi ) / 2 − ( ∑ fi ) ⎤ Me = Li + ⎢ ⎥ .C f Me ⎢⎣ ⎥⎦ ⎡ ( 80 ) / 2 − 15 ⎤ Me = 2 + ⎢ ⎥ .2 = 3, 9 kg 26 ⎣ ⎦

Rpta. : El 50% de las familias consume hasta 3,9 kg/semana de carne.

5.2.5. MODA (Mo) Es un estadígrafo que nos proporciona el valor que se presenta con mas frecuencia en una variable.

a) Moda para datos no agrupados Es el valor que más se repite en una serie de datos. Ejemplo 1: Calcular la moda de los siguientes sueldos de algunos empleados: S/ 1500, 1320, 1500, 1400, 1320, 1500, 1600, 1500 Solución:

69

ESTADÍSTICA I

La moda de los sueldos es: S/ 1500, porque es el valor que más se repite de toda la serie. Pueden existir 2 modas(bimodal) o más de 3 modas(multimodal). Ejemplo 2: Calcular la moda de los siguientes sueldos de algunos empleados: S/ 1500, 1320, 1500, 1400, 1320, 1500, 1600, 1500, 1320

Solución: La moda de los sueldos es: S/ 1500 y S/ 1320(bimodal)porque son los valores que más se repite de toda la serie. La moda es también útil cuando la variable en estudio pertenece a la escala nominal. Ejemplo 3: Hallar la moda para una muestra de consumidores según preferencias por marca de mantequilla:

MARCA DE MANTEQUILLA Astra Dorina Crema de oro Laive Ninguno TOTAL

CONSUMIDORES 20 32 18 12 8 90

Solución: La marca de mantequilla de mayor preferencia (mayor número de consumidores), según el cuadro, es Dorina, por lo tanto Mo=Dorina.

b) Moda para datos agrupados Mo = Li +

d '.C d '+ d ''

Li = límite inferior de la clase modal d’ = diferencia de la frecuencia de la clase modal y la frecuencia de la clase anterior a ella d’’ = diferencia de la frecuencia de la clase modal y la frecuencia de la clase siguiente 70

ESTADÍSTICA I

Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es: Consumo(kg /sem) 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

Número de familias 15 26 20 13 6

Hallar la moda del consumo de carne. Solución: Del cuadro anterior, observamos que la mayor frecuencia (26 familias) se ubica en la segunda clase, por lo tanto dicha clase constituye la clase modal. Luego: Li = 2 d’ = 26-15 = 11 d’’ = 26-20 = 6 C=2 Aplicando la fórmula: Mo = Li +

11 × 2 d '.C =2+ = 3, 29 kg 11 + 6 d '+ d ''

Rpta.: las familias consumen con mayor frecuencia 3,29 kg/sem de carne.

71

ESTADÍSTICA I

5.3.

RELACIÓN ENTRE LA MEDIA ARITMÉTICA, MEDIANA Y MODA A)

VENTAJAS DE LA MEDIA ARITMÉTICA -

Es útil cuando los datos siguen aproximadamente una progresión aritmética o están distribuidos en forma normal o simétrica. - Es un estadígrafo de gran estabilidad, porque toma en cuenta todos los datos. - Nos permite estimar y probar parámetros en estadística inferencial. Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información.

B)

DESVENTAJAS DE LA MEDIA ARITMÉTICA -

-

C)

VENTAJAS DE LA MEDIANA -

D)

Como incluye todos los datos, puede ser afectado por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad. Cuando los datos agrupados tienen clases abiertas en los extremos, no es recomendable su cálculo.

La mediana es un estadígrafo que no está afectada por valores extremos, y por lo tanto puede ser en algunos casos mas representativa que la media aritmética. Es útil cuando los datos agrupados tienen clases abiertas en los extremos. Se aplica también a variables que pertenecen a la escala ordinal.

VENTAJAS DE LA MODA La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, de intervalos, y relativa). La moda tiene la ventaja de no ser afectada por valores extremos. Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos.

72

ESTADÍSTICA I

E)

DESVENTAJAS DE LA MODA En muchas series de datos no hay moda porque ningún valor aparece más de una vez. En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cual es el valor representativo de la serie de datos?

En distribuciones totalmente simétricas, la media, la mediana y la moda coinciden, localizándose en un mismo valor. En cambio, en distribuciones moderadamente asimétricas, la siguiente relación se mantiene aproximadamente: Media – Moda = 3(Media – Mediana) Posiciones relativas de la media, la mediana y la moda para curvas de frecuencias asimétricas a la derecha e izquierda respectivamente, para curvas simétricas los tres valores coinciden

73

ESTADÍSTICA I

EJERCICIOS 1) 2) 3) 4)

5) 6) 7)

8)

¿Qué medida de tendencia central es más sensible a los valores extremos? ¿Cuándo un conjunto de datos tiene valores extremos?¿Qué medida de tendencia central debe usarse? ¿Qué medida de tendencia central sería una buena elección para obtener el promedio de un conjunto que contiene muchos valores pequeños y uno muy grande? Los siguientes datos muestran una población que consiste en el número de barras de chocolate “Winter” compradas en una máquina expendedora de una cafetería durante los primeros 10 días de operación: 7, 3, 0, 5, 8, 6, 7, 10, 1, 3. a) Calcule la media aritmética, la mediana y la moda. b) ¿Qué medida de tendencia central usaría para estimar las ventas mensuales de chocolates en esta máquina? ¿Qué medida de tendencia central se usa para indicar el valor con la mayor frecuencia? ¿Cuando un conjunto de datos tiene valores extremos, ¿qué medida de tendencia central debe usarse? Si uno de los valores un poco más grandes que la media de los datos se sustituye por un valor muy grande, ¿qué le pasa a la media: aumenta, disminuye o se queda igual?. ¿De qué manera afecta este reemplazo a la mediana? El dueño de una tienda investiga la cantidad promedio que gastan los clientes en comestibles durante una semana. Los siguientes datos representan las cantidades gastadas (en soles) la semana anterior por una muestra aleatoria de 12 clientes: 185 210 248 459 700 258 240 438 195 420 280 400 a) Calcule la moda, mediana y media para este conjunto de datos. b) ¿Qué medida de tendencia central usaría para indicar la cantidad promedio que se gasta en comestibles?

9)

Librerías Miguelito tiene una distribuidora en Chiclayo. La Administradora en Chiclayo está preocupada por la cantidad de dinero que se gasta al mandar paquetes de 1 a 2 kg. a la oficina principal. Las siguientes cantidades indican los volúmenes de los paquetes que se mandaron con diferentes tarifas el año pasado:

74

ESTADÍSTICA I

Tipo de envío postal Cuarta clase Tercera clase Primera clase Entrega inmediata Certificado

Número de paquetes 1500 2400 3500 560 250

Tarifa S/ 5,40 8,50 12,30 18,00 20,50

¿Cuál fue el costo promedio de enviar los paquetes a la oficina principal en ese año? 10)

La Compañía Good Year quiere determinar el millaje promedio de una llanta específica antes de que se gaste para poder establecer una póliza de garantía. Se selecciona una muestra y se registran los siguientes millajes(en miles): 33 42 47 a) b)

41 40 38 35 48

55 40 48 46 47

47 41 50 47 50

38

45

47

46

48

39

49

36

44

44

45

42

Calcule la media, mediana y la moda para estos datos. ¿Qué medida de tendencia central usaría para ayudar a determinar la póliza de garantía?

11)

El Gerente de Mercadotecnia de Supermercados Metro, quiere determinar el promedio del precio de venta de los sobres de refresco que se venden en otros supermercados de la gran Lima. Toma una muestra de 44 marcas y encuentra los siguientes precios(en soles):

0,55 0,50 0,50 0,50

0,60 0,70 0,65 0,70 a) b)

0,70 0,65 0,60 0,65

0,55 0,59 0,60 0,59

0,90 0,70 0,70 0,70

0,60 0,60 0,50 0,60

0,47 0,55 0,49 0,55

0,55 0,55 0,70 0,55

0,60 0,65 0,65 0,65

0,60 0,60 0,50 0,60

0,50 0,50 0,55 0,50

Calcule la media, la mediana y la moda. ¿Qué medida de tendencia central debe usar el gerente si está interesado en determinar el precio promedio de un sobre de refresco?

75

ESTADÍSTICA I

12)

Una granja ganadera registró durante febrero el nacimiento de 29 terneros, cuyos pesos al nacer (en kilogramos) fue el siguiente: 22 40 43

31 40 43

33 40 44

34 41 45

35 41 46

36 42 46

37 42 46

38 42 46

38 42 50

39 42

Los datos anteriores al ser dispuestos en una tabla de distribución de frecuencias se obtuvieron: Clases 21.5 – 26.5 26.5 – 31.5 31.5 – 36.5 36.5 – 41.5 41.5 – 46.5 46.5 – 51.5. Total

fi 1 1 4 9 13 1 29

Calcule en las dos variantes (datos no agrupados y datos agrupados) la media aritmética, la mediana y la moda. 13)

En el 2006 se invirtió un fondo de $30,000.00 y durante diez años se reinvirtieron todos los intereses y dividendos. Al final de los diez años el valor total del fondo era de $49,783.64 ¿Cuál fue la tasa de rendimiento promedio, computada anualmente sobre la inversión inicial?

14)

En una encuesta sobre la compra de losetas se elaboró un cuadro de distribución de frecuencias. Las preguntas formuladas a los usuarios son acerca de % de defectos por cada m2 de losetas. Porcentaje de defectos [6,10> [10,14> [14,18> [18,22> [22,26> [26,30> TOTAL

76

N° de Losetas M2 6 12 17 8 3 4

ESTADÍSTICA I

Se pide: a) Hallar: x , Mg, Ma, Mc b) La mediana, moda c) Hallar el % mínimo del 45% de losetas M2 de mayores defectos d) Halle el % máximo del 60% de losetas M2 de menores defectos 15)

Una distribución de frecuencias de 5 intervalos de clase de igual amplitud, de ella se conoce los siguientes datos: n= 110; f4 – f5=10; f4-f3- f1 =0 f1=f5; f2=f4; Limite inferior de la primera clase:12.5 X4*f4=975; x4: Limite superior de la cuarta clase Se pide: a) Hallar la: x , Me, Mo b) Halle el promedio o media aritmética del 58% de observaciones de menores valores: grafique y haga una nueva distribución.

16)

En una compañía el sueldo mínimo de 200 empleados es de $60. Si se sabe que 20 empleados ganan por lo menos $60 pero menos de $70, 60 ganan menos de $80, 110 ganan menos de $90, 180 ganan menos de $100 y el 10% restante de empleados ganan a lo más $110. a. se pide reconstruir a lo más la distribución de frecuencias b. Hallar el sueldo: promedio , mediano y modal c. Si el gerente de la empresa incrementa el 15% a todos los empleados mas una bonificación de $5 por movilidad halle el nuevo promedio de sueldos de la empresa y haga un comentario económico

17)

Los salarios que ofrece una empresa a sus practicantes varían entre $150 y $270. Si los salarios se agrupan en cuatro intervalos de clase de igual amplitud de manera que el 40% de los practicantes tiene salarios menores o iguales que $195, el 80% tiene salarios menores o iguales a $225 y 15% tiene salarios mayores que $232.5 a. Cuanto vale el salario medio que paga esta empresa a los practicantes. b. Que porcentaje de practicantes corresponde un salario superior a $185. c. Halle el sueldo mínimo del 65% de practicantes.

18)

Un estudio comparativo de porcentaje (%) de rendimiento de ciertos bonos bancarios se elaboró una distribución de frecuencias de 5 intervalos de amplitud constante siendo las marcas de clase de la primera 77

ESTADÍSTICA I

y quinta clase de 15 y 55 respectivamente. Si el 65% de los bonos rinden menos del 40% el 25% menos del 30%, el 90% menos del 50% y el 95%, 20% o más. Calcule: a. b. c.

La media, mediana y moda Cual es el porcentaje mínimo de 35% de bonos de mayores rendimientos. Halle el promedio de 45% de bonos bancarios de menores rendimientos.

19)

Una gran Empresa tiene 100 empleados. Para los nombrados el haber máximo es de 450 dólares mensuales y el mínimo es de 60 dólares mensuales. Hay un 5% de eventuales que trabajan Ad – Honorem o perciben compensaciones inferiores a 60 dólares: 15 empleados nombrados perciben haberes inferiores a 250 dólares; el 85% de trabajadores tienen haberes inferiores a 400 soles. Con esta información. Calcule: a) La media, mediana, moda b) ¿Cuantos empleados ganan más de 200 dólares mensuales? c) Hallar el sueldo mínimo de 25% de empleados d) Halle el promedio del 85% de empleados de menores remuneraciones

20)

En una Empresa de 150 trabajadores el sueldo mínimo es de 150 dólares, si se conoce además que, 20 empleados ganan por lo menos $190 pero menos de $200, 68 ganan por lo menos $180, 106 empleados ganan por lo menos $170, 135 empleados ganan por lo menos $160. El 10% restante de empleados ganan menos de $160. Con esta Información Calcular: a) La media aritmética, Mg, Ma, Mc b) Si se indexan los salarios en un 30% mas una bonificación de $10 por movilidad Calcule la nueva Media Aritmética

21)

Se toma un examen de Métodos cuantitativos a 50 alumnos de la facultad de administración y Negocios. Las calificaciones están muy bien representadas por la tabla de distribución de frecuencias. Se sabe que el número de alumnos del 2do y 4ta clase están muy borrosas, pero el profesor recuerda el número de alumnos de la 2da clase es el doble de la 4ta frecuencia absoluta. La nota mínima es 06 y C=2, f1=10; f3=8; F5=50; f5=5 Se pide: a) Hallar el promedio, Mediana y Moda b) Hallar el rendimiento del 65% de alumnos de menores calificaciones c) Hallar la nota mínima del 15% de alumnos. 78

ESTADÍSTICA I

CAPÍTULO VI

Medidas de Posición 6.1.

MEDIDAS DE POSICIÓN Son estadígrafos que dividen a la información en cuatro (cuartiles), diez (deciles), o cien (percentiles) partes iguales.

6.2.

CUARTILES PARA DATOS NO AGRUPADOS Los cuartiles dividen a la información en 4 partes iguales y cada uno de ellos incluye el 25% de las observaciones. La forma de calcular los cuartiles cuando los datos no están agrupados se da a través del siguiente concepto: Para un número de n observaciones en el que los datos no son representados en clases, una vez ordenados los datos la posición de los cuartiles se pueden localizar de la siguiente forma: Qi = i(n+1)/4 , donde i = 1(1er cuartil), 2(2do cuartil), …. Es importante considerar que si el cálculo no corresponde con la posición exacta entonces se usa interpolación lineal: Qi = Li +

i(Ls − Li) , i = 1, 2, 3 4

Donde: Ls = límite superior Ejemplo. Consideremos la siguiente tabla de temperaturas reportadas en un experimento: 25 °C 35 °C 25 °C 30 °C

28 °C 32 °C 29 °C 30 °C

25 °C 31 °C 26 °C 31 °C

26 °C 31 °C 28 °C 31 °C

79

28 °C 32 °C 27 °C 30 °C

28 °C 27 °C 28 °C 31 °C

ESTADÍSTICA I

Solución: Ordenando los datos tenemos: 25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28, 28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32, 32, 35 La posición del primer cuartil es: 1(24 + 1) 25 = = 6.25 4 4 lo que significa que el primer cuartil se encuentra entre la posición 6 y 7, L − Lf = 0 , por lo como en este caso el número es el mismo entonces i Q = 27 ° C que el primer cuartil es igual a 1 . Interpretación: El 25% de las observaciones reportadas tienen una temperatura máxima de 27ºC La posición para el segundo cuartil es: 2(24 + 1) 50 = = 12.5 4 4 Como en este caso la posición está entre 12 y 13, que corresponden a las temperaturas 28°C y 29°C , entonces la interpolación nos conduce a: Q2 = 28 +

2(29 − 28) = 28.5 4

Q2 = 28,5ºC Interpretación: El 50% de las observaciones reportadas tienen una temperatura máxima de 28,5ºC La posición del tercer cuartil se puede calcular como:

3(24 + 1) = 18.75 4

80

ESTADÍSTICA I

Pero como la posición 18 y 19 tienen la temperatura 30°C, entonces, por la misma razón que el primer cuartil, el tercer cuartil es igual a 30°C. Q3 = 30ºC Interpretación: El 75% de las observaciones reportadas tienen una temperatura máxima de 30ºC

6.3.

DECILES PARA DATOS NO AGRUPADOS Los deciles dividen a la información en 10 partes iguales y cada uno de ellos incluye el 10% de las observaciones. La forma de calcular los deciles cuando los datos no están agrupados se da a través del siguiente concepto: Para un número de n observaciones en el que los datos no son representados en clases, una vez ordenados los datos la posición de los deciles se pueden localizar de la siguiente forma: i(n+1)/10 , donde i = 1(1er decil), 2(2do decil), …. Es importante considerar que si el cálculo no corresponde con la posición exacta entonces se usa interpolación lineal: Di = Li +

i(Ls − Li) , i = 1, 2, 3, 4, 5,... 10

Donde: Ls = límite superior Ejemplo. Consideremos la siguiente tabla de temperaturas reportadas en un experimento: 25 °C 35 °C 25 °C 30 °C

28 °C 32 °C 29 °C 30 °C

25 °C 31 °C 26 °C 31 °C

26 °C 31 °C 28 °C 31 °C

28 °C 32 °C 27 °C 30 °C

28 °C 27 °C 28 °C 31 °C

Solución: Ordenando los datos tenemos: 25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28, 28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32, 32, 35

81

ESTADÍSTICA I

La posición del primer decil es: 1(24 + 1) 25 = = 2, 5 10 10 Lo que significa que el primer decil se encuentra entre la posición 2 y 3, L − Lf = 0 por como en este caso la temperatura es la misma, entonces i lo que el primer decil es igual a: D1 = 25ºC Interpretación: El 10% de las observaciones reportadas tienen una temperatura máxima de 25ºC La posición para el segundo decil es:

2(24 + 1) =5 10 Como en este caso la posición 5 la ocupa la temperatura 26°C , entonces Q2 = 26ºC Interpretación El 20% de las observaciones reportadas tienen una temperatura máxima de 26ºC La posición del quinto decil se puede calcular como: 5 ( 24 + 1) 125 D5 = = = 12, 5 10 10 La posición del quinto decil se encuentra entre 12 y 13, que corresponden a las temperaturas 28 y 29ºC , entonces, aplicando interpolación lineal: D5 = 28 +

5(29 − 28) = 28, 5 10

luego D5=28,5ºC

Interpretación: El 50% de las observaciones reportadas tienen una temperatura máxima de 28,5ºC

6.4.

PERCENTILES PARA DATOS NO AGRUPADOS Los percentiles dividen a la información en 100 partes iguales y cada uno de ellos incluye el 1% de las observaciones. 82

ESTADÍSTICA I

La forma de calcular los percentiles cuando los datos no están agrupados se da a través del siguiente concepto: Para un número de n observaciones en el que los datos no son representados en clases, una vez ordenados los datos la posición de los percentiles se pueden localizar de la siguiente forma: i(n+1)/100 , donde i = 1(1er percentil), 2(2do percentil), …. Es importante considerar que si el cálculo no corresponde con la posición exacta entonces se usa interpolación lineal: Pi = Li +

i(Ls − Li) , i=1,2,3,4,5, … 100

Donde: Ls = límite superior Ejemplo. Consideremos la siguiente tabla de temperaturas reportadas en un experimento: 25 °C 35 °C 25 °C 30 °C

28 °C 32 °C 29 °C 30 °C

25 °C 31 °C 26 °C 31 °C

26 °C 31 °C 28 °C 31 °C

28 °C 32 °C 27 °C 30 °C

28 °C 27 °C 28 °C 31 °C

Solución: Ordenando los datos tenemos: 25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28, 28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32, 32, 35. La posición del percentil 35 es: 35(24 + 1) 875 = = 8, 75 100 100 Lo que significa que el percentil 35 se encuentra entre la posición 8 y 9, como en este caso la temperatura es la misma (28ºC), entonces Li − L f = 0 , por lo que el percentil 35 es igual a 28ºC. P35 = 28ºC Interpretación: El 35% de las observaciones reportadas tienen una temperatura máxima de 28ºC 83

ESTADÍSTICA I

La posición para el percentil 80 es: 80 (24 + 1) 2000 = = 20 100 100

Como en este caso la posición 20 la ocupa la temperatura 31°C, entonces P80 = 31ºC Interpretación: El 80% de las observaciones reportadas tienen una temperatura máxima de 31ºC

6.5.

CUARTILES PARA DATOS AGRUPADOS Pasos: 1) Se determina la frecuencia acumulada(Fi) 2) Se ubica la clase cuartílica: la clase en la cual estará incluida el cuartil: i(∑ fi)/4 La clase cuartílica será aquella en donde la primera frecuencia acumulada contenga dicho valor: i(∑ fi)/4 3) Se aplica la fórmula: ⎡ i ( ∑ fi ) / 4 − ( ∑ fi ) − 1 ⎤ Qi = Li + ⎢ ⎥ .C f Qi ⎢⎣ ⎥⎦

Li = límite inferior del intervalo de la clase cuartílica (∑ fi)-1 = suma de las frecuencias absolutas anteriores a la clase cuartílica fQi = frecuencia de la clase cuartílica Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es: Consumo(kg /sem) 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9 84

Número de familias 15 26 20 13 6

ESTADÍSTICA I

Hallar el cuartil 1 Solución: Ki 1 2 3 4 5

Consumo(kg /sem) 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

Número de familias

Fi

15 26 20 13 6 ∑ fi = 80

15 41 61 74 80

1(∑ fi)/4 = 80/4 = 20 La primera frecuencia acumulada que contiene a 20 es 41(ver cuadro), por lo tanto la clase cuartílica se encuentra en la segunda clase. Luego: Li = 2

(∑ fi)-1 = 15

fQ1 = 26

C=2

Reemplazando valores: ⎡ 1 ( ∑ fi ) / 4 − ( ∑ fi ) − 1 ⎤ Q1 = Li + ⎢ ⎥ .C f Q1 ⎢⎣ ⎥⎦ ⎡ 20 − 15 ⎤ Q1 = 2 + ⎢ ⎥ .2, 4 = kg ⎣ 26 ⎦

Interpretación : El 25% de las familias consume hasta 2,4 kg/semana de carne. El 75% restante consume más de 2,4 kg/semana.

6.6.

DECILES PARA DATOS AGRUPADOS Pasos: 1) Se determina la frecuencia acumulada(Fi) 2) Se ubica la clase decílica: la clase en la cual estará incluida el decil: i(∑ fi)/10 La clase decílica será aquella en donde la primera frecuencia acumulada contenga dicho valor: i(∑ fi)/10

85

ESTADÍSTICA I

3) Se aplica la fórmula:

⎡ i ( ∑ fi ) ⎤ − ( ∑ fi ) − 1 ⎥ ⎢ ⎥ .C Di = Li + ⎢ 10 ⎢ ⎥ FDi ⎢ ⎥ ⎣ ⎦

Li = límite inferior del intervalo de la clase decílica (∑ fi)-1 = suma de las frecuencias absolutas anteriores a la clase decílica fDi = frecuencia de la clase decílica Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es: Consumo(kg /sem) 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9 Hallar el 8º decil

Número de familias 15 26 20 13 6

Solución: Ki 1 2 3 4 5

Consumo(kg /sem) 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

Número de familias

Fi

15 26 20 13 6 ∑ fi = 80

15 41 61 74 80

8(∑ fi)/10 = 640/10 = 64 La primera frecuencia acumulada que contiene a 64 es 74(ver cuadro), por lo tanto la clase decílica se encuentra en la cuarta clase. Luego: Li = 6

(∑ fi)-1 = 61

86

fD8 = 13

C=2

ESTADÍSTICA I

Reemplazando valores:

⎡ 64 − ( ∑ fi ) ⎤ −1 ⎥ .C D8 = Li + ⎢ F ⎢⎣ ⎥⎦ D8

⎡ 64 − 61 ⎤ D8 = 2 + ⎢ ⎥ .2 = 6, 5 kg ⎣ 13 ⎦ Interpretación : El 80% de las familias consume hasta 6,5 kg/semana de carne. El 20% restante consume más de 6,5 kg/semana.

6.7.

PERCENTILES PARA DATOS AGRUPADOS Pasos: 1) Se determina la frecuencia acumulada (Fi) 2) Se ubica la clase percentílica: la clase en la cual estará incluida el percentil que se busca: i(∑ fi)/100 La clase percentílica será aquella en donde la primera frecuencia acumulada contenga dicho valor: i(∑ fi)/100 3) Se aplica la fórmula: ⎡ i ( ∑ fi ) / 100 − ( ∑ fi ) ⎤ −1 ⎥ .C Pi = Li + ⎢ F ⎢⎣ ⎥⎦ Pi

Li = límite inferior del intervalo de la clase percentílica (∑ fi)-1 = suma de las frecuencias absolutas anteriores a la clase percentílica fPi = frecuencia de la clase percentílica

87

ESTADÍSTICA I

Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es: Consumo(kg /sem) 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

Número de familias 15 26 20 13 6

Hallar el percentil 60 Solución: Ki 1 2 3 4 5

Consumo (kg /sem) 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

Número de familias

15 26 20 13 6 ∑ fi = 80 60(∑ fi)/100 = 4800/100 = 48

Fi 15 41 61 74 80

La primera frecuencia acumulada que contiene a 48 es 61(ver cuadro), por lo tanto la clase cuartílica se encuentra en la tercera clase. Luego: Li = 4

(∑ fi)-1 = 41

fP60 = 20

C=2

Reemplazando valores: ⎡ 48 − 41 ⎤ P60 = 4 + ⎢ ⎥ .2 = 4, 7 kg / sem ⎣ 20 ⎦ Interpretación : El 60% de las familias consume hasta 4,7 kg/semana de carne. El 40% restante consume más de 4,7 kg/semana. Es necesario tener en cuenta que se puede utilizar los percentiles para calcular cualquier cuartil o decil, pues, según lo que se ha analizado se llega a las siguientes equivalencias: Q1 = P25 D2 = P20

Q2 = D5 = P50 = Me D9 = P90 , etc. 88

Q3 = P75

D1 = P10

ESTADÍSTICA I

CAPÍTULO VII

Medidas de Dispersión 7.1.

MEDIDAS DE DISPERSIÓN Son estadígrafos que miden la dispersión o desviación de los datos con respecto al valor central. Entre las principales medidas de dispersión tenemos:

A) Rango(R ) Es un estadígrafo de fácil cálculo, pero de uso limitado, ya que no considera a todas las observaciones, por lo que está fuertemente influenciado por los datos extremos. Se calcula de la siguiente forma:

a) Para datos no agrupados R = Xmáx – Xmin, Xmáx = dato mayor Xmin = dato menor Ejemplo: El tiempo que utilizan 6 trabajadores para desarrollar una misma actividad fue: 16, 12, 15, 18, 13, 14 minutos. Hallar el rango. Solución: R = 18 – 12 = 6 min

b) Para datos agrupados R = Lsup – Linf , Lsup = límite superior de la última clase Linf = límite inferior de la primera clase Ejemplo: Se tiene la siguiente información:

89

ESTADÍSTICA I

MULTICOMP SAC Hijos de trabajadores por edad Junio 2006

EDAD(años) 0–2 3–5 6–8 9 – 11 12 - 14 TOTAL

CANTIDAD DE HIJOS 5 12 20 10 6 53

% 9,43 22,64 37,74 18,87 11,32 100,00

Calcular el rango. Solución: R = 14 – 0 = 14 años

B)

Desviación Media(DM) Es un estadígrafo mejor que el rango, ya que toma en cuenta todos los datos u observaciones.Se calcula e la siguiente forma:

a) Para datos no agrupados DM =

∑ Xi − X

N Xi = cada uno de los datos N = total de datos Ejemplo: El tiempo que utilizan 6 trabajadores en desarrollar una misma actividad fue el siguiente: 16,12, 15, 18, 13, 14 minutos. Calcular la desviación media. Solución: 16 + 12 + 15 + 18 + 13 + 14 = 14, 7 min Calculando: X = 6 Calculando la desviación media: 16 − 14, 7 + 12 − 14, 7 + 15 − 14, 7 + 18 − 14, 7 + 14 − 14, 7 DM = 6 DM=1,7 min Interpretación: el tiempo utilizado por los trabajadores se dispersa en promedio 1,7 minutos con respecto al valor central. 90

ESTADÍSTICA I

b)

Para datos agrupados DM =

∑ Xi − X .fi ∑ fi

, Xi = marcas de clase

Ejemplo: Se tiene la siguiente información: MULTICOMP SAC Hijos de trabajadores por edad Junio 2006

EDAD(años) 0–2 3–5 6–8 9 – 11 12 - 14 TOTAL

CANTIDAD DE HIJOS 5 12 20 10 6 53

% 9,43 22,64 37,74 18,87 11,32 100,00

Calcular la desviación media. Solución: La sgte. tabla ayuda a obtener los datos parciales: Ii

fi

Xi

Xi . fi

│Xi – X│

│Xi – X│. fi

0–2 3–5 6–8 9 – 11 12 - 14

5 12 20 10 6 ∑fi = 53

1 4 7 10 13

1x5 = 5 4x12 = 48 7x20 = 140 10x10 = 100 13x6 = 78 ∑Xi.fi = 371

│1– 7│=6 │4 – 7│=3 │7 – 7│=0 │10 – 7│=3 │13 – 7│=6

6x5 =30 3x12 =36 0x20 = 0 3x10 =30 6x6 =36 ∑│Xi – X│. fi = 132

371 =7 53 132 DM = = 2, 5 min 53 X=

91

ESTADÍSTICA I

Interpretación: la edad de los hijos de los trabajadores se dispersa en promedio 2,5 años con respecto al valor central.

C)

La desviación estándar o desviación típica(σ ) Es el estadígrafo de dispersión más importante y de mayor uso. Un valor grande de σ significa que la generalidad de los datos están alejados de la media.Un valor pequeño de σ significa que la mayoría de los datos están concentrados en la proximidad de la media aritmética. Se calcula de la siguiente forma:

a) Para datos no agrupados

(

⎡ ∑ Xi − X σ=⎢ ⎢ N ⎢⎣ Xi = cada uno de los datos N = total de datos

)

2

⎤ ⎥ ⎥ ⎥⎦

1/ 2

Ejemplo: El tiempo que utilizan 6 trabajadores en desarrollar una misma actividad fue el siguiente: 16,12, 15, 18, 13, 14 minutos. Calcular la desviación estándar. Solución: Calculando:

X=

16 + 12 + 15 + 18 + 13 + 14 = 14, 7 min 6

Calculando la desviación estándar:

⎡ (16 − 14, 7 )2 + (12 − 14, 7 )2 + (18 − 14, 7 )2 + (13 − 14, 7 )2 + (14 − 14, 7 )2 ⎤ σ=⎢ ⎥ 6 ⎢⎣ ⎥⎦ ⎡ 23, 34 ⎤ σ=⎢ ⎥ ⎣ 6 ⎦

1/ 2

= 1, 97 = 2 min .

Interpretación: el tiempo utilizado por los trabajadores se dispersa en promedio 2 minutos con respecto al valor central.

92

1/ 2

ESTADÍSTICA I

b)

Para datos agrupados

(

)

2 ⎡ Xi − X .fi ⎤ ∑ ⎢ ⎥ σ= ⎢ ⎥ fi ∑ ⎢⎣ ⎥⎦

1/ 2

, Xi = marcas de clase

Ejemplo: Se tiene la siguiente información:

MULTICOMP SAC Hijos de trabajadores por edad Junio 2006 EDAD(años) CANTIDAD DE HIJOS 0–2 5 3–5 12 6–8 20 9 – 11 10 12 - 14 6 TOTAL 53 Calcular la desviación estándar.

% 9,43 22,64 37,74 18,87 11,32 100,00

Solución: La sgte. tabla ayuda a obtener los datos parciales: Ii 0–2 3–5 6–8 9 – 11 12 - 14

fi 5 12 20 10 6 ∑fi = 53

Xi 1 4 7 10 13

Xi . fi (Xi – X)2 1x5 = 5 (1– 7)2=36 4x12 = 48 (4 – 7)2=9 (7 – 7)2=0 7x20 = 140 10x10 = 100 (10 – 7)2=9 13x6 = 78 (13 – 7)2=36 ∑Xi.fi = 371

93

(Xi – X)2. fi 36x5 = 180 9x12 = 108 0x20 = 0 9x10 = 90. 36x6 = 216 ∑(Xi – X)2. fi = 594

ESTADÍSTICA I

X=

371 =7 53

⎡ 594 ⎤ σ=⎢ ⎥ ⎣ 53 ⎦

1/ 2

= 3, 3 min .

Interpretación: la edad de los hijos de los trabajadores se dispersa en promedio 3,3 años con respecto al valor central.

D)

Varianza(σ )2 La Varianza es una medida de dispersion o de concentracion mas importante de la etadistica, pues cuantifica las desviaciones o diferencias entre los valores de la variable respecto a su media elevado al cuadradoes decir mide la distancia existente entre los valores de la serie y la media. Se determina elevando al cuadrado la desviación estándar. La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están. Ejemplo: Se sabe que la desviación estándar del tiempo que utilizan 6 trabajadores en desarrollar una misma actividad, es 2 minutos. Hallar la varianza. Solución: Si σ = 2 , entonces: σ2 = (2 min)2 = 4 min2 Interpretación: El tiempo utilizado por los trabajadores se dispersa en promedio en 4 minutos al cuadrado con respecto al valor central.

PROPIEDADES DE LA VARIANZA i) ii) iii)

V(x)≥0 ; La varianza siempre es no negativa , es decir es mayor que cero; si es cero el valor de X= C, constante La varianza de una constante C es cero: V( C ) = 0 Si a los valores de la variables se le suma o reata una constante C la varianza no varia. En efecto

94

ESTADÍSTICA I

Si Y= X+-C ; V(Y)=V(X+-C) ; V(Y)=V(X)+-V(C) pero V(C)=0 Luego V(Y) = V( X ) iv)

Si a los valores de la variable se el multiplica o divide una constante C la varianza queda multiplicada o dividida por la constante C elevado al cuadrado. En efecto Si Y= CX ; V(Y) = V(CX); V(Y ) =C2 V(X ) v) Si se tiene dos Variables ependientes X, Y entonces V(X+Y)= V(X) +V(Y) - Cov(XY)

E)

Coeficiente de Variación(CV) Es el cociente de la desviación estándar y la media aritmética, expresado en porcentaje: σ CV = ×100 X El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de dispersión de dos muestras. Esto no ocurre con la desviación típica, ya que viene expresada en las mismas unidas que los datos de la serie. Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones típicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar. Ejemplo: Se conocen la media y desviación estándar del tiempo que utilizan 6 trabajadores en desarrollar una misma tarea: X = 14,7 min , Solución:

σ = 2 min . Hallar el coeficiente de variación.

CV =

∑ X

× 100 =

2 × 100 = 13, 6% 14, 7

Interpretación: el tiempo utilizado por los trabajadores se dispersa en promedio 13,6% con respecto al valor central.

95

ESTADÍSTICA I

7.2.

CARACTERÍSTICAS DISPERSIÓN

DE

LAS

MEDIDAS

DE

A)

Si se desea exactitud estadística en un estudio, se debe aplicar los estadígrafos de acuerdo al siguiente orden: 1º desviación estándar 2º desviación media 3º rango

B)

Si se desea llevar a cabo un trabajo rápido sin que la exactitud estadística importe demasiado, se debe aplicar los estadígrafos anteriores, pero en sentido contrario.

C)

La desviación estándar es el estadígrafo de dispersión más importante y de mayor uso. Un valor grande de σ, significa que la generalidad de los datos están alejados de la media. Un valor pequeño de σ significa que la mayoría de los datos están concentrados en la proximidad de la media aritmética.

D)

La varianza tiene gran aplicación en el campo del muestreo y la inferencia estadística.

EJERCICIOS 1)

¿Cuál es la diferencia entre una medida de tendencia central y una de dispersión o variabilidad

2)

¿Cuál es la diferencia entre la desviación estándar y la varianza?

3)

El Gerente de Servicios al cliente de Plaza Vea, reunió los siguientes datos que representan el número de quejas recibidas por su departamento en cada uno de los 10 días seleccionados al azar: 10, 15, 8, 12, 9, 15, 13, 12, 14, 23 a)Calcule el rango b)Calcule la desviación estándar c)Clacule la varianza d)Calcule el coeficiente de variación e)Interprete las medidas anteriores.

4)

En el Caserío Callanca (Dpto. de Lambayeque) se llevó a cabo un estudio para determinar el tipo de material utilizado en la construcción de sus pequeños negocios: Los resultados fueron los siguientes: quincha: 120, adobe: 480, madera: 80, ladrillo: 20, Otros: 100. Hallar la medida de 96

ESTADÍSTICA I

tendencia central más representativa para determinar el tipo de material promedio utilizado. 5)

Los siguientes datos corresponden al peso en kg. de frascos de jarabe para la tos: 40,8 52,5 49,2 40,8 62,2 52,5 58,0 60,0 40,8 52,5 Calcular: a) Media aritmética, mediana, moda. Interpretar los resultados. b) ¿Cuál de los tres indicadores mide con mayor precisión el centro de los datos?¿Porqué? c) desviación estándar, varianza, coeficiente de variación. Interpretar.

6)

El presupuesto anual para gastos en publicidad por parte de 10 Empresas, en la última semana del mes de Julio, fue la siguiente: Empresa 1 Presupuesto 500

2 700

3 4 5 6 7 8 9 10 550 3500 800 600 850 650 750 900

Calcular: a) Media aritmética, mediana, moda. Interpretar los resultados b) ¿Cuál de los tres indicadores mide con mayor precisión el centro de los datos? ¿Porqué? c) desviación estándar, varianza, coeficiente de variación. Interpretar los resultados. 7)

La media aritmética y la varianza del peso de un grupo de personas es de 60 y 400 kg, respectivamente. ¿Qué opina Ud. de la media aritmética, es o no representativa de los datos?

8)

En el Instituto Idat, trabajan 10 profesores antiguos y 40 profesores nuevos. El sueldo promedio por hora de los profesores antiguos es de S/ 10/hr y de los profesores nuevos es de S/14.50/hr. ¿Cuál es el sueldo promedio por hora de los 50 profesores?

9)

Se sabe que en el examen parcial de Estadística, la calificación promedio de los alumnos de Administración y Contabilidad son 16 y 14 puntos, respectivamente. Si la sección de Administración tiene 40 alumnos y la de Contabilidad tiene 30, ¿cuál será la calificación promedio de los alumnos en dicho curso?.

10)

En el siguiente cuadro se presenta el ingreso, consumo y ahorro (en soles), correspondiente al mes de Julio, por parte de 7 familias: 97

ESTADÍSTICA I

FAMILIAS Ingreso Consumo Ahorro a)

3 500 600 100

4 650 650 0

5 800 500 300

6 600 400 200

7 450 350 100

¿Qué opina Ud sobre la media aritmética en las siguientes variables?:

Variable Talla Peso Ingresos Edad 12)

2 800 850 50

Hallar la medida de centralización más adecuada para las variables ingreso, consumo y ahorro. ¿Cuál de las tres variables presenta mayor variabilidad?

b) 11)

1 500 400 100

Desviación estándar

Media aritmética 1,65 m 56 kg S/15000 5 años

Varianza 0,004 m2

50 kg S/20000 6 meses2

Se presenta la siguiente información: PIURA Encuesta sobre la demanda del producto “A” según esración

ESTACION DEL AÑO Verano Otoño Primavera Invierno TOTAL

DEMANDA 30 35 76 38 179

PORCENTAJE 16,8 19,5 42,5 21,2 100,0

Hallar la medida de tendencia central más adecuada, y representar gráficamente la información. 13)

Los precios de un mismo medicamento en 10 farmacias de un distrito fueron los siguientes(en soles): 9 10 10 13 15 11 10 11 12 14 Hallar: a) El precio promedio del medicamento utilizando la medida de centralización más apropiada. b) Hallar todas las medidas de dispersión e interprete los resultados. 98

ESTADÍSTICA I

14)

Calcular las medidas de centralización más adecuadas para las siguientes distribuciones de frecuencias: INGRESO(miles de soles) Menos de 20 [20 – 25> [25 – 30> [30 – 35> [35 – 39> más de 39 EDAD(años) Menor de 10 [10 -12> [12 -14> [14 –16> [16 - 17>

PESO(kg) [50 – 54> [54 – 58> [58 – 62> [62 – 67> 67 y más 15)

FRECUENCIA 10 18 32 270 110 115

NUMERO DE PERSONAS 05 08 80 06 07

NUMERO DE PERSONAS 5 10 12 25 120

Los siguientes datos se han obtenido de una encuesta llevada a cabo en el Distrito de Jesús María, sobre el precio del alquiler en una muestra de 800 viviendas(habitaciones): ALQUILER MENSUAL (en soles) [50 – 100> [100 – 150> [150 – 200> [200 – 250> [250 – 300> [300 – 350> [350 – 400> [400 - 450>

NUMERO DE VIVIENDAS 42 48 139 185 96 32 18 10

99

ESTADÍSTICA I

a) b) c) d) 16)

Calcular el alquiler mensual promedio, desviación estándar y coeficiente de variación.Interprete los resultados. Calcular el 7º decil.Interpretar. Calcular el 92º percentil.Interpretar. Hallar el 2º cuartil.Interpretar

En el distrito de Ate, una encuesta por muestreo de 178 amas de casa determinó las preferencias en el consumo de 5 marcas de detergente: Detergente preferido Ariel Ace Ñapancha Sapolio Magia Blanca

Número de amas de casa 30 50 45 25 28

Calcular la medida de tendencia central más adecuada para medir las preferencias en el consumo de los detergentes. 17)

Los siguientes datos corresponden al consumo anual de pescado(en kg) por parte de 5 ciudades del Perú:

Ciudad Consumo a) b) c) d) 18)

Chachapoyas 5200

Lima 6800

Chiclayo 5900

Trujillo 500

Chota 4900

Hallar la media aritmética, mediana y moda.Interprete los resultados. ¿Cuál de los tres indicadores mide con mayor precisión el centro de los datos? Hallar la desviación estándar y el coeficiente de variación. Interprete los resultados. Calcular e interpretar el cuartil 2, el decil 6, y el percentil 72.

Los varones que entre los 20 y 54 años contrajeron matrimonio durante el 2006 en la Municipalidad de Lima, presenta la siguiente distribución de frecuencias:

100

ESTADÍSTICA I

EDAD [20- 25> [25 – 30> [30 – 35> [35 – 40> [40 – 45> [45 – 50> [50 – 55> a) b) c) d) e) f)

VARONES 650 1250 950 720 350 212 110

Hallar la media aritmética, mediana y moda de las edades.Interprete los resultados. Hallar la desviación estándar, varianza y coeficiente de variación de las edades.Interprete los resultados. Hallar la edad máxima del 45% de varones Hallar la edad máxima del 45% de varones Hallar la edad máxima del 60% de los varones. Hallar la edad mínima del 90% de los varonesi

19)

El INTI S.A emplea a 8 trabajadores.Los siguientes datos muestran los años de experiencia de cada trabajador: 1, 7, 9 , 15, 9, 1 ,7, 15. Considere este conjunto de datos como una población. a) Calcule la desviación estándar. b) Si se contrata a un trabajador con 8 años de experiencia, ¿Cómo afecta esto a la desviación estándar? c) Si un trabajador con 15 años de experiencia sustituye a uno con 7 años de experiencia,¿cómo afecta esto a la desviación estandar?.

19)

Una Empresa automovilística está considerando 2 marcas de batería para su último modelo. La batería “Telco” tiene una vida media de 55 meses con una desviación estándar de 5 meses. La batería “Larga vida” tiene una vida media de 45 meses con una desviación estándar de 3 meses. a) Si el criterio de decisión para elegir una marca de batería es “máxima vida”, ¿Qué marca debe elegirse?. b) ¿Qué marca ha de seleccionarse si el criterio de decisión es consistencia en el servicio?

101

ESTADÍSTICA I

102

ESTADÍSTICA I

CAPÍTULO VIII

Medidas de Forma 8.1.

MEDIDAS DE FORMA Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de la muestra. En concreto, podemos estudiar las siguientes características de la curva: 8.1. Distribución: mide si los valores de la variable están más o menos repartidos a lo largo de la muestra. 8.2 Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son similares. 8.3. Curtosis: mide si los valores de la distribución están más o menos concentrados de los valores medios de la muestra.

8.2.

COEFICIENTE DE ASIMETRÍA Hemos comentado que el concepto de asimetría se refiere a si la curva que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central (media aritmética)

Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher, que viene definido: g1 =

(

(1 / n ) × ∑ ( x i − xm )

3

× ni

(1 / n) × ∑ ( x i − xm ) × n i 2

103

)

3/ 2

ESTADÍSTICA I

Los resultados pueden ser los siguientes: g1=0 (distribución simétrica; existe la misma distribución de valores a la derecha y a la izquierda de la media) g1>0 (distribución asimétrica positiva; existe mayor distribución de valores a la derecha de la media que a su izquierda) g1 0 (distribución leptocúrtica). g2 < 0 (distribución platicúrtica). Ejemplo: calcular el Coeficiente de Curtosis de la serie de datos referidos a la estatura de un grupo de alumnos:

105

ESTADÍSTICA I

Variable (Valor) 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30

Frecuencias absolutas Simple Acumulada 1 1 4 5 4 9 2 11 1 12 2 14 3 17 3 20 4 24 3 27 3 30

Frecuencias relativas Simple Acumulada 3,3% 3,3% 13,3% 16,6% 13,3% 30,0% 6,6% 36,6% 3,3% 40,0% 6,6% 46,6% 10,0% 56,6% 10,0% 66,6% 13,3% 80,0% 10,0% 90,0% 10,0% 100,0%

Recordemos que la media de esta muestra es 1,253 Σ ((xi – xm)^4)*ni 0,00004967 Luego:

g2 =

Σ ((xi – xm)^2)*ni 0,03046667

(1 / 30) × 0, 00004967

( (1 / 30) × (0, 03046667) )



− 3 = −1, 39 2

Por lo tanto, el Coeficiente de Curtosis de esta muestra es –1,39, lo que quiere decir que se trata de una distribución platicúrtica, es decir, con una reducida distribución de los valores centrales de la distribución.

106

ESTADÍSTICA I

EJERCICIOS 1)

Los salarios que ofrece una empresa a los practicantes están entre 150 y 270 dólares. Si los salarios se agrupan en 5 intervalos de clase de TIC constante de manera que el 40% de los practicantes tienen salarios menores o iguales que $192, el 80% tienen salarios menores e iguales a $225, el 18% tienen salarios mayores que $ 228 y el 35% de los practicantes tienen salarios por lo manos de $ 198, pero menos de $ 222. a) Cuanto vale el salario medio que paga esta empresa a sus practicantes? b) Halle el recorrido intercuartílico c) Halle la varianza y C.V. e interprete. d) ¿Por encima de que salario esta el 15% de practicantes?

2)

Los sueldos de los empleados de la empresa “RST” S.A varían entre 450 y 950 soles mensuales, si se conocen los siguientes datos, x = 660 soles f1 = 15, f5 = 8 F1=50. Además el número de empleados de la segunda y cuarta clase no aparecen. a) Halle la varianza y c.v. e interprete b) Halle asimetría y curtosis, dibuje las curvas. c) Por debajo de que sueldo se encuentra el 60% de los empleados? Si la gerencia concede un incremento del 18 % a todos los trabajadores y una bonificación de 400 soles por gratificación del mes de Diciembre halle el nuevo c.v e interprete.

3)

Una gran empresa tiene 2000 obreros y 1200 empleados .La alta dirección de personal está estudiando en conceder un aumento a sus trabajadores y encarga hacer un estudio de factibilidad. La comisión encargada de este estudio toma una muestra de 150 obreros y 40 empleados y luego informa que los primeros ganan en promedio 480 soles y los segundos 560 soles. Sobre la base de esta información la empresa decide aumentar a los obreros 15% y a los empleados el 20%. Calcule ud. la cantidad de dinero que debe disponer la empresa para hacer efectivo el aumento. Considera ahora que por la navidad los trabajadores reclaman una gratificación y logran que la empresa le otorgue a cada uno 300 soles a) ¿A cuanto asciende el monto de la planilla del mes de diciembre? b) Calcule la varianza total del mes de Diciembre. c) Si la desviación estándar de los obreros es 80 soles y de los empleados 60 soles. ¿Cuál de ellas es más homogéneo? 107

ESTADÍSTICA I

4)

Los alumnos de la promoción de Administración del presente año, han llevado a cabo una actividad y realizaron un concierto de música criolla durante los 150 primeros días del año ofreciendo una función por día. El número de personas que asistieron diariamente al concierto se ha tabulado en el siguiente informe: PERSONAS QUE ASISTEN DIARIAMENTE 2000 3000 4000 TOTAL a) b)

# DE DIAS 30 75 45

Hallar la varianza y c.v. de personas que diariamente asistieron a una función Si el costo total para montar una función es de 200 u.m. diarios y el precio de la entrada de 1 u.m. por persona. ¿Cuál fue la ganancia promedio?

5)

Dado los sueldos de 80 personas que se clasifican en una tabla de frecuencias con cinco intervalos con TIC, constante. Se pide hallar la varianza, c.v, asimetría y curtosis sabiendo que la marca de clases del tercer intervalo es 100 soles F2 =20, f1 =8, f3 =35, f5 =5, X=100.5

6)

Se han elegido 150 productos (cominos) para analizar sus pesos en grs. Según la tabla: peso en gramos [2.00,2.04> [2.04,2.08> [2.08,2.12> [2.12.2.16> [2.16,2.20> [2.20,2.24> [2.24,2.28> [2.28,2.32>

# de bolsitas 12 20 38 f4 f5 f6 9 8

TOTAL

108

ESTADÍSTICA I

Si se sabe que la media es de 2.14 gs y la Me = 2.128 gs a) Calcular Sx y C.V. b) Halle asimetría y curtosis c) Halle el peso mínimo del 40% de los productos d) Halle el peso máximo del 35 % de los productos 7)

Una empresa contable toma un examen de conocimientos a 120 postulantes para cubrir las vacantes de Asistente Administrativo. El resultado fue elaborado en un cuadro estadístico de distribución de frecuencias simétricas, agrupadas en 7 intervalos de Tic constante, donde se conocen los siguientes datos: f1 = 6, f3 = 18, *F3 =102, M4 =72 ∑Mj =400, M4 =4ta marca de clase j =3 *Frecuencia absoluta acumulada en forma descendente Con esta información halle: a) Varianza y C.V. e interprete b) La nota desaprobatoria es 70 puntos. ¿Cuántos postulantes no obtuvieron el empleo?

8)

A un estudiante de ingeniería se le da la información a cerca de la distribución de frecuencias sobre temperaturas de grados centígrados °C, son datos incluidos dejados por un operador anterior. Los datos dejados son: f1 =3, f2 =5, f3 =10, f5 = 2, n = 24 M3 =6°, M3 = Marca de clase del tercer intervalo. Hallar: a) Desviación estándar n C.V. b) Asimetría y curtosis

9)

La siguiente información corresponde al tiempo en horas que permanecieron almacenados 50 cajas de filete de pescado en la cámara frigorífica antes de su embarque en el puerto del Callao. Se conocen los siguientes datos: F5 =50 , M4= 90, F2 =17, f1 =5, f3 =25 , X =65.6 hrs. Me =66.4 hrs. Con esta información Hallar: a) Sx, C.V, asimetría y curtosis b) Halle el promedio del 45% de cajas de menores horas de almacenamiento.

109

ESTADÍSTICA I

10)

Los ingresos por conceptos de ventas de un fabricante de calzado durante una cierta cantidad de días se encuentra distribuida en una tabla, cuyos datos se dan a continuación: La suma de las cuatro primeras frecuencias que están en progresión aritmética es 48 y el producto de los extremos es al producto de los medios como 27 es a 35 además f5 =2f1, 5f6 =f2. El limite inferior del primer intervalo es 14 el punto medio del tercer intervalo es 69 a) b)

11)

Halle Sx, y C.V. Si se indexan los sueldos en un 12% mas una bonificación de 30 soles por movilidad halle la nueva varianza y C.V. e interprete.

A continuación se presenta una distribución simétrica referente a los ingresos diarios en soles de 100 trabajadores de una empresa y en la que se conoce: F6 – F2 = 72 , F5 – F3 =45 , F4 + F6 =157 X”5 X”2 = (k-4) c, X’1= 12, Mo= 19 donde: C = Tic X”j: Limite superior del j-ésimo intervalo X’j: Limite inferior del j-ésimo intervalo a) Si la gerencia fija un sueldo mínimo de 15 soles diarios. ¿Qué porcentaje de trabajadores se benefician con esta medida? b) Si el gerente de producción aumenta el 15% a todos los trabajadores más una bonificación de 20 soles por movilidad. ¿Cuál será la nueva varianza y C.V. interprete?

12)

Se tiene una tabla de frecuencias de 5 intervalos de Tic constante donde el valor mínimo es 40 y el máximo es 200. Si además las frecuencias absolutas simples forman una progresión geométrica creciente, cuya suma es 242 y la suma de sus inversas es 121/162 y la razón es la sexta parte de la frecuencia absoluta simple de la tercera clase a) Halle la varianza y C.V. b) Calcule la asimetría y curtosis c) Si los datos X se transforma en Y= 1.6X + 30 calcule la nueva varianza y C.V.

110

ESTADÍSTICA I

13)

Se tiene 40 valores de una variable estadística donde X: X1, X2, X3, ..........., X40 que arrojan una media de 8 y desviación típica de 2√10, se construye una nueva variable Y= (X1-2)², (X2-2)², (X3-2)², .............................., (X40-2)² a) Se pide hallar la media aritmética de la variable Y b) Si Y=0.5 X – 40 halle C.V. (y)

111

ESTADÍSTICA I

112

ESTADÍSTICA I

CAPÍTULO IX

Distribuciones Bidimensionales 9.1.

DISTRIBUCIONES BIDIMENSIONALES Las distribuciones bidimensionales son aquellas en las que se estudian al mismo tiempo dos variables de cada elemento de la población: por ejemplo: peso y altura de un grupo de estudiantes; superficie y precio de las viviendas de una ciudad; potencia y velocidad de una gama de automóviles, etc. Ejemplo: Al medir el peso y la estatura de los alumnos de una clase, se obtienen los siguientes resultados:

Alumno

Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10

Estatura Peso Estatura Peso Estatura Peso Alumno Alumno x y x y x y Alumno Alumno 1,25 33 1,25 31 1,25 32 21 11 Alumno Alumno 1,28 32 1,28 35 1,28 33 22 12 Alumno Alumno 1,27 34 1,27 34 1,27 31 23 13 Alumno Alumno 1,21 34 1,21 33 1,21 34 24 14 Alumno Alumno 1,22 35 1,22 33 1,22 32 25 15 Alumno Alumno 1,29 31 1,29 31 1,29 31 26 16 Alumno Alumno 1,30 34 1,30 35 1,30 34 27 17 Alumno Alumno 1,24 33 1,24 32 1,24 32 28 18 Alumno Alumno 1,27 35 1,27 31 1,27 32 29 19 Alumno Alumno 1,29 34 1,29 33 1,29 35 30 20

Las "x" representan una de las variables, y las "y" la otra variable. En cada intersección de una valor de "x" y un valor de "y" se recoge el 113

ESTADÍSTICA I

número de veces que dicho par de valores se ha presentado conjuntamente. Esta información se puede representar de un modo más organizado en la siguiente tabla de correlación: Estatura / Peso 1,21 cm 1,22 cm 1,23 cm 1,24 cm 1,25 cm 1,26 cm 1,27 cm 1,28 cm 1,29 cm 1,30 cm

31 kg 0 0 0 0 1 0 2 0 3 0

32 kg 0 1 0 2 1 0 1 1 0 0

33 kg 1 1 0 1 1 0 0 1 1 0

34 kg 2 0 0 0 0 0 2 0 1 2

35 kg 0 1 0 0 0 0 1 1 1 1

Tal como se puede ver, en cada casilla se recoge el número de veces que se presenta conjuntamente cada par de valores (x,y). Tal como vimos en las distribuciones unidimensionales si una de las variables (o las dos) presentan gran número de valores diferentes, y cada uno de ellos se repite en muy pocas ocasiones, puede convenir agrupar los valores de dicha variable (o de las dos) en tramos.

9.2.

COEFICIENTE DE CORRELACIÓN LINEAL En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre si. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso. El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si representáramos en un gráfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta).

114

ESTADÍSTICA I

No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un gráfico y ver que forma describen. El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula: 1 / n × ∑ (x i − xm) × (yi − ym) r= 1/ 2 ( (1 / n × ∑ (x i − xm)2 ) × (1 / n × ∑ (yi − ym)2 ) ) Es decir: El numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra. El denominador: se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raíz cuadrada.

115

ESTADÍSTICA I

Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1 Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1.

Por ejemplo: altura y peso: los alumnos más altos suelen pesar más. Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.

Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos. Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación (parabólica, exponencial, etc.)

De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este resultado podría haberse debido al puro azar. Ejemplo: vamos a calcular el coeficiente de correlación de la siguiente serie de datos de altura y peso de los alumnos de una clase de estadística: Estatura Peso Estatura Peso Estatura Peso Alumno Alumno x x y y x y Alumno 1,25 32 Alumno 1,25 33 Alumno 1,25 33 1 11 21 Alumno 1,28 33 Alumno 1,28 35 Alumno 1,28 34 2 12 22 Alumno 1,27 34 Alumno 1,27 34 Alumno 1,27 34 3 13 23 Alumno 1,21 30 Alumno 1,21 30 Alumno 1,21 31 4 14 24 Alumno 1,22 32 Alumno 1,22 33 Alumno 1,22 32 5 15 25 Alumno 1,29 35 Alumno 1,29 34 Alumno 1,29 34 6 16 26

Alumno

116

ESTADÍSTICA I

Estatura Peso Estatura Peso Estatura Peso Alumno Alumno x y x y x y Alumno 1,30 34 Alumno 1,30 35 Alumno 1,30 34 7 17 27 Alumno 1,24 32 Alumno 1,24 32 Alumno 1,24 31 8 18 28 Alumno 1,27 32 Alumno 1,27 33 Alumno 1,27 35 9 19 29 Alumno 1,29 35 Alumno 1,29 33 Alumno 1,29 34 10 20 30

Alumno

Aplicamos la fórmula:

r=

(1 / 30) × (0, 826)

( ((1 / 30) × (0, 02568)) × ((1 / 30 × (51, 366)))



(1 / 2) )

Luego, r = 0,719 Por lo tanto, la correlación existente entre estas dos variables es elevada (0,7) y de signo positivo.

9.3.

REGRESIÓN LINEAL Representemos en un gráfico los pares de valores de una distribución bidimensional: la variable "x" en el eje horizontal o eje de abscisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:

El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos. 117

ESTADÍSTICA I

Una recta viene definida por la siguiente fórmula: y = a + bx Donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parámetros "a" y "b": El parámetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. El parámetro "b" determina la pendiente de la recta, su grado de inclinación. La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que mejor se ajusta a esta nube de puntos. El parámetro "b" viene determinado por la siguiente fórmula: b=

1 / n × ∑ (x i − xm) × (yi − ym) 1 / n × ∑ (x i − xm)2

Es la covarianza de las dos variables, dividida por la varianza de la variable "x".

118

ESTADÍSTICA I

El parámetro "a" viene determinado por: a = y - (b * x) Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parámetro "b" que hemos calculado. Ejemplo: vamos a calcular la recta de regresión de la siguiente serie de datos de altura y peso de los alumnos de una clase de estadística. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable dependiente "y" (podíamos hacerlo también al contrario):

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso x x x x x x x x x Alumno 1,25 32 Alumno 1,25 33 Alumno 1,25 33 1 11 21 Alumno 1,28 33 Alumno 1,28 35 Alumno 1,28 34 2 12 22 Alumno 1,27 34 Alumno 1,27 34 Alumno 1,27 34 3 13 23 Alumno 1,21 30 Alumno 1,21 30 Alumno 1,21 31 4 14 24 Alumno 1,22 32 Alumno 1,22 33 Alumno 1,22 32 5 15 25 Alumno 1,29 35 Alumno 1,29 34 Alumno 1,29 34 6 16 26 Alumno 1,30 34 Alumno 1,30 35 Alumno 1,30 34 7 17 27 Alumno 1,24 32 Alumno 1,24 32 Alumno 1,24 31 8 18 28 Alumno 1,27 32 Alumno 1,27 33 Alumno 1,27 35 9 19 29 Alumno 1,29 35 Alumno 1,29 33 Alumno 1,29 34 10 20 30

El parámetro "b" viene determinado por: (1 / 30) × 1, 034 b= = 40, 265 (1 / 30) × 0, 00856 Y el parámetro "a" por: a = 33,1 - (40,265 * 1,262) = -17,714

119

ESTADÍSTICA I

Por lo tanto, la recta que mejor se ajusta a esta serie de datos es: y = -17,714 + (40,265 * x) Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente (estatura): Estatura x 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30

Peso x 30,6 31,0 31,4 31,8 32,2 32,6 33,0 33,4 33,8 34,2 34,6

EJERCICIOS 1)

¿Qué es un diagrama de dispersión?

2)

¿Porqué son importantes los diagramas de dispersión?

3)

Interprete cada uno de los siguientes coeficientes de correlación: a) r = - 1.00 b) r = 0 c) r = 0.85 d) r = - 0.20

4)

La Directora de Investigación y Desarrollo de Verónica de France, debe defender la petición que hizo sobre un presupuesto necesario para aumentar los fondos. Obtuvo una muestra de ocho compañías farmaceúticas y recogió los siguientes datos:

120

ESTADÍSTICA I

Compañía 1 2 3 4 5 6 7 8 a) b) c) d) 5)

Ganancia anual(millones de soles), y 25 30 20 50 40 60 50 35

Investigación y Desarrollo(millones de soles), x 5 7 4 10 8 12 6 11

Bosqueje un diagrama de dispersión. ¿Qué tipo de relación existe entre estas 2 variables? Estime el coeficiente de correlación Calcule el coeficiente de correlación

El Presidente de la compañía Brow Boveri, piensa que el tiempo de un vendedor pasa con un cliente debe tener una relación positiva con el monto de lo que compra el cliente. Para ver si esta relación existe, reúne los siguientes datos muestrales: Cliente 1 2 3 4 5 6 7 8 9

Monto de la cuenta, y $ 1056 825 651 748 894 1242 1058 112 1259

Minutos que pasan, x 108 132 64 95 59 132 85 77 124

a) Bosqueje un diagrama de dispersión b) ¿Qué tipo de relación existe entre estas 2 variables? c) Calcule el coeficiente de correlación 6)

El Supervisor de mantenimiento de tránsito de la Municipalidad de Lima, debe determinar si existe una relación positiva entre el costo anual de mantenimiento de los autobuses urbanos y los años que llevan en operación. Si existe tal relación, James cree que puede hacer mejores pronósticos de presupuesto.Para ello recoge los siguientes datos: 121

ESTADÍSTICA I

Autobús 1 2 3 4 5 6 7 8 9 a) b) c) d) e) 7)

Costo de Mantenimiento($), y 857 680 475 700 1054 256 310 635 1038

Tiempo en operación(años), x 8 6 4 8 12 3 2 7 11

Bosqueje un diagrama de dispersión. ¿Qué tipo de relación existe entre estas 2 variables? Calcule el coeficiente de correlación. Determine la ecuación del análisis de regresión muestral. Calcule el costo de mantenimiento anual para un autobús con 5 años de operación.

La Gerente de supermercados “Metro” desea pronosticar las ventas semanales de los libros de bolsillo; para ello se basa en la cantidad de espacio en las repisas(en metros) que se le proporciona. Ella reúne una muestra de 11 semanas: Semana 1 2 3 4 5 6 7 8 9 10 11 a) b) c) d)

Número de libros vendidos, y 278 140 160 195 210 165 240 290 130 268 220

Metros de espacio en repisa, x 6.2 3.4 4.2 4.3 4.7 3.8 4.9 7.5 3.2 3.8 3.1

Bosqueje un diagrama de dispersión. ¿Qué tipo de relación existe entre estas 2 variables? Calcule el coeficiente de correlación. Determine la ecuación de regresión muestral. 122

ESTADÍSTICA I

e) Estime las ventas de libros de bolsillo para una semana en la que se proporcionan 4 metros de espacio en las repisas. 8)

Rosa María es propietaria de una cadena de tiendas de helados en Chiclayo. Está tratando de encontrar alguna variable que tenga una relación positiva con las ventas diarias y decide investigar la temperatura ambiental promedio. Para ello recoge datos para una muestra aleatoria de 10 días: Día 1 2 3 4 5 6 7 8 9 10 a) b) c) d) e) f)

Ventas diarias(litros), y 110 125 135 150 91 185 206 194 138 169

Temperatura promedio(ºF), x 72 78 86 90 68 96 102 100 84 90

Bosqueje un diagrama de dispersión. ¿Qué tipo de relación existe entre estas 2 variables? Calcule el coeficiente de correlación. Determine la ecuación de regresión muestral. Interprete la pendiente o coeficiente de regresión Calcule el residual para el primer día.

9)

¿Cuál es la diferencia entre el análisis de correlación y el análisis de regresión?

10)

Para el siguiente conjunto de datos: y: 10 15 30 25 30 35 x: 6 8 10 12 14 16

40 18

a) Represente los datos en un diagrama de dispersión b) Calcule el coeficiente de correlación 11)

Para el siguiente conjunto de datos: y : 90 80 70 60 50 40 30 x : 20 24 28 32 36 40 44 a) Represente los datos en un diagrama de dispersión b) Calcule la ecuación de regresión muestral 123

ESTADÍSTICA I

12)

Para el siguiente conjunto de datos: y : 13 18 19 23 17 12 22 27 x:5 8 8 10 7 7 11 13 a) Represente los datos en un diagrama de dispersión b) Calcule la ecuación de regresión muestral c) Calcule una estimación puntual para un valor de x de 11.

13)

Se pidió a José Angel Gustavo, que determinara si existe una relación lineal entre el consumo de electricidad y el número de cuartos en una vivienda unifamiliar. Como el consumo de electricidad varía de un mes a otro, él decide estudiar el mes de Enero.Para ello recoge los siguientes datos: Casa 1 2 3 4 5 6 7 8 9 10 11 12

Kilovatios-hora(miles), y 8 7 9 5 7 5 8 9 4 6 8 8

Número de cuartos, x 14 11 16 8 9 6 7 9 5 7 15 6

Escriba un informe en el que analice la relación entre estas variables. 14)

Se desea analizar el comportamiento de las variables: Grado de instrucción (x) y región de procedencia (Y) de los empleados del Ministerio de Agricultura. Los datos están en la siguiente tala:

DISTRIBUCIÓN CONJUNTA DE LAS FRECUENCIAS DE LAS VARIABLES GRADO DE INSTRUCCIÓN (X) Y REGIÓN DE PROCEDENCIA (Y)

Prim.Compl. Costa 40 Sierra 35 Selva 30 Total 105 Fuente: Datos hipotéticos

Secund.Comp. 30 15 15 60 124

Superior 20 10 5 35

Total 90 60 50 200

ESTADÍSTICA I

Se pide; a.- Interpretar los datos. b.- Expresar en frecuencias relativas porcentuales respecto al total c.- Expresar en frecuencias relativas porcentuales respecto al total de las columnas d.- Expresar en frecuencias relativas porcentuales respecto al total de las filas. 15) X Y

En el departamento de ICA se observo el precio del vino y la cantidad de producción durante algunos años obteniéndose la siguiente tabla: 35 100

30 150

40 120

45 200

48 160

60 200

50 150

44 200

54 120

56 150

42 100

Donde X el precio en S/. e Y es la cantidad en miles de litros. Consideraremos la variable X agrupada en 5 intervalos de TIC constante. Se pide a.-Construir la tabla bidimensional b.-Las distribuciones Marginales C.-Medias y varianzas marginales d.-La covarianza 16)

Una Universidad investiga para verificar la tendencia de los alumnos en continuar sus estudios, según la clase social del encuestado, mostró el siguiente: Clase social vs Pretender continuar sus estudios SI NO

ALTA

MEDIA

BAJA

TOTAL

200 200

220 380

380 620

800 1200

a) De una medida cuantificadora de dependencia. Existe dependencia entre las variables nominales Clase Social y Pretender continuar sus estudios? b) Si de los 400 alumnos de la clase Alta, 160 escogen continuar, y 240 no. Ud. cambiaría sus conclusiones? Justifique su respuesta. 17)

El ministerio de salud mando ha realizar una encuesta en la localidad del Cercado de Lima a cerca de los costos y ventas en miles de soles. Aleatoria mente escogió 12 farmacias de la jurisdicción y se obtuvo los siguientes datos: 125

46 120

ESTADÍSTICA I

COSTOS 11 10 14 13 12 20 21 15 22 18 19 16

VENTAS 19 15 20 14 16 33 32 18 29 22 23 20

a) Construir el diagrama de dispersión y comentar b) Hallar “r” y el coeficiente de determinación defina e interprete c/u de ellos c) Graficar la recta de regresión mediante la ecuación estimada. d) Predecir las ventas para un costo de 30 mil soles 18)

Una muestra de 5 varones adultos de quienes se observan las estaturas (X en pies, pulgadas) y los pesos (Y en libras) ha dado los siguientes resultados:

X

5’ 11”

5’ 2”

5’ 3”

5’ 4”

5’ 5”

Y

125

130

140

145

160

a) Realice una regresión lineal y utilice los datos para verificar que la varianza total de Y es igual a la varianza residual mas la varianza explicada por la tarea de regresión. b) Que peso tendrá aquella persona que mide 1,70 mt.

126

ESTADÍSTICA I

19)

Se tiene la siguiente información:

PERU: EXPORTACION: FOB SEGÚN TIPO DE PRODUCTO: 1990 -1998 (MILLONES DE US$ DOLARES) TIPO DE PRODUCTO MINEROS AGRICOLAS PESQUEROS NO TRADICIONALES TOTAL

1990

1991

1992

1993

1994

1995

1996

1997

1998

1204

1041

1219

1205

1548

1446

1474

1649

1432

206

336

177

167

239

175

210

115

77

118

206

223

357

410

336

468

440

542

714

645

709

747

979

966

951

1013

1130

2738

2531

2661

2691

3488

3231

3329

3484

3464

FUENTE: BANCO CENTRAL DE RESERVA

Hallar : a) Grafique el diagrama de dispersión b) La recta de regresión de cada uno de los tipos de producto, incluyendo el total. Realice un análisis y grafique. c) Haga un pronostico por tipo de producto, inclusive el total para el año 2005. 20)

Los gastos publicitarios y volúmenes de ventas de una compañía elegidas al azar durante los 10 meses. Están dados en los siguientes:

MES GASTOS DE PUBLICIDAD x S/. 10000 VALOR DE VENTAS y S/. 10000

1

2

3

4

5

6

7

8

9

10

1.2

08

1.0

1.3

07

08

1.0

06

09

1.10

101

92

110

120

90

82

93

75

91

105

127

ESTADÍSTICA I

a) b) c) d) e) 21)

Hacer el diagrama de dispersión Hallar la recta de regresión Y en X y grafique Hallar r y r², interpretarlo. Pronostique el volumen de ventas para s/. 2500 Halle el error estándar y grafique.

Se tiene la siguiente tabla: a) Determine la recta de tendencia de la serie cronológica del numero de postulantes a las Universidades del Perú durante el periodo 1988 – 2005 b) Grafique el diagrama de dispersión. c) Graficar la recta obtenida y estimar mediante la unión el numero de postulantes para el año 2005. d) Hallar el error estándar de estimación. Elaborar un intervalo de confianza para (y ± Syx) interprete?

AÑOS (X)

1998

PERSONAS (Y)

79500

1999

2000

2001

2002

2003

2004

2005

1996

1997

1998

102540 124580 142950 140640 172070 172600 204890 227180 245740 266860

FUENTE: DIRECCION DE PLANIFICACION UNIVERSITARIA. DPTO DE ESTADISTICA E INFORMATICA. NOV. 1997

22)

X Y

El numero de artículos defectuosos producidos por unidad de tiempo (Y) por cierta maquina. Se considera que varía directamente con la velocidad de la maq. (X) medida en r.p.m. observaciones de 12 horas escogidas al azar de un mes dan los siguientes resultados. 13.2 9.4

14.9 12.2

8.1 6.0

10.2 7.0

15.8 9.0

12.0 7.0

10.9 5.7

17.4 12.3

13.8 9.2

16.4 11.4

13.1 9.6

a) Construya un diagrama de dispersión y sobre x b) Verifique que este conjunto de datos da una estimación de la ecuación de regresión: Ŷ= -0.59964 + 0.7245 Xi c) De una interpretación bo y b1 acabados de obtener e indique Si bо es de importancia practica aquí. d) Interpreta r y r² e) Trace la grafica de la ecuación estimada.

128

10.8 7.5

ESTADÍSTICA I

23)

La siguiente muestra contiene el precio y la cantidad suministrada de un artículo. Use la cantidad como la variable dependiente en este caso.

PRECIO (X) CANTIDAD

a) b) c) d)

25 60

20 85

35 110

40 95

60 140

55 160

45 80

15 40

20 55

30 90

40 115

50 120

70 180

45 95

Construya un diagrama de dispersión Y en Xi Halle la ecuación de regresión lineal Interprete r y r² Halle la ecuación X en Y

24)

En un estudio de la relación entre ingresos mensuales y gastos de una educación de las familias, una muestra proporciono un coeficiente de determinación de 90.25% Sus medidas respectivas de $420 y $ 120 SCX=100 SCY= 49 según este estudio. a) En cuanto se estima los gastos por educación de una familia cuyo ingreso mensual es de $500? b) Si una familia estima un gasto por educación en $370 ¿Cuánto debería ser su ingreso mensual?

25)

Suponga que de una muestra de 22 observaciones aleatorias de los precios X e Y de dos artículos sustituidos se encuentran: X = 15.4;

Y =18.2;

SCY = 50

^ ^ Y = 25.13 – 0.45 X ; X = 52.164 – 2.02 Y a.-Hallar e interpretar el valor del coeficiente de determinación. b.-Halle e interprete el valor del coeficiente de correlación c.-Interpretar –o.45 y 52.164. 26)

Si para una muestra de 21 observaciones se obtiene: ^ ^ Y = 33.4 – 1.4X ; X =20.84375 – 0.546875Y ; ∑XY =4123 Con estos datos hallar: a.-Hallar el coeficiente de determinación b.-Hallar el promedio de las dos variables c.-Hallar SCX y SCY

129

ESTADÍSTICA I

130

ESTADÍSTICA I

Bibliografía

1.

AVILA ACOSTA, Roberto Estadística Elemental. Lima – Perú, 2000

2.

AYONA LEON, Moisés Lima, Editorial Bellavista, 1999

3.

FERNANDEZ CHAVESTA, José y FERNANDEZ Juan Estadística Aplicada I-Técnicas para la Investigación Editorial San Marcos EIRL. Lima, Perú. 2007

4.

GARCÍA ORÉ, Celestino Estadística y Probabilidades (Parte I) Lima-Perú. Universidad Nacional de Ingeniería. 2000

5.

HANK, Jhon E. y REITSCH Arthur G Estadística para Negocios. 2da Edición McGraw-Hill 1997.

6.

LEVIN, RICHARD J. Estadística para Administradores. México, Editorial Prentice may Hispanoamericana S.A. 2001

7.

MITAC MEZA MÁXIMO 1997 “Estadística y probabilidades “Editorial San Marcos”

131