Informe de Investigación

Test Multietapa de Inteligencia Fluida Manuel Martín-Fernández Vicente Ponsoda Julio Olea Pei-Chun Shih Javier Revuelta Universidad Autónoma de Madrid

1

Índice Abstract Introducción Inteligencia Fluida Test Multietapa Objetivos Estudio 1 Método Participantes Materiales Procedimiento Análisis de datos Resultados Análisis de los ítems Fiabilidad Evidencias de validez Funcionamiento diferencial de los ítems Conclusiones Estudio 2 Método Modelos Diseño de la simulación Análisis de datos Resultados Comparación de modelos Resultados de la simulación Conclusiones Estudio 3 Método Especificaciones Análisis de datos Resultados Estructura del test Información del FIMT Conclusiones Discusión Referencias Anexo I – Parámetros de los ítems Anexo II – Módulos del FIMT

i

1 2 2 4 8 9 9 9 9 13 14 17 17 18 19 20 22 23 23 23 25 27 27 27 30 31 31 32 34 38 38 38 39 41 42 45 49 50

Abstract

The aim of this study is optimize the use of the fluid intelligente multistage test (FIMT) items assembling a computerized multistage test, maximizing the test information for people with high intelligence levels. The FIMT item bank is a pool of constructed response progressive matrices items with strong constraints due to their isomorphic character. First, an operative item bank was made, studying its psychometric properties, such as the reliability and the validity sources, and testing the item constraints via DIF. Then, two IRT models (polytomic and dichotomic) were tested with both empirical and simulation studies. Finally, two multistage structures were built using automatic test assembly and tested in order to determine the final form of the FIMT. Results show that FIMT is valid, innovative and reliable test, ready to use in selection process contexts.

Resumen

En este trabajo se trata de optimizar al máximo los ítems de matrices de respuesta construida de un banco inicial de ítems para construir con ellos el test multietapa de inteligencia fluida (FIMT), un test multietapa informatizado lo más informativo posible para los niveles altos de inteligencia. Para ello se construyó primero un banco de ítems operativo y se estudiaron sus propiedades. En segundo lugar se estudió qué modelo de la teoría de respuesta al ítem era más adecuado para puntuar a las personas a través de estudios tanto empíricos como de simulación. Finalmente se probaron dos estructuras multietapa, construidas mediante el ensamblaje automático de test, para decidir qué forma debía presentar el FIMT, dando como resultado un test novedoso, preciso y válido de inteligencia fluida, listo para administrarse en contextos de selección de personal.

-1-

Introducción

El factor g o la capacidad cognitiva general se puede definir como la capacidad que permite la resolución de problemas correctamente, la toma de decisiones rápidas y correctas o la aplicación del razonamiento abstracto y los conocimientos adquiridos en nuevas situaciones (Carroll, 1993). Se trata, en definitiva, de la capacidad de una persona para aprender de forma rápida una tarea, habilidad o destreza, bajo condiciones óptimas de instrucción. Es por ello unos de los mejores predictores del desempeño laboral a nivel global (Schmidt y Hunter, 2004) y una de las capacidades más evaluadas en los contextos de selección de personal a nivel europeo (Salgado, Anderson, Moscoso, Bertua y de Fruyt, 2003). El Test Multietapa de Inteligencia Fluida (FIMT) es un test informatizado de matrices progresivas de respuesta construida que mide uno de los componentes centrales de este factor general de la inteligencia humana a través de una estructura multietapa, un formato que aúna las mejores cualidades de una evaluación adaptativa y de un control robusto tanto de los elementos presentados en el test como de sus propiedades (Hendrickson, 2007).

Inteligencia Fluida De acuerdo a las teorías más clásicas de la inteligencia, el factor general está compuesto por la inteligencia fluida y la inteligencia cristalizada (Cattell, 1963; Horn, 1986). La inteligencia fluida es aquella capacidad que permite la resolución de problemas que requieren el manejo de información novedosa que no depende de una base explícita de conocimientos declarativos adquiridos, yendo más allá de la información dada para percibir lo que no es inmediatamente obvio; formando representaciones –no necesariamente verbales- que faciliten el manejo de problemas complejos que involucren variables mutuamente dependientes (Raven, Raven y Court, 1998). La inteligencia cristalizada, en cambio, es aquella más vinculada a los aspectos culturales y a los conocimientos adquiridos a través de la educación y la experiencia. Si bien son muchas las pruebas y tareas que se utilizan para evaluar la inteligencia fluida en los contextos de selección, las pruebas de analogías geométricas (como las matrices progresivas) suponen una de las tareas centrales en la evaluación de este constructo (Marshalek, Lohman y Snow, 1983; Snow, Kyllonen y Marshalek, 1984). Las matrices progresivas son problemas muy demandantes que requieren el empleo de razonamiento abstracto, razonamiento deductivo e inducción de relaciones -2-

(Carpenter, Just y Shell, 1990), por lo que resultan ideales para medir la inteligencia fluida de forma rápida y precisa (Raven, Raven y Court 1998). Normalmente los ítems de estas pruebas constan de una matriz de 3 × 3 casillas en la que falta la esquina inferior derecha, y es la persona evaluada quien ha de deducir cuál de es la respuesta correcta entre una serie de alternativas. Según Primi (2001), cuando una persona se enfrenta a problemas de estas características pasa por tres etapas fundamentales. En primer lugar sería necesario hacerse una representación mental de las propiedades del problema, analizando detenidamente qué reglas y atributos están presentes en el mismo. En segundo lugar hay que reconocer el paralelismo –por analogía- entre estas reglas y la nueva situación para, finalmente, llegar a la tercera etapa: la aplicación adecuada de las reglas para crear una nueva solución que encaje con la casilla vacía de la matriz. Lo habitual en este tipo de ítems es presentar la respuesta correcta junto a una serie de alternativas debajo de la matriz, de modo que la tercera etapa incluye además la identificación de la solución correcta entre un conjunto de distractores. En los contextos de selección es habitual que se presenten las pruebas de matrices progresivas junto a otro tipo de test que evalúan competencias más específicas de la capacidad cognitiva general, con las que suelen estar fuertemente relacionadas (Salgado y Peiro, 2008). El razonamiento abstracto, numérico y verbal son algunas de las medidas clásicas que más estrechamente se relacionan con las pruebas de matrices (Colom, Escorial, Shih y Privado 2007). Asimismo, también es frecuente encontrar relaciones de menor intensidad entre los test de matrices progresivas y otras pruebas más vinculadas a la inteligencia cristalizada como los test de comprensión verbal o las pruebas de vocabulario (Colom, Abad, Quiroga, Shih y Flores-Mendoza, 2008). En España, la capacidad cognitiva general no sólo es una de las variables más evaluadas en los procesos de selección, sino que es de hecho el mejor predictor del rendimiento laboral de los empleados (Salgado y Moscoso, 2008). El contexto laboral actual exige a los trabajadores el aprendizaje de nuevas destrezas y la adquisición de nuevos conocimientos a medida que evolucionan las nuevas tecnologías o las demandas del mercado. En un entorno laboral tan flexible y en cambio constante, la capacidad cognitiva general es una variable importante que conviene tener presente a la hora de seleccionar a los mejores candidatos para un puesto de trabajo determinado. Asimismo, dada la complejidad que pueden alcanzar los test de matrices progresivas y la cantidad de información nueva que se maneja y que ha de tenerse -3-

presente durante la resolución de estos problemas, no es sorprendente que distintos estudios hayan puesto de manifiesto la estrecha relación entre la inteligencia fluida y la memoria operativa (Ackerman, Beier, y Boyle, 2005; Colom, Flores-Mendoza et al., 2005; Conway et al., 2002; Kane et al., 2004). Desde que Kyllonen y Christal (1990) encontraran que el rendimiento en las tareas de memoria operativa o de trabajo estaba fuertemente asociado con el rendimiento de las pruebas de inteligencia fluida (llegando incluso a afirmar que las diferencias en la capacidad de razonamiento eran poco más que la capacidad de memoria operativa), la relación entre ambos constructos ha sido estudiada en profundidad. Sin embargo, Colom, et al. (2008) encontraron que las relaciones entre el factor general de inteligencia y la memoria de trabajo desaparecen cuando se tienen presentes otras variables en el modelo como la memoria a corto plazo, la velocidad de procesamiento, el control atencional o el funcionamiento ejecutivo (la capacidad de actualizar la información procesada). El control atencional, entendido como la capacidad de mantener activas representaciones mentales en presencia de distractores o fuentes de interferencia, es otra de las variables tradicionalmente relacionadas con la inteligencia fluida (Engle, Kane y Tuholski, 1999). No obstante, estudios recientes ponen de manifiesto que el control atencional podría tratarse de un mediador entre la inteligencia fluida y la memoria de trabajo (Unsworth, Fukuda, Awh y Vogel, 2014; Unsword, Spillers y Brewer, 2009). Las relaciones entre la inteligencia fluida y estas otras variables son relevantes de cara a la construcción de nuevas herramientas psicométricas como el FIMT, pues suponen una fuerte evidencia de validez (véase Hambleton, Sireci y Zumbo, 2013; o en castellano, Abad, Olea, Ponsoda y García, 2010). En definitiva, las pruebas de matrices progresivas suponen un buen indicador de la capacidad cognitiva general en los contextos de selección; más aún cuando se combina con otro tipo de pruebas que evalúen capacidades más específicas relacionadas con las funciones del puesto que se desea cubrir. Además, dada la estrecha relación entre esta variable y el rendimiento laboral, es interesante contar durante el proceso selectivo con herramientas psicológicas capaces de medir con precisión y de forma adaptativa ese factor general de inteligencia.

Test Multietapa Uno de los aspectos más novedosos que incorpora el FIMT es el modo en que los ítems son presentados: a través de una estructura multietapa. Los test multietapa se -4-

caracterizan por presentar conjuntos de ítems preconstruidos de forma adaptativa (Hendrickson, 2007; Luecht y Sireci, 2011). El

evaluado pasa así por distintos

conjuntos de ítems o módulos en función de su rendimiento en los anteriores, de una manera muy similar a como se realizaría en un test adaptativo informatizado (TAI). No obstante, a diferencia de los TAI, en un test multietapa se toman como unidad los módulos en lugar de los ítems. La adaptación no tendría lugar por tanto entre ítems sino entre módulos distribuidos en distintas etapas. De este modo es posible aplicar módulos especialmente adecuados para personas de distinto nivel de capacidad, de manera que el conjunto de ítems con una dificultad más alta sea administrado en una nueva etapa a quienes hayan tenido un mayor rendimiento en el módulo de la etapa anterior. Asimismo, los ítems de dificultad moderada se aplicarían a aquellos evaluados con un rendimiento intermedio, y los ítems de menor dificultad a los evaluados con un peor rendimiento en la etapa anterior.

Figura 1. Ejemplo del diseño de un test multietapa.

La figura 1 muestra un ejemplo de lo que sería un test multietapa de tres etapas. Todos los evaluados tendrían que realizar un primer conjunto de ítems, denominado test de ruta (módulo 1) en la primera etapa, y en función del resultado obtenido por cada uno, pasarían a realizar un módulo de mayor o menor dificultad en la segunda etapa (módulos 2, 3 o 4). Finalmente, el módulo administrado en la tercera etapa (módulos 5, -5-

6 ó 7) dependerá a su vez del rendimiento de cada evaluado en la etapa anterior. Dado que este test consta de tres etapas con un módulo en la primera y tres en la segunda y en la tercera, se habla de un test multietapa 1-3-3 (Luecht y Sireci, 2011). El hecho de que dos personas lleguen al mismo módulo de la tercera etapa no implica necesariamente que hayan respondido al mismo test. Siguiendo el ejemplo anterior, al módulo 5 llegarían aquellos evaluados cuyo rendimiento fuese intermedio en el test de ruta y alto en el módulo 3 de la segunda etapa. Pero también podrían llegar al módulo 5 aquellas personas con un rendimiento alto en el test de ruta y un rendimiento alto en el módulo 2 de la segunda etapa. Por lo tanto es posible concatenar diferentes módulos a través de cada etapa, estableciendo distintos recorridos o trayectorias dentro de un mismo test multietapa. A medida que se aumenta el número de etapas y de módulos por etapa aumenta también la complejidad de la estructura multietapa del test, haciéndolo a su vez más adaptativo para los evaluados (cuantos más módulos y etapas incorpore el test más probable será que se adapte al nivel de quien lo realiza). No obstante, es necesario encontrar un equilibrio entre la complejidad de la estructura y la adaptabilidad del test, pues añadir muchas etapas puede dificultar seriamente la construcción del test sin suponer prácticamente ningún beneficio a la precisión del mismo (Luecht y Nungester, 1998; Luecht, Nungester y Hadidi, 1996). Algo parecido sucede al añadir más módulos por etapa, ya que llega un momento en el que tener más módulos no aporta gran cosa a la estructura del test (Jodoin, Zenisky, y Hambleton, 2006; Wang, Fluegge, y Luecht, 2012). De hecho, en condiciones óptimas (con un banco de ítems elevado con el que consstruir el test) parece que las estructuras sencillas (dos módulos por etapa) funcionan igual de bien que estructuras más complicadas con el mismo número de etapas (Wang et al., 2012). Por su parte, Armstrong et al. (2004) recomiendan no incorporar más de cuatro módulos por etapa. La forma más habitual de construir un test multietapa es a través del ensamblaje automático de test (EAT) en conjunción con los modelos de la Teoría de Respuesta al Ítem (TRI; Diao y Van der Linden, 2011; Van der Linden 2005; Melican et al., 2010). El EAT consiste principalmente en convertir la construcción del test en un problema de optimización binaria, de manera que añadiendo diferentes especificaciones (como el contenido de los ítems, la longitud del test o la dificultad de un módulo) y fijando un objetivo (normalmente maximizar la precisión del test) se llega a una solución óptima. Y esa solución no es otra que los ítems que deben conformar los módulos de cada etapa -6-

del test. De este modo es posible conocer las propiedades del test de antemano, sin necesidad de administrarlo directamente con el formato multietapa. El empleo de los modelos de TRI aporta además algunas ventajas adicionales al EAT. En primer lugar, si se conocen los parámetros de los ítems se puede calcular la precisión o información que proporciona cada ítem para cada nivel de rasgo θ (inteligencia fluida, en el caso del FIMT). Y si se conoce la información de cada ítem para el rasgo latente θ es posible tratar de maximizar la información final del test mediante el EAT, imponiendo además el cumplimiento de otras especificaciones que puedan resultar del interés, como el número de módulos por etapa o la dificultad de cada uno de ellos. Además, la TRI permite realizar la transición del módulo de una etapa al módulo de la siguiente basándose en la estimación temporal del nivel de rasgo de los evaluados ( ˆ ), de un modo muy similar a cómo se realiza en los TAI (Dallas, 2014). Al finalizar cada módulo se hace una estimación del nivel de rasgo de cada evaluado teniendo en cuenta las respuestas a los ítems presentados hasta ese momento (del módulo actual y de los anteriores), y en función de ese nivel de rasgo se asigna un nuevo módulo.. En relación a los TAI, Hendrickson (2007) describe algunas de las ventajas potenciales de los test multietapa. En primer lugar los test multietapa permiten un mayor control sobre la exposición de los ítems atendiendo a criterios no estadísticos, como el contenido, el orden de presentación o la estructura de los mismos. Asimismo, al tratar a los módulos o conjuntos de ítems como una unidad es posible asegurar más fácilmente el cumplimiento de algunas propiedades deseables en cada una de las partes del test (como la unidimensionalidad o la independencia local entre los ítems). Además, como el diseño de los módulos se hace previamente a la administración de los ítems, es posible conocer –y revisar- las propiedades de cada uno de los test posibles, así como la estructura de cada uno de ellos. Finalmente, los test multietapa simplifican tanto el algoritmo de presentación de los ítems como la estimación de las puntuaciones finales de los evaluados en el test. Sin embargo, los test multietapa también tienen algunas limitaciones frente a los TAI. En primer lugar, suelen requerir una mayor cantidad de ítems para conseguir niveles de precisión similares a los obtenidos en los TAI. En segundo lugar, existe el riesgo en los test multietapa de tan sólo dos etapas de que una mala clasificación en el

-7-

test de ruta comprometa la puntuación final de los evaluados. Por último, resulta difícil realizar cambios puntuales en un ítem sin afectar al resto del módulo.

Objetivos El propósito general de este trabajo es, por tanto, establecer un procedimiento multietápico para optimizar la información del FIMT, prestando especial atención a los niveles altos del rasgo latente θ, a partir de un banco de ítems inicial reducido y con fuertes restricciones. El FIMT es una prueba que pretende aplicarse por vía telemática en procesos de selección de personal y en contextos de evaluación psicológica en los que el objetivo sea medir con precisión niveles altos de inteligencia. Para optimizar la información del test será necesario: establecer un banco operativo de ítems de la mayor longitud posible, estudiando qué ítems lo integrarán; decidir qué modelo psicométrico (dicotómico o politómico) es más apropiado para puntuar a los sujetos; y estudiar qué estructura multietapa es más conveniente para los ítems del FIMT. Además, para conseguir una mayor precisión en la estimación del nivel de rasgo de los evaluados con mejor rendimiento, se prolongará la longitud de los recorridos de mayor dificultad del multietapa. Se obtendría así una mejor precisión para las personas con mayores puntuaciones en las primeras etapas del test, a quienes responder a unos cuantos ítems más no les debería de suponer un gran esfuerzo. En concreto, este trabajo pretende dar respuesta a las siguientes preguntas: 1. ¿Cuál es la precisión del banco inicial y qué evidencias de validez se obtienen respecto a la medición de la inteligencia fluida? 2. ¿Cuáles son las restricciones de presentación de los ítems y qué ítems pueden formar parte del banco operativo definitivo? 3. ¿Cuál es el mejor modelo de la TRI para puntuar a los sujetos? 4. ¿Cuál es la estructura multietapa más adecuada para optimizar el objetivo general?

Para hallar las respuestas a estas cuestiones se llevaron a cabo diversos estudios (tanto empíricos como de simulación). El primer estudio empírico aborda precisamente las dos primeras preguntas. En él se detalla el diseño y la construcción del test, el modo en el que fue aplicado a través de subtests, y las propiedades psicométricas del banco de ítems (precisión, evidencias de validez y estudio DIF entre las distintas versiones de un mismo ítem). El segundo estudio da cuenta de la tercera pregunta mediante -8-

procedimientos empíricos y de simulación, poniendo a prueba el ajuste de tanto modelos polítomicos como dicotómicos con distintas restricciones. Una vez definido el banco operativo y un modelo psicométrico a aplicar, se llevó a cabo un tercer estudio en el que se pusieron a prueba diferentes estructuras multietapa con objeto de dar respuesta a la última pregunta.

Estudio 1

El propósito de este primer estudio es conocer las propiedades estadísticas y psicométricas de la totalidad del banco de ítems de respuesta construida inicial, así como poner a prueba el carácter isomorfo de los ítems originales y sus clones, con objeto de establecer un banco de ítems operativo sobre el que poder realizar estudios posteriores sobre los que construir el FIMT. Para ello se detalla a continuación el procedimiento seguido para administrar, diseñar y validar los ítems del banco inicial.

Método Participantes El banco inicial de ítems fue administrado a un total de 724 estudiantes universitarios del segundo curso de la licenciatura de Psicología, de edades comprendidas entre los 18 y los 30 años (M = 19.51, SD = 1.69) a través de seis subtests distintos. Los evaluados fueron seleccionados mediante asignación aleatoria atendiendo principalmente a la disponibilidad de los mismos. Además, del total de la muestra, 169 estudiantes accedieron a realizar otras pruebas de capacidad cognitiva (tanto de inteligencia fluida como de inteligencia cristalizada), 271 accedieron a pasar por diferentes pruebas de memoria operativa y 145 se mostraron conformes con realizar distintas tareas de control atencional.

Materiales Banco de ítems inicial. Los ítems del banco inicial fueron desarrollados por PeiChun Shin, Vicente Ponsoda y Javier Revuelta, expertos en la evaluación psicológica de la inteligencia y en psicometría de la Universidad Autónoma de Madrid, basándose en la taxonomía de reglas propuesta por Carpenter et al. (1990) para ítems de matrices progresivas. Por cada ítem original desarrollado, el banco inicial incorpora además dos -9-

ítems isomorfos o clones en los que cambia alguno de los siguientes elementos del ítem original: la forma de las figuras de los ítems, el color o la trama de las formas, o ambas. Sin embargo, las reglas que se siguen para resolver el ítem original son exactamente las mismas que las que han de seguirse para llegar a la solución de los clones. De este modo cada ítem tiene tres versiones: el ítem original, una primer versión alternativa en la que cambia alguna característica (primer clon) y una segunda versión alternativa en la que cambia una segunda característica (segundo clon). Además, los ítems del banco inicial son todos de respuesta construida, de manera que es el propio evaluado quien ha de dibujar la respuesta utilizando una paleta de herramientas con distintas tramas y colores para las celdillas que incorpora el propio test.

Figura 2. Ítem de Ejemplo.

En la figura 2 se muestra uno de los ítems de ejemplo de la aplicación del banco inicial. Como se observa, la casilla inferior derecha (compuesta a su vez por una matriz de 4 × 4 celdillas) está en blanco. La persona que trate de resolver el ítem tendría primero que analizar el problema y averiguar cuáles son las reglas que sigue para aplicarlas a la nueva situación (la casilla en blanco) y concluir dibujando la que crea que es la respuesta correcta. Para ello cada evaluado cuenta con una paleta de herramientas dotada de una serie de tramas y colores bien diferenciados (a la derecha del ítem) que - 10 -

puede colocar clicando en cada celdilla para dibujar la respuesta que considere pertinente. El formato de respuesta construida aplicado a este tipo de ítems es un procedimiento novedoso que permite extraer más información sobre la aproximación que hace cada persona al problema que a través de un formato de elección múltiple. El banco inicial cuenta con un total de 54 ítems (18 originales y 36 clones, dos por cada ítem original). La puntuación que se puede obtener en cada ítem está comprendida entre 0 y 16, o lo que es lo mismo, el número de celdillas de la matriz 4 × 4 que han sido rellenadas correctamente. Con objeto de simplificar las puntuaciones de cada ítem, se codificaron las respuestas de acuerdo a la siguiente clasificación: −

1: Haber rellenado correctamente de 0 a 7 celdillas del ítem



2: Haber rellenado correctamente de 8 a 11 celdillas del ítem



3: Haber rellenado correctamente de 12 a 13 celdillas del ítem



4: Haber rellenado correctamente de 14 a 15 celdillas del ítem



5: Haber rellenado correctamente las 16 celdillas del ítem

Así, los evaluados que dibujen una respuesta más próxima a la correcta mayor puntuación obtendrán en el ítem, permitiendo así un tratamiento politómico. Se optó finalmente por esta categorización (que establece más puntos de corte según la respuesta dibujada se aproxima a la respuesta correcta) ya que la mayor parte de las personas que no respondían correctamente un ítem, tendían a tener bien rellenadas un gran número de celdillas del mismo. De este modo cada ítem discrimina mejor entre aquellos evaluados que han estado más próximos a la respuesta correcta. La puntuación directa de cada participante sería, por tanto, el sumatorio de su puntuación en cada ítem presentado (de 1 a 5). Salvo que se especifique lo contrario (como al utilizarse modelos psicométricos dicotómicos), los ítems del banco de ítems inicial en este trabajo han recibido el tratamiento politómico descrito con anterioridad. Test de Matrices Progresivas de Raven. El Raven es una medida de razonamiento abstracto (Raven, Raven y Court, 1998) compuesta por 36 ítems en orden ascendente. Al igual que el FIMT, cada ítem consiste en una matriz 3 × 3 a la que le falta la casilla inferior derecha. La tarea consiste en averiguar cuál es la respuesta correcta de un conjunto de alternativas dado deduciendo los patrones que sigue cada ítem. La puntuación de cada participante en el test es el número de ítems acertados.

- 11 -

Test de Aptitudes Mentales Primarias (PMA). Se incluyeron dos pruebas de la batería de aptitudes mentales primarias (Thurstone, 1938): la escala R, una tarea de razonamiento lógico de 30 ítems en la que el evaluado debe deducir cuál es el siguiente elemento de una serie de letras (como por ejemplo [a-b-a-b-a-b-a-b]) de una lista de alternativas (las letras [a-b-c-d-e-f]) de las que sólo una es correcta; y la escala V, una tarea de razonamiento verbal de 50 ítems en la que se presenta una palabra cuyo significado debe comprarse con el de una lista de cuatro alternativas de las que sólo una es correcta (por ejemplo, Robusto: delgado-gordo-corto-rudo). En ambas escalas la puntuación de los participantes es el número de respuestas correctas obtenido. Test de Aptitudes Diferenciales (DAT-5). Se emplearon las escalas de razonamiento abstracto (DAT-AR), numérico (DAT-NR) y verbal (DAT-VR) del test de aptitudes diferenciales (Bennett, Seashore, y Wesman, 1990). DAT-AR es un test de series basado en figuras abstractas de 40 ítems de longitud. Cada ítem incluye cuatro figuras que siguen una regla, y el evaluado tiene que elegir entre una figura que siga la misma regla entre una lista de cinco alternativas. DAT-NR es una escala 40 ítems en la que se plantea un problema matemático y ha de escogerse una respuesta de entre cinco alternativas de la que sólo una es correcta (por ejemplo: 5P  2  58 ; (a) 3, (b) 4, (c) 7, (d) 9, (e) ninguna de las anteriores). Por su parte, DAT-VR es una test de razonamiento verbal de 40 ítems consistentes en plantear un enunciado como una analogía que debe ser completada de entre una lista de cinco alternativas de la que sólo una es correcta. Cada alternativa tiene un par de palabras que encajan en los huecos de cada enunciado (por ejemplo: (…) es al agua como comer es a (…); (a) viajar-conducir, (b) pieenemigo, (c) beber-pan, (d) chica-industria, (e) beber-enemigo). La puntuación total de cada participante en cada escala es el sumatorio de las respuestas correctas. Medidas de Memoria Operativa Reading Span. Esta tarea consiste en confirmar si ciertas frases, presentadas en una secuencia, tienen o no tienen sentido. Las palabras fueron tomadas la adaptación al castellano de la prueba de Daneman y Carpenter (1980) (Elosúa, Gutiérrez, GarcíaMadruga, Luque, y Gárate, 1996). Cada ensayo incluye una frase que evaluar y una letra mayúscula que recordar. Tan pronto como se evalúe la frase (si tiene o no sentido) se presenta una nueva frase y una nueva la letra mayúscula. Al final de cada bloque experimental los evaluados deben recordar las letras mayúsculas que han aparecido en el orden correcto. La puntuación de cada participante es el número de series de letras bien recordadas. - 12 -

Computation Span. En esta tarea, desarrollada originalmente por Ackerman et al. (2002), los participantes deben recordar una serie de letras mayúsculas mientras se verifica si una ecuación matemática es o no correcta. Primero se presenta una ecuación durante seis segundos (como: 10/2 + 4 = 8) y el evaluado debe decidir si la ecuación es o no correcta. A continuación aparece una letra mayúscula durante un segundo y medio que se debe recordar. Al final de cada bloque han de introducirse en el orden correcto las letras presentadas entre cada ensayo. La puntuación de los participantes es el número de veces que introducen bien la secuencia de letras. .Dot

Matrix. Esta tarea fue diseñada sobre la base de los trabajos de Miyake et

al. (2001). Los participantes resuelven primero una ecuación de primer orden en menos de cuatro segundos y medio. A continuación aparece una matriz 5 × 5 con un punto en su interior que debe memorizarse durante un segundo y medio. Después de cada par de ecuaciones y matrices con punto aparece una matriz vacía en la que los participantes deben colocar todos los puntos que recuerden de los ensayos anteriores. La puntuación total de cada evaluado es el número de veces que se colocan bien todos los puntos en la matriz vacía. Medidas de Control Atencional Flanker Task. Esta tarea se basa en los trabajos previos de Eriksen y Eriksen (1974) e incluye tres tareas bien diferenciadas: numérica, verbal y espacial. En la tarea numérica se presenta una serie de tres cifras y ha de decidirse, lo más rápido posible, si la cifra central es par o impar. Las cifras que rodean al dígito central pueden ser compatibles o incompatibles, es decir, todas del mismo tipo (pares o impares) o las dos cifras que rodean a la central diferentes (si la central es par, las que las otras impares, y viceversa). La tarea verbal, por su parte, es se plantea de la misma manera que la numérica con la excepción de que aparecen letras en lugar de números y la decisión que los participantes deben tomar es si son letras consonantes o vocales. Finalmente, la tarea espacial requiere que el participante diga si una flecha horizontal apunta hacia la izquierda o la derecha de un punto que aparece en la pantalla. La flecha, que de por sí ya apunta hacia la izquierda o hacia la derecha) puede aparecer a ambos lados del punto. En las tres pruebas la puntuación de cada evaluado es la suma del número de aciertos.

Procedimiento Para la administración del banco de ítems inicial se empleó un diseño de anclaje. Este tipo de diseños consisten en la presentación de todo el banco de ítems utilizando - 13 -

distintas formas del test o subtests en las que se mantiene constante un determinado número de ítems que funciona como punto de anclaje. De esta manera es posible calibrar todo el banco de ítems sin tener que obligar a los evaluados a responder a todos los ítems. El diseño de anclaje resultó especialmente propicio para esta primera administración del test ya que precisamente permite tener en cuenta el carácter isomorfo de los ítems. Tal y como se muestra en la tabla 1, los ítems fueron presentados a los evaluados en seis subtests diferentes en las que tan sólo se incluye una única versión de cada ítem.

Tabla 1. Diseño de anclaje del FIMT. Ítem 1 Ítem 2 Ítem 3 Ítem 4 Ítem 5 Ítem 6 Ítem 14 Ítem 15 Ítem 17 Ítem 7 Ítem 8 Ítem 9 Ítem 11 Ítem 16 Ítem 19 Ítem 10 Ítem 12 Ítem 13 Ítem 18

Subtest A Subtest B Subtest C Subtest D Subtest E Clon 1 Clon 1 Clon 2 Clon 2 Original Clon 1 Clon 1 Clon 2 Clon 2 Original Clon 1 Clon 1 Clon 2 Clon 2 Original Clon 1 Clon 1 Clon 2 Clon 2 Original Clon 1 Clon 1 Clon 2 Clon 2 Original Clon 1 Clon 1 Clon 2 Clon 2 Original Clon 1 Clon 1 Clon 2 Clon 2 Original Clon 1 Clon 1 Clon 2 Clon 2 Original Clon 1 Clon 1 Clon 2 Clon 2 Original Clon 2 Original Original Clon 1 Clon 1 Clon 2 Original Original Clon 1 Clon 1 Clon 2 Original Original Clon 1 Clon 1 Clon 2 Original Original Clon 1 Clon 1 Clon 2 Original Original Clon 1 Clon 1 Clon 2 Original Original Clon 1 Clon 1 Clon 2 Original Original Clon 1 Clon 1 Clon 2 Original Original Clon 1 Clon 1 Clon 2 Original Original Clon 1 Clon 1 Clon 2 Original Original Clon 1 Clon 1

Subtest F Original Original Original Original Original Original Original Original Original Clon 2 Clon 2 Clon 2 Clon 2 Clon 2 Clon 2 Clon 2 Clon 2 Clon 2 Clon 2

Paralelamente se administró también a parte de la muestra el resto de las pruebas. Se pasaron todas las pruebas durante un intervalo de dos horas, interrumpidas por un breve descanso de diez minutos tras la primera hora.

Análisis de Datos Para llevar a cabo el primer objetivo (conocer las propiedades psicométricas del banco de ítems) se obtuvieron los estadísticos descriptivos de los ítems y se calcularon los estadísticos de consistencia interna para cada una de los seis subtests en los que se - 14 -

administraron los ítems del banco inicial. Además se pusieron en relación las puntuaciones totales de los sujetos en cada subtest con el resto de variables. Los ítems del banco inicial se puntuaron para estos análisis en categorías ordenadas de 1 a 5, tal y como se describe en los materiales. Para cumplir con el segundo objetivo (obtener un banco de ítems operativo) fue necesario poner a prueba las restricciones de administración de los ítems. Para comprobar si dos ítems que siguen las mismas reglas están o no fuertemente relacionados lo ideal sería realizar contrastes sobre la dependencia local de esos dos ítems. Sin embargo, dado que en los subtests no se incluyen dos versiones de un mismo ítem, es imposible realizar los análisis de dependencia local habituales. Así que para poner a prueba el carácter isomorfo de los ítems, es decir, para contrastar si dos ítems que siguen las mismas reglas no pueden presentarse juntos, se llevó a cabo un análisis para detectar el funcionamiento diferencial de los ítems (DIF). El DIF consiste en la aplicación de un conjunto de técnicas estadísticas que permiten detectar si dos muestras de distintas poblaciones responden de manera diferente a un mismo ítem. El objetivo habitual de estos análisis es contrastar si un mismo ítem funciona o no de la misma manera entre dos grupos bien diferenciados (como por ejemplo hombres y mujeres, o habitantes de distintos países). No obstante, en el presente estudio se cuenta con dos muestras provenientes de la misma población (estudiantes universitarios de Psicología) y lo que se busca es detectar si los ítems originales funcionan de diferente manera al compararlos con sus clones. Es decir, el objetivo no sería buscar diferencias de funcionamiento entre las muestras, sino entre los propios ítems. De este modo, si se detecta DIF entre dos versiones de un mismo ítem, al tratarse de dos muestras de la misma población, se asumiría que las diferencias de funcionamiento se deben a los propios ítems, por lo que no deberían tratarse como clones. En cambio, si no se encuentra DIF entre dos versiones de un mismo ítem, podría mantenerse la hipótesis de que los ítems sí que son realmente isomorfos. Con objeto de aplicar la mayor cantidad posible de métodos de detección de DIF, los análisis realizados en esta segunda parte del estudio se llevaron a cabo puntuando los ítems de manera dicotómica (0: error; 1: acierto), ya que las técnicas disponibles de DIF para ítems politómicos son aún escasas. Así, si varios métodos detectan que un ítem funciona de manera diferencial, podría asumirse que en realidad no se trata de un ítem isomorfo.

- 15 -

Los métodos de detección de DIF no basados en la TRI fueron empleados en este estudio fueron: Mantel-Haenszel (MH; Mantel y Haenszel, 1959, Holland & Thayer, 1988), el conocido como estandarización (Dorans y Kulick, 1986), BreslowDay (BD; Breslow y Day, 1980) y el logístico (Swaminathan y Rogers, 1990). Los métodos MH y la estandarización consisten en la comparación de las frecuencias de aciertos obtenidas con las frecuencias de aciertos esperadas –si bien su formulación y la distribución del estadístico de cada prueba es diferente-, y ambos métodos son especialmente indicados para la detección de DIF uniforme. El método BD (que compara las frecuencias de acierto esperadas con las obtenidas siguiendo otro procedimiento), en cambio, funciona bastante bien para la detección de DIF no uniforme. El método logístico funciona bien para ambos tipos de DIF y se basa en modelar mediante regresión logística binaria cada ítem poniéndolo en relación con la puntuación total obtenida, los grupos comparados y la interacción entre ambos. Así, si el coeficiente de regresión asignado al grupo es significativo pero no la interacción se trataría de un caso de DIF uniforme, mientras que si la interacción resultase significativa se haría referencia a un caso de DIF no-uniforme. Finalmente se aplicó un método de detección de DIF basado en la TRI que funciona bastante bien para los casos tanto de DIF uniforme como no-uniforme: se trata del método de Raju (1988, 1990). En esta técnica se compara la diferencia de las áreas que las curvas características del ítem de cada grupo dejan debajo de sí. Los criterios empleados para la detección de DIF en cada método fueron: −

MH: se considera DIF cuando el nivel de significación del estadístico MH sea igual o inferior a α = 0.05.



Estandarización: se considera DIF cuando el nivel de significación del estadístico sea igual o inferior a α = 0.10.



BD: se considera DIF cuando el nivel de significación del estadístico BD sea igual o inferior a α = 0.05.



Logístico: se considera DIF cuando el nivel de significación del coeficiente sea igual o inferior a α = 0.05. Se emplearon los criterios de R 2 de Nagelkerke de Zumbo y Thomas (1997) para establecer el tipo de DIF.



Raju: se considera DIF cuando el nivel de significación del estadístico Z (obtenido entre la diferencia de las áreas que deja la CCI de cada grupo) sea igual o inferior a α = 0.05.

- 16 -

En todos los métodos se utilizó el algoritmo de purificación hasta un máximo de 10 iteraciones. Para poder llevar a cabo estos análisis se compararon los distintos subtest del banco de ítems inicial. De este modo se realizan cuatro contrastes entre cada ítem y sus clones mediante cinco métodos DIF diferentes (lo que da un total de veinte contrastes de DIF al comparar las versiones de cada ítem entre sí). A su vez, cada ítem se compara consigo mismo una vez por cada método DIF empleado (lo que da un total de cinco contraste de DIF al comprar una versión de un ítem de un subtest con la misma versión del ítem en otro subtest). Así, al comprar las diferentes versiones de un ítem de los distintos subtests (original-clon1, original-clon2, clon1-clon2), lo que se obtiene es la proporción de veces que se encuentra DIF en cada par de ítems comparados. Si se compara esta proporción con la proporción de veces que se encuentra DIF al comparar un ítem consigo mismo, es posible determinar si dos ítems funcionan de manera diferencial dentro de la misma población.

Los análisis se llevaron a cabo utilizando el programa R statistics (R Core Team, 2014), utilizando los paquetes: psych (Revelle, 2015) para los análisis clásicos de fiabilidad y difR (Magis, Beland y Raiche, 2013) para los análisis de funcionamiento diferencial de los ítems.

Resultados Análisis de los ítems En general el banco posee ítems con diferentes niveles de dificultad (tabla 2), con un buen número de ítems relativamente sencillos cuya media es cercana –o ligeramente superior- al 4, por lo que la mayoría de los participantes han dado con la respuesta correcta o han estado muy cerca de dibujarla correctamente, otro grupo de ítems de dificultad intermedia (con medias en torno a 3) y un tercer conjunto de ítems con mayor dificultad (con medias centradas alrededor de 2.5). Asimismo, la dispersión de los ítems es buena (desviaciones típicas cercanas o superiores a 1), lo que indica que hay heterogeneidad a la hora de responderlos.

- 17 -

Ítem Original 1 Clon1 1

M 4.29 4.75

Tabla 2. Estadísticos descriptivos de los ítems SD M SD Ítem Ítem 1.4 Original 7 4 1 Clon1 13 0.78 Clon1 7 3.68 1.03 Clon2 13

Clon2 1 Original 2

4.64 4.13

0.92 1.15

Clon2 7 Original 8

3.73 3.28

0.82 Original 13 1.37 Clon1 14

3.55 4.21

1.27 0.74

Clon1 2 Clon2 2

4.39 4.53

1.05 0.94

Clon1 8 Clon2 8

2.79 2.76

1.42 Clon2 14 1.44 Original 14

4.2 3.89

0.77 1.01

Original 3 Clon1 3

4.65 4.7

0.92 0.92

Clon1 9 Clon2 9

2.88 3.39

1.51 1.59

Clon1 15 Clon2 15

4.58 4.48

0.75 0.77

Clon2 3 Original 4

4.67 3.81

0.89 1.66

Original 9 Clon1 10

2.02 2.62

1.39 Original 15 1.17 Clon1 16

4.6 4.34

0.75 1.28

Clon1 4 Clon2 4

3.92 4.24

1.64 Clon2 10 1.4 Original 10

2.93 3.39

1.27 Clon2 16 1.2 Original 16

4.14 4.41

1.37 1.25

4.13 4.16 3.72 4.41 3.84 3.69

1.34 Clon1 11 1.52 Clon2 11 1.6 Original 11 1.17 Clon1 12 1.16 Clon2 12 1.46 Original 12

3.06 3.07 3.15 3.48 3.52 3.85

1.16 Clon1 17 1.19 Clon2 17 1.45 Original 17 0.76 Clon1 18 0.72 Clon2 18 1.26 Original 18

3.5 3.69 3.29 4.1 3.96 4.29

1.44 1.45 1.29 0.8 0.85 0.88

Original Clon1 Clon2 Original Clon1 Clon2

5 5 5 6 6 6

M 2.73 2.24

SD 1.63 1.35

Fiabilidad Una primera aproximación a la fiabilidad del total del banco de ítems inicial es a través de las medidas clásicas de consistencia interna (tales como el α de Cronbach o el coeficiente de las dos mitades de Guttman). Si bien es posible obtener indicadores de precisión mucho más dinámicos al aplicar la TRI –que informan de lo fiable que es el test para los diferentes niveles de capacidad de los evaluados-, estos primeros indicadores clásicos ofrecen una perspectiva general de cómo ha funcionado el banco de ítems en su conjunto. Tabla 3. Medidas de consistencia interna para cada forma del diseño. Coeficiente de las dos mitades α de Cronbach de Guttman .83 Subtest A .82 .80 Subtest B .79 .71 Subtest C .70 .73 Subtest D .72 .77 Subtest E .77 .83 Subtest F .82 - 18 -

En la tabla 3 se aprecia que la consistencia interna de cada una de los seis subtest administrados a los sujetos es relativamente alta (con valores que oscilan entre .70 y .82), por lo que parece que la precisión alcanzada por el conjunto de los ítems es adecuada.

Evidencias de validez La principal evidencia de validez del banco de ítems inicial es su relación con otras pruebas de inteligencia y de capacidades vinculadas a la misma. Dado que paralelamente a los subtests del banco inicial se administraron otras pruebas de inteligencia fluida, de inteligencia cristalizada, de memoria de trabajo y de control atencional, es posible determinar en qué medida las puntuaciones de los subtests están relacionadas con las puntuaciones en el resto de pruebas, obteniendo así evidencias de validez convergente y discriminante. En la tabla 4 se muestran las correlaciones obtenidas entre las puntuaciones directas del banco del FIMT y las otras pruebas y tareas experimentales descritas en el método del presente estudio.

Tabla 4. Correlaciones FIMT FIMT APM .47** DAT5 – AR .52** DAT 5 – NR .23** DAT 5 – VR .39** PMA – R .28** PMA – V .12_ Reading span .29** Computation span .30** D matrix .42** Control Atencional: Verbal -.11_ Control Atencional: Espacial -.27** Control Atencional: Numérico .07_ Nota: **: p < .001

Entre las pruebas de inteligencia, las puntuaciones de los subtests se relacionan positiva y significativamente con la escala APM (Advanced Progressive Matrices) del test del Raven (rxy = .47, t(165) = 6.88, p < .001), con las escalas de razonamiento abstracto (rxy = .52, t(165) = 7.80, p < .001), de razonamiento verbal (rxy = .39, t(165) = 5.53, p < .001) y de razonamiento numérico (rxy = .23, t(165) = 3.03, p < .001) del - 19 -

DAT5 y con el factor R (rxy = .28, t(165) = 3.80, p < .001) del PMA. Este último factor evalúa las capacidades de razonamiento lógico dentro de este test. No obstante, no se encontraron relaciones entre las puntuaciones en los susbtests y el factor V –que mide comprensión verbal- del PMA (rxy = .12, t(165) = 1.53, p = .128). Las fuertes relaciones del banco de ítems inicial con estas pruebas consolidadas dentro del ámbito de la evaluación de la inteligencia, suponen una evidencia de validez convergente importante, ya que las personas con altas puntuaciones en las diferentes formas del test tienden a mostrar un buen desempeño en el resto de pruebas, en especial en aquellas más vinculadas a la inteligencia fluida. Asimismo, al poner en relación los resultados obtenidos en los subtests con las medidas obtenidas en pruebas de memoria de trabajo, las correlaciones obtenidas son algo más bajas, si bien significativas (rxy = .29, t(267) = 4.87, p < .001 en la tarea de reading span; rxy = .30, t(267) = 5.18, p < .001 en la tarea de computation span; y rxy = .41, t(267) = 7.62, p < .001 en la tarea dot matrix). Finalmente, al relacionar las puntuaciones del banco de ítems inicial con las pruebas de control atencional: o bien no se obtienen correlaciones significativas (rxy = .12, t(139) = -1.42, p = .158 en la tarea de capacidad atencional verbal; y rxy = -.15, t(141) = -1.78, p = .077 en la tarea de control atencional numérica), o bien la relación es negativa (rxy = -.27, t(142) = -3.33, p = .001 en la tarea de control atencional espacial). Estos resultados suponen una evidencia de validez discriminante.

Funcionamiento diferencial de los ítems Al comparar el funcionamiento de los ítems de un subtest con esos mismos ítems en otro subtest, se obtiene la proporción de veces que se detecta DIF en el mismo ítem entre dos muestras de la misma población (las tres primeras columnas de la tabla 5). En general, la proporción de veces que los métodos empleados detectan DIF en un mismo ítem es baja (M = 0.14, SD = 0.08), cercana a cero en casi todos los casos. Tomando como referencia la media de estas proporciones se decidió que los ítems ismorfos del banco inicial con una proporción media de DIF encontrado igual o superior a 0.30 son susceptibles de funcionar diferencialmente en las dos muestras. Nótese que 0.30 es justo el valor que está dos veces la desviación típica por encima de la media de veces que se detecta DIF entre dos ítems idénticos.

- 20 -

Tabla 5. Proporciones de DIF encontrado entre las versiones de cada ítem Orig-Orig 1erClon-1erClon

Ítem _1 Ítem _2 Ítem _3 Ítem _4 Ítem _5 Ítem _6 Ítem _7 Ítem _8 Ítem _9 Ítem 10 Ítem 11 Ítem 12 Ítem 13 Ítem 14 Ítem 15 Ítem 16 Ítem 17 Ítem 18 Prop. media:

0.20 0.40 0.20 0.20 0.40 0.20 0.20 0.20 0.20 0.00 0.20 0.00 0.00 0.00 0.00 0.20 0.40 0.00

2oClon-2oClon

0.00 0.00 0.00 0.00 0.20 0.20 0.00 0.20 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.60 0.14

0.00 0.20 0.00 0.20 0.20 0.20 0.20 0.20 0.20 0.40 0.00 0.00 0.00 0.40 0.20 0.60 0.20 0.20

Orig-1erClon Orig-2oClon 1erClon-2oClon

0.15 0.40 0.00 0.05 0.00 0.85 0.35 0.15 0.45 0.11 0.16 0.63 0.16 0.05 0.26 0.37 0.63 0.68 0.30

0.32 0.63 0.11 0.42 0.16 0.63 0.63 0.37 0.47 0.58 0.16 0.63 0.11 0.26 0.47 0.32 0.58 0.58 0.41

0.21 0.32 0.21 0.47 0.47 0.37 0.42 0.47 0.26 0.35 0.10 0.75 0.05 0.05 0.25 0.20 0.30 0.30 0.31

Superar esta proporción implica que aquellos ítems que supuestamente deberían funcionar igual en la misma población, no lo hacen, por lo que estaría justificado tratarlos como ítems independientes. Al compararse los ítems originales con sus clones, y al comparar los clones entre ellos (las últimas tres columna de las tabla 5), se obtienen proporciones de detección de DIF superiores a 0.30 entre varios pares de ítems. Concretamente, al comparar el funcionamiento de los ítems originales con sus primeros clones se encontró DIF en ocho parejas de ellos, ya que la proporción de DIF detectada entre dos ítems isomorfos es superior a la proporción de DIF detectada entre dos ítems idénticos. Por lo tanto no parece razonable asumir que estos ocho pares de ítems no puedan presentarse de forma simultánea. Asimismo, al comprar los ítems originales con sus segundos clones (en los que cambia tanto la figura como el color del interior de las matrices) se detectó DIF en trece pares de ítems. Y al comparar los primeros clones con los segundos clones se detectó DIF entre diez pares de ítems. Según estos resultados se liberarían de todas las restricciones aquellos ítems en los que se detecte DIF entre el original y sus dos clones, y entre los dos clones entre sí (es decir, cuando las tres últimas columnas de cada fila están resaltadas en la tabla 5). Se obtuvieron así un total de 18 ítems completamente independientes (las tres versiones - 21 -

de los ítems 2, 6, 7, 12, 17 y 18), 24 ítems parcialmente liberados (que conservan alguna restricción) y 12 ítems isomorfos, que conservan las restricciones iniciales.

Conclusiones De este primer estudio se derivan dos implicaciones importantes. La primera de ellas pone de manifiesto que las propiedades psicométricas del banco de ítems inicial – administrado en sus seis subtests diferentes- son adecuadas. La fiabilidad de cada una de los subtests es moderadamente alta y los resultados obtenidos al relacionar las puntuaciones de cada subtest con las otras pruebas proporcionan una sólida evidencia de validez convergente y discriminante. Las estrechas relaciones entre los resultados de las personas evaluadas mediante los subtests del banco de ítems inicial y los resultados del test de Raven, la prueba de matrices progresivas más utilizada a la hora de medir la capacidad cognitiva general, supone una evidencia de validez convergente muy importante. Asimismo, las relaciones entre las escalas de razonamiento abstracto, numérico y verbal del DAT-5 con los resultados de los participantes en los subtests, apuntan en la misma dirección que cuando se compraran los resultados de estas escalas con el Raven (Raven, et al., 1998). Las correlaciones entre la escala de razonamiento abstracto del PMA con otras pruebas de matrices también son significativas y positivas (Colom, et al. 2007), como sucede al comparar los resultados obtenidos en esta escala con los obtenidos en los subtests del banco de ítems del FIMT. Las relaciones entre otras pruebas de matrices progresivas con la escala de comprensión verbal del PMA son en cambio más bajas (Colom, et al. 2008), lo que constituye una evidencia de validez discriminante en el caso de los ítems del banco de ítems inicial, con los que la relación resultó más baja y no significativa. A su vez, son varios los trabajos que ponen de manifiesto la relación entre las tareas propias de la memoria de trabajo y la inteligencia fluida medida a través de tests de matrices progresivas (Colom et al., 2008; Kyllonen & Christal, 1990) por lo que las relaciones entre los ítems del banco inicial con las tareas más clásicas de memoria operativa suponen una nueva evidencia del validez convergente para esta nueva herramienta. Asimismo, las relaciones encontradas entre el banco de ítems inicial y las medidas de control atencional son consistentes con estudios en los que tareas de este tipo presentan correlaciones bajas y negativas con los resultados de los test de matrices (Unsworth, Spillers y Brewer, 2009).

- 22 -

La segunda implicación de este primer estudio hace referencia al supuesto carácter isomorfo de los ítems. Debido al diseño empleado durante la aplicación del cuestionario no fue posible obtener datos para estudiar la dependencia local entre dos versiones de un mismo ítem mediante los procedimientos habituales (ya que a ningún participante se le presentó más de un ítem isomorfo). Es por ello por lo que se recurrió a los métodos de detección de DIF como solución temporal al problema. Y los resultados en este caso son claros: no todas las versiones de un mismo ítem funcionan de la misma manera en dos muestras pertenecientes al mismo grupo normativo, por lo que a priori tiene sentido asumir que ambas versiones son dos ítems bien diferenciados. Esto permite ampliar el número de ítems que puede presentarse a un mismo evaluado, pasando de un banco de ítems inicial con fuertes restricciones a un banco más flexible y operativo con el que es posible estudiar distintas estructuras multietapa para el FIMT. En los siguientes estudios se partirá de este banco de ítems operativo, en el que se han liberado varios ítems de las restricciones de presentación que se asumieron durante el diseño y la administración de los subtests.

Estudio 2 El objetivo de este estudio es encontrar el mejor modelo de la TRI para puntuar a los evaluados, prestando especial a la información que los modelos proporcionan en los niveles altos del rasgo latente θ y a las restricciones de los ítems isomorfos. Para ello se pondrán a prueba diferentes modelos de la TRI (uno dicotómico y otro politómico) con distintas restricciones y se optará por uno de ellos. Además, se realizará una simulación para justificar el empleo del modelo elegido.

Método Modelos Para tratar las respuestas de manera dicotómica, se decidió aplicar el modelo logístico de dos parámetros (Birnbaum, 1968), ya que no se espera que el efecto de las respuestas al azar sea muy elevado en ítems de respuesta construida. Este modelo viene definido por: P(X j  1) 

1 1  exp(a j (i  b j ))

- 23 -

donde P(X j  1) es la probabilidad de acertar el ítem j, θi es el nivel del rasgo latente del evaluado i, bj es el parámetro de dificultad del ítem j y aj el parámetro de discriminación del ítem j. Según este modelo la probabilidad de acertar uno de los ítems depende del nivel de capacidad cognitiva general del sujeto, de la dificultad del ítem y de lo discriminativo que sea. Si los clones de un ítem original siguen las mismas reglas y tienen un patrón de forma o un color parecido, entonces es razonable suponer que los dos clones comparten algunas características entre sí, como su dificultad o su discriminación. Para poner esta hipótesis a prueba se definieron tres modelos anidados a los que se les impusieron diferentes restricciones. Estas restricciones responden al carácter isomorfo de los ítems del banco operativo que no fueron liberados en el estudio anterior: −

Modelo 1: modelo de dos parámetros sin restricciones.



Modelo 2: modelo de dos parámetros fijando al mismo valor los parámetros de discriminación aj y dificultad bj de los clones de un mismo ítem.



Modelo 3: modelo de dos parámetros fijando al mismo valor los parámetros de discriminación aj de los clones de un mismo ítem.



Modelo 4: modelo de dos parámetros fijando al mismo valor los parámetros de dificultad bj de los clones de un mismo ítem.

Se modelaron además las respuestas de los participantes de acuerdo al modelo politómico de respuesta graduada (Samejima, 1969) que tiene en cuenta las categorías de respuesta del ítem miden el mismo rasgo y están ordenadas. Según este modelo, la probabilidad de acertar un ítem se define como:

P( X ij  k | i )  Pk* (i )  Pk*1 (i ) Pk* (i )  P( X ij  k | i ) 

1

1  exp  a (  b )  j

i

jk

donde k es una de las categorías de respuesta posibles del ítem j (en este caso un valor comprendido de uno a cinco, dada la codificación de los ítems), Pk* (i ) es la probabilidad de obtener en el ítem la categoría k o una superior,  i es el nivel de rasgo del evaluado i, a j el parámetro de discriminación del ítem j y b jk sería el parámetro de posición –o dificultad- de la categoría k del ítem j. De acuerdo a este modelo, la probabilidad de que una persona tenga un número determinado de celdillas bien

- 24 -

rellenadas (una de las k categorías) dependería de su capacidad cognitiva general, de la dificultad y la discriminación del ítem. Al igual que con el modelo de dos parámetros, se plantearon además tres modelos anidados que responden a las mismas restricciones: −

Modelo 5: modelo de respuesta graduada sin restricciones.



Modelo 6: modelo de respuesta graduada fijando al mismo valor los parámetros de discriminación aj y dificultad bjk de los clones de un mismo ítem.



Modelo 7: modelo de respuesta graduada fijando al mismo valor los parámetros de discriminación aj de los clones de un mismo ítem.



Modelo 8: modelo de respuesta graduada fijando al mismo valor los parámetros de dificultad bjk de los clones de un mismo ítem.

Diseño de la simulación El modelo de respuesta graduada es una generalización del modelo de dos parámetros. En este caso, además, la última categoría de respuesta del modelo politómico (la categoría cinco, haber rellenado correctamente todas las celdillas de la respuesta del ítem) coincide con el acierto del modelo dicotómico. No se esperan por lo tanto grandes diferencias entre los parámetros de discriminación estimados de ambos modelos. Sin embargo en los resultados se encontró que el modelo de dos parámetros tendía a presentar mayores valores para los parámetros aj que el de respuesta graduada. Esto hace a su vez que la información proporcionada por el modelo de dos parámetros sea mayor para los valores altos del rasgo latente θ¸ lo cual no deja de ser una circunstancia anómala. Esta simulación se realizó con el propósito de determinar cuál es la proporción de casos esperable en los que la función de información del modelo logístico de dos parámetros tome valores superiores a los del modelo de respuesta graduada en los niveles altos del rasgo latente θ cuando se utilizan las respuestas de los mismos sujetos. Hipótesis. La hipótesis de este estudio de simulación es que la proporción de casos en la que la información proporcionada por el modelo de dos parámetros para los niveles altos de θ sea mayor que la información proporcionada por el modelo de respuesta graduada debería de ser tendente a cero. Al ser modelo de respuesta graduada una generalización del modelo logístico de dos parámetros y al coincidir la última categoría politómica con el acierto del ítem en la codificación dicotómica, no deberían - 25 -

de darse grandes diferencias en la información para los niveles altos de θ si el parámetro de discriminación aj verdadero es el mismo. Variables independientes. Para contrastar esta hipótesis se tuvieron presentes dos variables independientes: (a) el modelo psicométrico con el que se estiman las respuestas de los sujetos simulados (el logístico de dos parámetros o el de respuesta graduada) y (b) los parámetros verdaderos con los que se generan las respuestas (parámetros aleatorios o los parámetros estimados en el estudio empírico), dando como resultado un total de cuatro condiciones (2 modelos × 2 tipos de parámetros verdaderos). Los parámetros aleatorios aj verdaderos se generaron a partir de una distribución lognormal con μ = 0 y σ = 0.5, utilizando los mismos valores para las parejas de clones isomorfas. Por su parte, los parámetros aleatorios bjk se generaron a partir de una distribución normal con μ = -1 y σ = 1 para la categoría inferior (k = 1), y al valor de cada parámetro se le sumó un incremento aleatorio de entre 0.25 y 0.75 para los parámetros bjk siguientes. De este modo, cada parámetro bjk es mayor que el anterior (bjk-1). Variable dependiente. Como variable dependiente se utilizó la proporción del número de casos en el que el sumatorio de la información del modelo de dos parámetros es mayor que el sumatorio de la información del modelo de respuesta graduada para el intervalo de theta comprendido entre θ = 1 y θ = 2. La idea es contrastar si la proporción de casos en los que se da esta sobreestimación de los parámetros aj con los parámetros estimados del banco operativo de ítems es la misma que cuando se utilizan valores aleatorios para esos mismos parámetros. Procedimiento. Para la condición de parámetros verdaderos aleatorios se generaron 50 conjuntos parámetros diferentes para el modelo de respuesta graduada. Se tuvieron en cuanta las restricciones del modelo de respuesta graduada seleccionando, por lo que se forzaron a distintas parejas de clones a tener los mismos parámetros. Con cada uno de estos conjuntos de parámetros se generaron 100 matrices de respuesta una politómicas y otras 100 dicotómicas. A continuación se estimaron los parámetros de los ítems de cada modelo para cada una de las 100 matrices de cada modelo y se comparó la cantidad de veces que el modelo de dos parámetros proporciona más información para los niveles altos de θ que el modelo de respuesta graduada.

- 26 -

Asimismo, para la condición que toma como parámetros verdaderos los parámetros estimados empíricamente por el modelo de respuesta graduada, se generaron otras 100 matrices de respuestas politómicas y 100 matrices más de respuestas dicotómica. Se estiman después los parámetros de los ítems de cada una de las matrices generadas y se comparó la cantidad de veces que se cumple la hipótesis. Las matrices de respuestas politómicas se generaron para 723 sujetos simulados utilizando los parámetros verdaderos pertinentes para cada condición. Para que las condiciones de la simulación se adecuasen al máximo posible a las condiciones en las que se recogieron los datos de los ítems, las respuestas de cada sujeto simulado se obtuvieron de acuerdo al diseño de anclaje con el que se administraron las distintas formas del test (es decir, cada fila de la matriz tiene respuesta para sólo 18 columnas). Por su parte, las matrices de respuesta dicotómicas se obtuvieron recodificando las matrices de respuesta politómicas (la categoría más alta del modelo de respuesta graduada correspondería al 1, y todas las demás al 0).

Análisis de Datos Tanto en la parte empírica como en la parte de simulación de este estudio, cuando se ha estimado un modelo de la TRI se ha hecho en todos los casos a través del algoritmo EM (Bock y Aiken, 1981). Para comparar los distintos modelos anidados se utilizó la razón de verosimilitudes (para una explicación detallada del procedimiento, véase Revuelta y Ponsoda, 2005). Este análisis sirve para contrastar la hipótesis nula de que no hay diferencias en el ajuste de dos modelos. La simulación se llevó a cabo utilizando el programa R statistics (R Core Team, 2014), mientras que para realizar la distintas calibraciones de los ítems se empleó el paquete mirt (Charlmers, 2012).

Resultados Comparación de modelos Al compararse las versiones anidadas del modelo logístico de dos parámetros con el modelo con el modelo sin restricciones (tabla 6) a través del test de la razón de verosimilitudes, se observa que no hay diferencias significativas en el ajuste entre ambos modelos (G2 (9) = 9.014, p = .436), por lo que siguiendo el principio de

- 27 -

parsimonia, se decidió conservar el modelo con los parámetros de discriminación de los clones fijados al mismo valor (modelo 3). Tabla 6. Comparación de modelos Modelo

Parámetros

1 2 3 4

104 85 94 94

5 6 7 8

258 205 248 214

log. lik.

G2 (con mod.1)

gl

Modelo Logístico de 2 Parámetros -6620.26 -6634.72 28.931 18 -6624.76 9.014 9 -6628.75 17.072 9 Modelo de Respuesta Graduada -13571.55 -13643.13 143.156 42 -13574.8 6.509 9 -13638.71 134.312 33

p

AIC

BIC

13456.51 0.049 13449.44 0.436 13447.53 0.048 13445.58

13951.67 13862.07 13901.42 13909.48

27659.1