Los procedimientos más usuales que se emplean para medir se basan en un modelo (Modelo de la Puntuación Verdadera) incluido en la Teoría Clásica de los Test (TCT), desarrollada en la primera mitad del siglo XX. Se trata de un modelo muy simple cuyo objetivo es cuantificar la fiabilidad de las medidas. Veamos un poco más de los modelos de medición invariante y sus aportaciones prácticas.
¿Qué pretende ese modelo?
Postula que la medida observada es la suma de dos valores inobservables: el error de medida y el valor verdadero. El grado de precisión de las medidas se estima en cada grupo de personas mediante el coeficiente de fiabilidad que expresa la proporción de la varianza de las puntuaciones observadas asociada a la varianza de las puntuaciones verdaderas.
El coeficiente de consistencia interna (alfa de Cronbach) es el estimador más popular del coeficiente de fiabilidad. Se considera que 0.70 es su valor mínimamente aceptable (el 70% de la varianza observada es varianza verdadera; el 30% está asociado a la varianza de error).
Modelos de medición: La TCT
La TCT propone unos principios muy sencillos para obtener e interpretar la medida (un valor numérico que trata de representar el nivel cuantitativo de una persona en un constructo psicológico). La medida se obtiene sumando los valores asignados a las respuestas a los ítems que conforman la prueba.
Por ejemplo, en los test de aptitudes o rendimientos en los que se asigna el valor de “1” o “0” a la respuesta correcta o incorrecta a un ítem, una puntuación de 20 indica el número de aciertos de la persona.
Se ha de notar que cada ítem resuelto correctamente añade un punto a la medida, siendo este incremento igual en ítems fáciles y difíciles. Este procedimiento, denominado acumulación de puntos, se utiliza de forma similar en las escalas de tipo Likert (personalidad, actitudes, etc).
Como “0” aciertos no es un valor absoluto (no significa carencia de nivel en el atributo medido), la interpretación de la magnitud de la medida descansa en normas referidas al grupo, tales como los percentiles (porcentaje de personas con valores inferiores a una puntuación en una población de personas).
Validez en los modelos de medición
Además de los tres elementos anteriores (fiabilidad, puntuación y valoración), se ha de considerar la validez, una propiedad multifacética que ha de analizarse con diversos procedimientos.
A destacar, el estudio mediante expertos del contenido del instrumento, el análisis de la dimensionalidad de la prueba mediante el análisis factorial (exploratorio o confirmatorio) y el contraste de la utilidad predictiva o diagnóstica (por ejemplo, la determinación de la sensibilidad y especificidad de los puntos de corte son un tema recurrente en las pruebas de cribado de la demencia y una cuestión muy debatida en los test del COVID-19). Una síntesis de los procedimientos para analizar la fiabilidad y validez de las medidas puede encontrarse aquí.
¿Existen fallos en estos modelos de medición?
Este andamiaje tan simple es sumamente exitoso, dado que ha fundamentado la construcción y el uso de la gran mayoría de los test psicométricos que conocemos. Sin embargo, el entramado tiene algunas fisuras que impiden ciertas aplicaciones de importancia.
El talón de Aquiles de la TCT es su dependencia de la muestra. Por un lado, las medidas de las personas dependen de la muestra de los ítems incluidos en la prueba (número, dificultad, etc).
De hecho, las puntuaciones de una persona en distintos test que miden el mismo atributo pueden diferir notablemente, puesto que las pruebas miden en distintas escalas, y no son comparables. Idealmente, las medidas de un sujeto deberían ser invariantes al instrumento de medida (como las medidas de la longitud de un objeto a la marca del metro).
La importancia de las medidas invariantes
En el logro de la invarianza se fundamentan los test computerizados adaptados al sujeto en los que el software selecciona la dificultad del ítem a presentar en función del acierto o error en la respuesta previa. La consecuencia de este procedimiento es que los sujetos contestan a ítems de distinta dificultad y no es legítimo puntuar con el número de aciertos (10 aciertos no valen los mismo en ítems fáciles que en difíciles): son necesarias medidas invariantes.
Por otro lado, las propiedades métricas de un ítem y de un test (dificultad, fiabilidad) dependen del nivel y la variabilidad de la muestra de personas en las que se analicen. Idealmente, la dificultad del ítem debería ser invariante entre muestras de sujetos (las propiedades del metro no habrían de cambiar en función del objeto del que se mide su longitud).
¿Cómo medimos en psicología?
Otra debilidad de la TCT es el carácter ordinal de sus medidas. Por ejemplo, para medir la longitud puede usarse un metro, en el que la escala numérica representa a una cantidad de segmentos con la misma longitud en todo el continuo (a la diferencia entre 0 y 5 le corresponde un segmento que tiene la misma longitud que la de la diferencia entre 30 y 35).
Sin embargo, no existe una unidad de medida invariante en las escalas de los tests TCT: los ítems no están separados por distancias iguales en el continuo, por lo que a la misma diferencia en aciertos entre dos personas podría no corresponderle la misma diferencia en el atributo medido (Vea el ejemplo 1).
Idealmente, sería necesario medir con propiedades de intervalo para interpretar apropiadamente el cambio producido a lo largo del ciclo vital (maduración, deterioro) o por intervención (instrucción, terapia, entrenamiento cognitivo). Además, las medidas de intervalo son las apropiadas para aplicar los métodos estadísticos paramétricos.
Modelos de medición: El grupo como referencia
Adicionalmente, se ha de resaltar que la valoración de las puntuaciones TCT solo puede hacerse mediante normas referidas a un grupo. El porcentaje de personas situadas por debajo de una puntuación (percentil) se emplea como un indicador del nivel de la persona en el atributo.
Aparte de la consideración de que los percentiles varían sensiblemente entre muestras, parece un criterio con más utilidad diagnóstica establecer las probabilidades de emitir ciertas respuestas para cada puntuación en la prueba. Este tipo de valoración (normas referidas a la variable), que no es aplicable en la TCT, puede emplearse en los modelos de medición invariante.
Modelo de Rasch
El modelo para ítems dicotómicos, propuesto por George Rasch en 1960, es el jalón inicial de estos modelos. Permite, dado un buen ajuste de los datos a sus requisitos, la medición conjunta de las personas y de los ítems en una variable que tiene propiedades de intervalo.
Establece que la diferencia entre una persona y un ítem en la dimensión es igual al logaritmo del cociente entre la probabilidad de que la persona acierte el ítem y la probabilidad de que lo falle. Los requisitos del modelo son cinco:
- Las personas con puntuaciones altas tienen mayor probabilidad de dominar cualquier ítem que las de puntuaciones
- Cualquier persona tendrá mayor probabilidad de resolver correctamente un ítem fácil que un ítem difícil.
- Las diferencias en la escala entre las personas no dependen de los ítems.
- Las diferencias de dificultad entre los ítems son invariantes a la muestra de personas. Los requisitos 3 y 4 son corolarios de la propiedad denominada objetividad específica.
- Unidimensionalidad: los ítems y las personas pueden medirse conjuntamente en una dimensión representable en el denominado mapa de la variable.
¿Cómo lo corroboramos empíricamente?
Se puede corroborar empíricamente si unos datos se ajustan a los requisitos mediante unos estadísticos (denominados Infit y Outfit) que promedian las diferencias entre las respuestas observadas y las predichas por el modelo. Si los datos se ajustan de manera aceptable, la medición es invariante y la escala es de intervalo (a diferencias iguales en el continuo entre una persona y un ítem le corresponde la misma probabilidad de que la persona domine el ítem).
Con lo anterior, es posible construir normas referidas a la variable.Por ejemplo, calcular la probabilidad que tienen de usar el transporte público sin ayuda las personas con discapacidad visual con distintas puntuaciones logit en la escala de independencia funcional.
Además de proporcionar estadísticos de fiabilidad para el grupo de personas y el grupo de ítems con una interpretación similar al del coeficiente de fiabilidad TCT, el modelo de Rasch permite estimar, mediante sus errores típicos correspondientes, el grado de precisión de la puntuación de cada persona y de cada ítem.
Fiabilidad de un instrumento
De esa forma es posible observar en qué rangos de la variable es el instrumento más fiable. Una descripción breve de las características y la aplicación del modelo dicotómico puede consultarse aquí.
Además de las respuestas dicotómicas (sí/no; acierto/error; acuerdo/desacuerdo) es muy frecuente el uso de test psicológicos y neuropsicológicos que demandan respuestas politómicas. Es muy popular el formato de respuesta que incluye categorías ordenadas por grado de acuerdo (muy de acuerdo,…, muy en desacuerdo) o de frecuencia (siempre,…, nunca). Se utilizan modelos para este tipo de respuestas derivados del modelo dicotómico de Rasch.
Modelo de Escalas de Calificación
Andrich en 1968 propuso el Modelo de Escalas de Calificación (Rating Scale Model, RSM) que se emplea cuando todos los ítems se contestan con las mismas categorías (formato tipo Likert). Una utilidad relevante de RSM es la determinación empírica del funcionamiento de las categorías de respuesta.
Entre otros criterios, se considera que una categoría de respuesta no es adecuada si no presenta la mayor probabilidad de elección en algún rango de la variable. En ese caso, se aconseja agregar la categoría con alguna adyacente. Una aplicación del RSM en la evaluación de la sobrecarga subjetiva de los cuidadores de ancianos puede encontrarse aquí.
Modelo de Crédito Parcial
Si las categorías de respuesta difieren en número en distintos subconjuntos de ítems, se ha de emplear el Modelo de Crédito Parcial (The Partial Credit Model, PCM, en inglés) que propuso Masters en 1982. Es el caso de algunos test de rastreo de la demencia integrados por testlets. Cada testlet está compuesto por un número variable de ítems dicotómicos referidos al mismo contenido (orientación temporal, orientación espacial, lenguaje, etc).
La puntuación en cada testlet es la suma de las respuestas correctas a los ítems. Un ejemplo de la aplicación del PCM a la Evaluación Cognitiva Montreal (Montreal Cognitive Assessment, MoCA, en inglés) puede verse aquí.
Modelo de Facetas Múltiples
Aludiré finalmente al Modelo de Facetas Múltiples (Many-facet Rasch Measurement, MFRM, en inglés) propuesto por Linacre (1989) que es de interés en aquellas mediciones que son asignadas por un calificador.
La puntuación de una persona es el resultado de tres facetas: el nivel del sujeto, la dificultad de los ítems y la severidad del calificador. MFRM mide a los tres elementos en cada atributo, estima el consenso de los calificadores y la fiabilidad de las mediciones. Un ejemplo puede consultarse aquí.
Conclusión
Los tres modelos de medición que antes he mencionado (RSM, MCP y MFRM) tienen las mismas propiedades que el modelo dicotómico de Rasch, por lo que se agrupan en la categoría de modelos de medición invariante.
Excelente aporte. Muchas gracias.