La propuesta de Spearman para estimar los errores cometidos al medir es un claro ejemplo de cómo a partir de un sencillo modelo y de unas asunciones básicas es posible deducir las fórmulas más complejas para la estimación de los errores de medida.

Spearman considera que la puntuación empírica de un sujeto en una prueba, puntuación que llamaremos X, consta de dos componentes, la puntuación que verdaderamente le corresponde en esa prueba, que llamaremos V, y un cierto error e. Es decir, formalmente el modelo se podría expresar así:

X=V+e




Donde X es la puntuación empírica obtenida, V la puntuación verdadera y e el error de medida.

La puntuación verdadera se define como la puntuación promedio que una persona obtendría al aplicarsele múltiples mediante tests paralelos. Se puede considerar como una puntuación libre de error.
El error de medida es la diferencia entre la puntuación observada a través de un teste y la puntuación verdadera.(Spearman, 1904 en Mateo, 2008).

Para poder derivar las fórmulas necesarias para el cálculo de la confiabilidad, Spearman añade al modelo tres supuestos y una definición. Asume que:

  • La verdadera puntuación de una persona en una prueba sería la que obtendría como promedio si se le aplicase infinitas veces la prueba
  • No hay relación entre la verdadera puntuación de las personas y los errores de medida
  • Los errores de medida de los tests no están relacionados

Además, define el concepto de tests paralelos como aquéllos que miden lo mismo aunque utilizando distintos ítems, y los cuales tienen medias, varianzas y covarianzas iguales.

A partir del modelo, va a ser posible llegar a fórmulas operativas para la estimación de los errores (e), y por ende de las puntuaciones verdaderas (V) de los sujetos.

Mediante los desarrollos correspondientes se obtiene la fórmula del Coeficiente de Confiabilidad, que permite estimar la cuantía de los errores cometidos al medir. Su fórmula expresa la cantidad de varianza de verdadera medida que hay en la empírica, o en términos de la Teoría de la Información, la proporción señal-ruido del proceso de medición:

ρxx’= σ2v/σ2x

Lo ideal es que toda la varianza empírica se deba a la verdadera, lo cual ocurriría cuando σ2v= σ2x, en cuyo caso la confiabilidad es perfecta, la prueba mide sin ningún error.

El cálculo empírico del valor del coeficiente de confiabilidad no se puede llevar a cabo mediante la fórmula, que es meramente conceptual; la estimación empírica puede obtenerse utilizando varias estrategias, entre las que destacan:
  • La correlación entre dos formas paralelas del test
  • La correlación entre dos mitades aleatorias del test corregida mediante la fórmula de Spearman-Brown
  • La correlación entre dos aplicaciones del mismo test a una muestra de personas

Cada uno de estos procedimientos tiene sus pros y sus contras y se ajustan mejor a unas situaciones que a otras. En todos los casos el valor obtenido es un valor numérico entre 0 y 1, indicando a medida que se acerca a 1 que el test está midiendo con precisión. Dado que la fórmula es conceptual, no operativa, en literatura abundan las fórmulas clásicas para la obtención del valor empírico del coeficiente de confiabilidad, entre las que cabría destacar las de Rulon, Guttman, Flanagan, KR20 y KR21, o el popular Coeficiente Alfa, que expresa la confiabilidad del test en función de su consistencia interna. Una forma alternativa pero equivalente de expresar la confiabilidad de los tests es mediante el Error Típico de Medida, o confiabilidad absoluta.

Se utilice el índice que se utilice, y en cada caso hay razones técnicas para utilizar uno u otro, lo importante es que toda medición lleva asociado un grado de precisión que es empíricamente calculable.

Tres grandes causantes de error aleatorio en la medición psicológica:

  • La propia persona evaluada, que viene con determinado estado de ánimo, actitudes y temores, lo cual puede influir en la cuantía de los errores.
  • El instrumento de medida utilizado, que con sus características específicas puede influir diferencialmente en los evaluados.
  • La aplicación, corrección e interpretación hecha por los profesionales.

Si todo se hace con rigor se minimizarán los errores en todo el proceso, y es precisamente de lo que nos informa la confiabilidad de la prueba, de los errores cometidos. Una vez conocida la cuantía de estos errores, a partir de la puntuación empírica resulta sencillo estimar a cierto nivel de confianza elegido la puntuación verdadera de las personas en una prueba. Si la confiabilidad de una prueba es perfecta, las puntuaciones empíricas y las verdaderas de las personas en dicha prueba coincidirán, pero si no es perfecta las puntuaciones verdaderas de las personas en el test se estiman mediante un intervalo confidencial en torno a la puntuación empírica. La implicación práctica inmediata de todo ello es que si se toman decisiones importantes basadas en las puntuaciones de las personas en los tests hay que asegurarse de que éstos tienen una confiabilidad elevada.

Ahora bien, el modelo lineal clásico informa de la cuantía de los errores, pero no de la fuente originaria de éstos, que asume ignota y aleatoria. Otros muchos modelos se han ocupado de desglosar el error y ofrecer así no sólo la confiabilidad, sino también el origen de los errores, pero su complejidad técnico-formal y las complicaciones operativas introducidas, en relación con las ventajas ofrecidas, ha hecho que ninguno haya cuajado en la práctica.


Análisis de los ítems a partir del modelo clásico

García-Canto (2005) menciona que de la misma forma en que los instrumentos musicales de una orquesta deben tocar en forma armoniosa para que el conjunto interprete la composición de un autor, los ítems de un instrumento deben estar en armonía para conseguir que se mida lo pretendido con las intenciones de su constructor. Esto se hace a partir del análisis de cada uno de los reactivos del test. Según la teoría clásica de los test, éste análisis conlleva examinar una serie de indicadores por cada ítem a fin de determinar su calidad, y así potenciar las propiedades de la prueba. Estos indicadores son los siguientes:
  1. Dificultad
  2. Discriminación
  3. Análisis de distractores
  4. Fiabilidad
  5. Validez
  6. Dimensionalidad


Dificultad de los ítems
Según García-Cueto (2005) un ítem es difícil o fácil “en función al número de personas que lo acierten o fallen (…) [en relación] al número de personas que intentan responderlo” (p. 54). Para este análisis basta con obtener un indicador que proporcione el índice de dificultad del ítem, el cual se obtiene de la siguiente fórmula:


ID.png

Donde A es el número de personas que aciertan el ítem y N el número de personas que intentaron responderlo.
Otras formulas más complejas contemplan la probabilidad de acertar el ítem al azar. Por ejemplo, si se le pide a un estudiante que mencione el valor de e, las probabilidades de que acierte este ítem son bajas, pero si se le brindan, por ejemplo, dos opciones de respuesta la probabilidad de que acierte aumente hasta el 50%. De esta forma, es evidente de que existen infinidad de fórmulas para analizar la dificultad de un ítem, y que su uso dependerá de los objetivos del evaluador.

Discriminación de los ítems
Conocer cuáles alumnos tiene un mejor aprendizaje que otros es uno de los principales objetivos de las evaluaciones en el ámbito educativo, por consiguiente, el poder de discriminación de un ítem es importante para la calidad de un examen. El análisis de esta propiedad se analiza de la siguiente forma: se divide a los estudiantes con mejores puntuaciones y con las peores puntuaciones, y se espera que un ítem “bueno” sea respondido correctamente en su mayoría por aquellos estudiantes con un buen desempeño, y que aquellos que tuvieron un bajo desempeño fallen en mayor proporción el ítem. Esta formula se conoce como “Índice de discriminación basado en grupo extremos”, donde se toma el cuartil inferior y el cuartil superior como grupos extremos (García-Cueto, 2005). La fórmula para calcular este índice es el siguiente:


D= P+ - P-
Donde P+ es la proporción de acertantes al ítem del grupo superior, y P- es la proporción de acertantes del grupo inferior.
Ambas proporciones se obtienen del número de personas que aciertan el ítem entre el número de personas que forman cada cuartil.

Para ayudar a interpretar las puntuaciones del índice de discriminación, Ebel (1965) propone las siguientes clasificaciones:

Valores
Interpretación
Igual o mayor que 0,40
El ítem discrimina muy bien
Entre 0,30 y 0,39
El ítem discrimina bien
Entre 0,20 y 0,29
El ítem discrimina poco
Entre 0,10 y 0,19
Ítem límite. Se debe mejorar
Menor de 0,10
El ítem carece de utilidad para discriminar.

Análisis de los distractores
García-Cueto (2005) define los distractores como “las distintas alternativas falsas o posibilidades de respuesta incorrectas que tiene un ítem” (p. 70). Idealmente, todas ellas deberían resultar igualmente atractivas de elegir por parte de los sustentantes para que de esta funjan como distractores. Este análisis simplemente se basa en observar la cantidad de sujetos que elije cada alternativa. Una alternativa con pocas elecciones resulta en un distractor que paradójicamente no distrae. Algunas de las formas de analizar este indicador según García-Cueto (2005) es realizar una prueba de X2.


Dimensionalidad
Este indicador simplemente analiza la correlación que tienen los ítems entre sí (con un análisis factorial) para conocer cómo se crean grupos entre ellos, bajo el supuesto de que los ítems que correlacionan unos con otros forman un grupo, y que correlacionan gracias a que miden un dimensión compartida (García-Cueto, 2005). Evidentemente, para este indicador también existen infinidad de formas para analizarlo, pero se mencionó únicamente la más utilizada, la cual es el análisis factorial.


Referencias

Ebel, R. L. (1965). Measurgin educational achievement. Englewood: Prentice-Hall.García-Cueto, E. (2005). Análisis de los ítems: Enfoque clásico (pp. 53-79). En J. Muñiz, A. M. Fidalgo, E. García-Cueto, R. Martínez y R. Moreno. (2005). Análisis de los ítems. España: La Muralla.
Mateo, J. y Martínez, F. (2008). Medición y Evaluación Educativa. España: Editorial La Muralla S.A.
Muñiz, J. (1998). La medición de lo psicológico (en línea). España: Universidad de Oviedo. Recuperado el 21 de mayo de 2012, de ttp:www.psicothema.com/pdf/138.pdf