En la creación de un instrumento de medición, es importante tomar en cuenta 2 componentes importantes que son la validez y la confiabilidad; Por ende, la obtención de confiabilidad es un requisito, más aun si se quiere considerar válido dicho instrumento. Es por ello que todo instrumento válido es confiable, no obstante el obtener la confiabilidad no hace válido un instrumento. Para ejemplicar mejor lo anterior, es útil la siguiente analogía con un blanco de tiro, como se muestra en la Figura 1
007.jpg
Figura 1.
Según Hernández, Fernández y Baptista (2006), la confiabilidad de un instrumento de medición se refiere al grado en que su aplicación repetida al mismo sujeto u objeto produce resultados iguales (consistentes y coherentes).El significado de la confiabilidad, tal como se aplica a las pruebas y a la evaluación puede clarificarse todavía más si se destacan los siguientes puntos generales:

  1. El significado de la confiabilidad se refiere a los resultados obtenidos con un instrumento de evaluación y o al instrumento mismo. Cualquier instrumento en particular puede tener cierto número de confiabilidades diferentes, según sea el grupo involucrado y la situación en que se use. Así pues, es más apropiado hablar de la confiabilidad de “los resultados de la prueba" o de “la medición”, que de “la prueba” o “el instrumento”.
  2. Un punto íntimamente relacionado con lo anterior es que una estimación de la confiabilidad siempre se refiere a un tipo particular de consistencia. Los resultados de las pruebas no son, en general, dignos de que uno se fie de ellos. Son de fiar (o susceptibles de generalizarse) en tiempos diferentes, dados diferentes conjuntos de preguntas, con encargos de calificar diferentes, etc. Es posible que los resultados de las pruebas sean consistentes con respecto a uno cualquiera de los anteriores elementos y que no tenga consistencia alguna con respecto a otro. El tipo apropiado de consistencia en un caso particular lo dicta el uso que va a hacerse con los resultados.
  3. La confiabilidad es condición necesaria pero no suficiente de la validez. Cualquier prueba que arroje resultados totalmente inconsistentes no puede en forma alguna posible suministrar información veraz sobre el comportamiento que se mide. Por otro lado, hay resultados de prueba sumamente consistentes que pueden estar midiendo algo equivocado que se pueden usar de maneras que no son apropiadas.
  4. A diferencia de la validez, la confiabilidad es estrictamente un concepto estadístico. El análisis lógico de una prueba suministrara poca evidencia por lo que hace a la confiabilidad de las calificaciones. La prueba debe administrarse, una o más veces, a un grupo apropiado de personas y debe determinarse también la consistencia de los resultados. Dicha consistencia bien puede expresarse en términos de cambio en las posiciones relativas de las personas dentro del grupo o en términos del grado de variación que cabe esperar en la calificación de un individuo especifico. Se informa de la consistencia del primer tipo por medio de un coeficiente de correlación llamado coeficiente de confiabilidad. Se informa de la consistencia del segundo tipo mediante el error normal de la medición. Ambos métodos de expresar la confiablidad son de uso generalizado y por ello deben comprenderlos las personas responsables de la interpretación de los resultados de las pruebas.

Para cualquier instrumento de medida (sea psicológico, físico o para medir el aprendizaje) es necesario conocer cuál es la precisión con la que se mide, es decir, que tantos errores tiene la medición. Mientras menos errores tengan más confiable es, lo que propiciaría que cada vez que midamos algo sus valores cambiarían muy poco. Díaz, Batanero y Cobo (2003) mencionan que el instrumento de medida “se considera fiable si las medidas que se obtienen a partir de él no contienen errores o los errores son suficientemente pequeños” (p. 7).
Así, de forma teórica Muñiz (1994; en Díaz, Baterano y Cobo, 2003), se puede considerar que la fórmula de la confiabilidad es la siguiente: la puntuación X obtenida por un sujeto es igual a su puntuación verdadera (V) más el error de la medida (e): X = V+e.


Factores que Afectan la Confiabilidad
Algunos factores que pueden afectar la confiabilidad de un test:
Factores (Díaz, Baterano y Cobo, 2003)
Categorías (Muñiz, 1998)
Concernientes al sujeto
La variabilidad del grupo. Mientras más variable sea el grupo más confiabilidad se obtendrá.
Concernientes al instrumento
  1. Número de ítems en la prueba. Cuanto mayor sea el número de ítems en una prueba mayor será la confiabilidad de las puntuaciones.
  2. Dificultad de los reactivos. Si un reactivo es fácil, la mayoría de los alumnos o sujetos responderá acertadamente, reduciendo la variabilidad en las puntuaciones.
Concernientes a la aplicación, corrección a interpretación
La confianza en la que dos personas califican una prueba. Es necesario un consenso claro y preciso para la calificación de una prueba cuando son más de una persona las que lo califican.

Estimación de la confiabilidad: coeficientes de confiabilidad
El coeficiente de confiabilidad es una medida para estimar la confiabilidad teórica de las puntuaciones obtenidas. Se entiende como la correlación entre X y X’ obtenidas por el participante cuando se le proporcionan dos veces la misma medida. Éste modelo para calcular la confiabilidad de un instrumento trata de determinar cómo los errores aleatorios (en la medida) afectan las puntuaciones obtenidas por el sujeto. Para calcular el coeficiente de confiabilidad usualmente se utilizan las siguientes estrategias:
Modelo
Descripción
Desventajas
Test-Retest
Consiste en la aplicación del mismo test al sujeto después de un intervalo de tiempo. Finalmente se correlacionan las dos puntuaciones obtenidas en las dos aplicaciones para conocer el coeficiente de confiabilidad.Cuando se correlacionan las dos puntuaciones y se obtiene el coeficiente adecuado significa que existe estabilidad temporal de las puntuaciones obtenidas (Mateo, 2008)
Es necesario considerar el intervalo de tiempo que se deja pasar antes de que el sujeto conteste la prueba nuevamente: lo suficiente para que no recuerde lo aplicado pero no muy extenso para que no se den cambios por maduración o aprendizaje.
Formas Paralelas
Se necesitan construir formar paralelas de instrumento (p. ej. Forma A y Forma B) que necesariamente tienen que ser equivalentes, las cuales se le aplican al sujeto. Posteriormente se correlacionan las puntuaciones obtenidas en ambas formas para obtener el coeficiente de equivalencia.Cuando se correlacionan las dos puntuaciones y se obtiene el coeficiente adecuado significa que existe equivalencia de las puntuaciones obtenidas. (Mateo, 2008)

Hay que cuidar especialmente la elaboración de ambas formas para que se obtengan versiones que sean equivalentes en contenido y en lo que se desea medir.
Dos mitades
Un mismo test se divide en dos mitades equivalentes (se aconseja que se realice de forma aleatoria) para aplicárselo al sujeto. Posteriormente de correlacionan las puntaciones obtenidas en cada mitades.Cuando se obtiene la correlación adecuada significa que el test es consistente en su extensión. (Mateo, 2008)
Es necesario que ambas mitades sean equivalentes, y elaborar reactivos que sean independientes los unos de otros para evitar sesgos en la división por mitades.



Covarianza entre los reactivos de una Prueba (Consistencia Interna)
Este cálculo de la confiabilidad consiste en comparar la puntuación obtenida en todo el test con las puntuaciones individuales de cada reactivo. Una de la grandes ventajas de este método es que solo se necesita de una adminitración de la prueba para poder calcularlo.Usualmente se utilizan dos métodos para su cálculo: el Alfa de Cronbach (para reactivos continuos) y la Kuder-Richardson (para pruebas con reactivos dicotómicos).

Alfa de Cronbach
El coeficiente Alfa fue propuesto por Lee J. Cronbach en 1951. Es un índice usado para medir la confiabilidad de tipo consistencia interna de una escala.
Este término hace referencia al promedio de las correlaciones entre los reactivos que forman parte de un instrumento de medición o, también, se puede concebir como la medida en la cual algun constructo está presente en cada reactivo.

Kuder-Richardson, Coeficiente KR-20
Kuder y Richardson, en 1937, desarrollaron un coeficiente para estimar la confiabilidad de una medición, cuya interpretación, es la misma que la anterior.

Los nombres distintos de ambos coeficientes se deben a que los autores difieren en sus modelos teóricos, aunque estén relacionados, y los desarrollaron en tiempos distintos.

Sobre el alfa de Cronbach y sus alcances
Desde la publicación en 1951 de Lee Cronbach acerca de su coeficiente de confiabilidad, el alfa de Cronbach ha sido usada (y abusada) hasta nuestros días. Web of Science menciona que el artículo original tiene al menos unas 6,500 citas en otros trabajos científicos, lo cual es mucho mayor a las citas de otras fórmulas bajo los mismos principios como la de Kuder-Richardson con poco más 400 citas, o la de Guttman con poco más de 200 (Sijtsma, 2009).

Si bien no se trata de una medida “maravillosa” que puede utilizarse en todo momento y con todo instrumento, su correcta y clara utilización permite obtener buenos resultados para conocer la consistencia interna de una prueba. El mismo Cronbach (2004) reflexiona sobre el uso que se le ha dado a su fórmula durante tanto tiempo mencionando que: no fue una prueba “nueva”, sino que solo resumía lo que otros autores habían conseguido lograr a lo largo de todos los años (menciona incluso que realmente su fórmula se basa en una extensión y generabilización de la fórmula de Kuder-Richardson), y que incluso se avergüenza de que sea conocida como el Alfa “de Cronbach” y del mismo nombre “Alfa” que utiliza para nombrarlo (pues solo hacía alusión al inicio de lo que él considerada un intento para calcular las propiedades de una prueba). Para esta clara utilización es necesario conocer los alcances y limitaciones que tiene la fórmula propuesta por Cronbach.

Sijtsma (2009) menciona que en su artículo original, Cronbach utiliza la consistencia interna como un sinónimo de homogeneidad, sin embargo no es necesariamente así. Incluso Schmitt (1996) menciona que el Alfa de Cronbach no necesita que una prueba sea unidimensional necesariamente para ser utilizada. Sin embargo, para utilizar el Alfa con medidas multidimensionales es necesario comparar las medidas de una misma dimensión con la dimensión misma en lugar de con toda la prueba. Por tanto, Sijtsma y Schmitt concluyen el Alfa de Cronbach no es una medida de consistencia interna como sea utilizado en muchas ocasiones.

Referencias
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297-334. Recuperado el 12 de Febrero de 2012 en: http://psych.colorado.edu/~carey/Courses/PSYC5112/Readings/alpha_Cronbach.pdf
Cronbach, L. J. (2004). My currents thoughts on coefficient alpha and succesor procedures. California: University of California.
Díaz, C., Batanero, C. y Cobo, B. (2003). Fiabilidad y generalizabilidad: aplicaciones en la evaluación educativa. Número, 54, 3-21.
Gronlund, N. (1983) Medición y evaluación en enseñanza. México: Pax. 3° edición Pp. 115-117.‍‍‍
Hernández, R., Fernández, C., Baptista, P. (2006). Metodología de la investigación. México: McGraw Hill. 4° edición. Pp. 277.
Mateo, J., Martínez, F. (2008). Medición y Evaluación Educativa. España: Editorial La Muralla S.A. Pp. 75
Morales, P. (2007). Estadística aplicada a las ciencias sociales: La fiabilidad de los tests y las escalas. 11. Recuperado el 18 de Mayo de 2012 en:
http://www.upcomillas.es/personal/peter/estadisticabasica/Fiabilidad.pdf
Muñiz, J. (1998). La medición de lo psicológico. Psicothema, 10(1), 1-21.
Schmitt, N. (1996). Uses and abuses of coefficient alpha. Psychological Assessment, 8(4), 350-353.
Sijtsma, K. (2009). On the use, the misuse, and the very limited usefulness of Cronbach's alpha. Psychometrika, 74(1), 107-120.
Sijtsma, K. (2009). Reliability beyond theory and into practice. Psychometrika, 74(1), 169-173.