Avelinacopy.jpg
En 1999 La Asociación Americana de Investigación Educativa (AERA), la Asociación Psicológica Americana (APA), y el Consejo Nacional de Medición en Educación (NCME) publicaron los “Estándares para la Evaluación Educativa y Psicológica” (Linn, 2006). Estos estándares proponen una serie de normativas que pretenden que la medición y evaluación de lo educativo y lo psicológico sea objetiva, confiable y válida. Para realizar esto necesario primeramente sustentar el uso e interpretación de las pruebas en evidencia empírica como menciona el Estándar 1.1 “Se debe de presentar una razón fundamentada para cada interpretación y uso de los resultados de las pruebas, junto con un resumen exhaustivo de la evidencia y la teoría que apoye el uso y las interpretaciones pretendidas” (AERA, APA, y NCME, 1999; en Linn, 2006). Varios autores han tratado de conciliar estos estándares para su utilización en la evaluación del aprendizaje y en general en el campo educativo para proveer a los profesionales de una guía que les permita llevar a cabo un trabajo más sistematizado y eficiente.

Delimitar el constructo o dominio que se desea medir
Todos los autores coinciden en la importancia de delimitar el constructo o dominio que se desea medir, que debe ser lo suficientemente específico para no confundirlo con otros conceptos afines, tratando de operacionalizar el constructo para que pueda ser susceptible a ser medida (Linn, 2006; Downing, 2006; Muñiz y Fonseca-Pedrero, 2008).

Especificaciones de la prueba
Posterior a esto, es indispensable desarrollar las especificaciones de la prueba (Linn, 2006; Downing, 2006; Muñiz y Fonseca-Pedrero, 2008). Estos aspectos están relacionados con delimitar el contenido que manejará la prueba y los procesos cognitivos a evaluar (Linn, 2006; Downing, 2006), hasta aspectos como el requerimiento de la administración, el formato, tipo, número, longitud de los ítems y la estructura del material (Muñiz y Fonseca-Pedrero, 2008; Downing, 2006). Posterior a este paso, Linn (2006) agrega un paso más, que consiste en la validación de estas especificaciones, a partir de una revisión de la evidencia empírica que sustente el uso de estas especificaciones.

Desarrollo de reactivo
Para este paso se elige previamente el formato de los ítems y se siguen las directrices ideales para la elaboración de reactivos según el tipo que se haya elegido (Linn, 2006; Downing, 2006; Muñiz y Fonseca-Pedrero, 2008). Para conocer las recomendaciones de la elaboración de reactivos de opción múltiple recomendamos leer al artículo de Haladyna, Downing y Rodríguez publicado en 2002, y el publicado en 2007 por Hogan y Murphy si se trata de preguntas abiertas. Muñiz y Fonseca-Pedrero (2008) mencionan que los ítems deben ser revisados exhaustivamente para ser corregidos y depurados.

Pilotaje del instrumento y depuración
Linn (2006), Muñiz y Fonseca-Pedrero (2008) proponen que el instrumento sea pilotado para conocer el comportamiento de éste en un escenario real, para que de esta forma se conozcan la propiedades de los reactivos y puedan ser modificados y mejorados en caso de ser necesario.

Estimación de sus propiedades psicométricas
Posteriormente, se analizan las propiedades psicométricas del instrumentos, que pueden ir desde su validez y confiabilidad hasta la escala que será utilizada para homologar los resultados (Linn, 2006; Downing, 2006; Muñiz y Fonseca-Pedrero, 2008). Para este punto es importante seguir una metodología científica que permita obtener estos datos, puesto que es importante conocer con exactitud la validez y confiabilidad de los datos a utilizar (Linn, 2006).

Reportes de resultados y materiales de interpretación
Para finalizar, la última tarea consiste en proporcionar el marco interpretativo que sirva para analizar los resultados obtenidos por participantes y futuros evaluados (Linn, 2006; Downing, 2006; Muñiz y Fonseca-Pedrero, 2008) el cual de forma ideal debería ser presentado en forma de un manual de utilización (Muñiz y Fonseca-Pedrero, 2008).


Referencias
Downing, S. M. (2006). Twelve Steps for Effective Test Development (pp. 3-26). En S. M. Downing y T. M. Haladyna. (Eds.). Handbook of Test Development. Londres: Lawrence Erlbaum Associates, Publishers.Haladyna, T. M., Downing, S. M. y Rodríguez, M. C. (2002). A review of multiple-choice ítem-writing guidelines for classroom assessment. Applied measurement in education, 15(3), 309-334.Hogan, T. P. y Murphy, G. (2007). Recomendations for preparing and scoring constructed-response items: What the experts say. Applied measurement in education, 20(4), 427-441.Linn, R. (2006). The Standards for Educational and Psychological Testing: Guidance in Test Development. (pp. 27-38). En S. M. Downing y T. M. Haladyna. (Eds.). Handbook of Test Development. Londres: Lawrence Erlbaum Associates, Publishers.Muñiz, J. y Fonseca-Pedrero, E. (2008). Construcción de instrumentos de medida para la evaluación universitaria. Revista de investigación en educación, 5, 13-25.