Por razones obvias, una de las primeras y más importantes preocupaciones para la aplicación de las pruebas estandarizadas es que no son consistentes con las normas para pruebas justas y apropiadas. Por supuesto, los educadores deben primero definir los estándares mismos, y demostrarlos ser relevantes. En este caso, nos referimos a los estándares para pruebas justas y apropiadas definidas por el Informe del NRC, que dice que la validez de la medición se refiere a la medida en que la evidencia apoya una interpretación propuesta y el uso de las calificaciones de los exámenes para un propósito particular.
Por ejemplo, una validez de medida de la sección de lectura de la prueba estándar SAT I se evaluaría para tener una validez razonable para la evaluación de las habilidades de comprensión lectora de un individuo, el conocimiento de reglas gramaticales y la capacidad de hacer inferencias a partir de textos. El uso de las puntuaciones de esta prueba para determinar la preparación de un individuo para entrar en un programa particular de la universidad también sería razonablemente bueno. El componente de las pruebas apropiadas suele coincidir con este segundo tema de validez, también, que las Normas del Informe de la NRC también esbozan, y que está respaldado por las conclusiones de varias otras organizaciones.
Para volver a los parámetros más formales, la regla general es que la estructura interna de la prueba, el contenido de la prueba, la relación de la prueba con otros criterios, y los procesos psicológicos y las operaciones cognitivas utilizadas por el examinado para responder a los ítems de prueba deben apoyar el propósito de la prueba.
Una prueba que evalúa el conocimiento y la habilidad debe apuntar específicamente al conocimiento y las habilidades; buscando, además, asegurar que los conocimientos y habilidades que se están evaluando son aquellos que se han obtenido de la instrucción apropiada. En algunos casos, el conocimiento puede depender de una mala instrucción o de factores que no están relacionados con las habilidades bajo revisión. Por ejemplo, un estudiante podría anotar mal en la prueba de lectura SAT porque sus maestros no transfirieron el conocimiento y habilidad necesarios (los estudiantes pueden no haber recibido el conocimiento específico de gramática apropiada, por ejemplo, o han recibido instrucción inadecuada sobre cómo para leer críticamente).
Otro ejemplo sería que un individuo podría puntuar mal en la prueba de lectura SAT, no porque carezcan de habilidades de comprensión de lectura que la prueba tiene la intención de evaluar, sino porque tienen barreras lingüísticas significativas o porque hay diferencias culturales que tienen alguna influencia en la prueba. Por ejemplo, un pasaje de la historia americana que se está leyendo para comprensión, pero que de alguna manera depende del conocimiento presupuestado de la historia o las costumbres americanas podría ser problemático y socavar la validez y la imparcialidad de las puntuaciones de los exámenes, socavando la atribución de la causa.
Las discapacidades también pueden factorizar como un problema para la atribución de la causa. Varios tipos de discapacidades cognitivas o incluso físicas pueden socavar el desempeño de un individuo en un escenario de prueba sin las intervenciones apropiadas proporcionadas para apoyar las excepciones del estudiante.
En el contexto de las evaluaciones K-12, el componente de la causa también influye en la medida en que los estudiantes reciben la oportunidad adecuada de aprender el material para la prueba. La calidad y la cantidad adecuadas de instrucción son importantes, al igual que la alineación del contenido de la prueba y el currículo.
Los estudiantes necesitan oportunidades adecuadas dentro de los escenarios de las pruebas para demostrar sus conocimientos. Si las pruebas contienen lenguaje o contenido irrelevante, por ejemplo, los estudiantes pueden no tener la oportunidad adecuada de realizar y los desarrolladores de pruebas habrán comprometido la imparcialidad y la pertinencia de la prueba.
Además, muchos de los criterios de imparcialidad en las normas de prueba coinciden con la atribución de causa. En los estándares, los elementos que se solapan incluyen la investigación del sesgo y el funcionamiento diferencial de los ítems, determinando si la varianza irrelevante para la construcción afecta diferencialmente a diferentes grupos de examinandos y el tratamiento igual durante el proceso de prueba.
La validez circular se encuentra dentro del componente de la causa en el sentido de que se relaciona con la alineación entre el contenido de la prueba y el plan de estudios enseñado en clase. El Capítulo 13 de las Normas determina que "Debería haber evidencia de que la prueba cubre adecuadamente sólo el contenido específico y generalizado y las habilidades que los estudiantes han tenido la oportunidad de aprender".
Esto va más allá de los criterios aquí esbozados y se aplica a una interpretación más amplia de la oportunidad de aprender; una que no está restringida a la validez curricular, sino también incluye la consideración de la calidad de la instrucción como un predictor de los resultados de las pruebas de los estudiantes.
Ciertas políticas dentro de la configuración de K-12 hacen que las decisiones de estudiantes de alto riesgo dependan de la evidencia de que el estudiante tiene la experiencia educativa y la oportunidad de adquirir conocimientos y destrezas relevantes. Cuando los estudiantes no han tenido la oportunidad suficiente para adquirir las habilidades deseadas en un contexto educativo, pueden no cumplir con los criterios para la promoción de grado o la graduación.
Al mismo tiempo, sin embargo, no es justo que el estudiante se haga responsable del déficit en su aprendizaje. ¿En qué momento decimos: esta porción de la educación es responsabilidad de las escuelas, del sistema y de las partes interesadas, no sólo del estudiante individual?
La eficacia del tratamiento es el componente final de los criterios de prueba justos y apropiados, en relación a si los resultados de las pruebas conducen a consecuencias que son educativamente beneficiosas en un contexto dado. Las consecuencias podrían incluir la colocación en una agrupación académica particular basada en la habilidad o el avance de un nivel de aprendizaje a un nivel más alto basado en el logro de la prueba. La responsabilidad también juega un papel importante, ya que los criterios para un tratamiento efectivo determinan que es inapropiado utilizar pruebas para realizar prácticas que no son educativamente beneficiosas.
Cuando las pruebas se usan en las decisiones de colocación, deben ser justas y apropiadas. Los estudiantes deben estar "mejor en el entorno en el que se colocan de lo que estarían en un entorno disponible diferente". Con todos estos factores en mente, sin embargo, ¿se puede confiar realmente en la prueba como una opción de colocación para los estudiantes