Evaluación Educativa: abril 2009

Instrumentos de medición educativa (pruebas)

Un instrumento de medición educacional, prueba o test como aparece en la literatura, es un conjunto de preguntas, ítems o reactivos estructurados con orden lógico, los que presentados al alumno en forma oral o escrita, pretenden evidenciar el aprendizaje de éste a través de sus respuestas que pueden ser orales, escritas o de ejecución. Así entonces las pruebas pueden ser, según la forma de respuesta del alumno, oral, escrita y de ejecución.
En la actualidad, y en el contexto de la Reforma Educacional se utilizan con mayor frecuencia las pruebas de ejecución, vale decir, aquellas donde el alumno opera equipos o realiza un procedimiento y el profesor observa la ejecución del alumno para establecer que realmente aprendió. Estas pruebas sirven para medir las capacidades cognitivas tanto como las habilidades motoras y están basadas principalmente en la observación, se usan también para medir actitudes.

Se denominan pruebas "tradicionales" a las que habitualmente se han usado en el centro educativo para medir el rendimiento académico de los alumnos. Todos las hemos sufrido en mayor o menor medida y en más de una ocasión nos han producido compulsión. Estas pruebas son:

La interrogación oral

La prueba de ensayo o desarrollo

La prueba objetiva.

La interrogación oral se denomina así por la forma de respuesta del alumno, lo hace en forma oral apoyándose en todas sus características personales, tales como desplante, habilidad verbal, habilidad histriónica, etc. El docente escucha la respuesta del alumno y asigna puntaje según la calidad de la misma.

La prueba de ensayo o desarrollo como la llaman habitualmente los alumnos, es una prueba escrita que tiene pocas preguntas, y permite al alumno mostrar su capacidad de análisis, de síntesis y el logro de procesos mentales elevados. Cuando está bien estructurada puede tener muchas ventajas que favorecen la retroalimentación del aprendizaje.

La prueba objetiva es una prueba escrita que se denomina así porque su corrección no está influida por la opinión del corrector. Presenta una muy buena calidad métrica si está elaborada de acuerdo a ciertas condiciones y puede ser analizada cuantitativamente. Tiene una gran cantidad de preguntas lo que la hace muy representativa.

También puede catalogarse como tradicional la lista de cotejo y la escala de clasificación o apreciación, aunque se ha sugerido su uso con bastante frecuencia en el contexto de la Reforma Educacional, para medir diversas capacidades en el alumno.

Otra prueba que resulta interesante es la prueba gráfica. Es también una prueba de ejecución que se usa para medir preferentemente el dominio cognitivo. Consiste en un gráfico, un esquema, un dibujo, donde el alumno debe completar los nombres de las partes del esquema o el dibujo, seguir una secuencia, etc. En este caso el dibujo o esquema, debe ser muy claro y definido y las instrucciones que se dan al alumno deben ser muy precisas o específicas. Para asignar puntaje a las respuestas es conveniente que cada detalle de lo que el alumno debe responder valga un punto y ponderar aquellos detalles que tengan mayor importancia.

1. Características métricas de las pruebas.

Para que una prueba sea un buen instrumento de medición, debe tener algunas características métricas, de tal forma que la información que entreguen pueda ser tomada en cuenta como un buen indicio de lo que el alumno ha aprendido.

Las principales características son la validez, la confiabilidad, y la objetividad. Menos considerados, pero también importantes serán el grado de dificultad, de discriminación y la representatividad de la prueba. Una característica externa a la prueba, pero que debe ser considerada en nuestra realidad, ya que se relaciona con el costo, es la practicidad del instrumento.

Se habla de validez cuando se puede asegurar que la prueba mide realmente las competencias para las cuales fue elaborada. Lo que el alumno muestre en la situación de prueba es realmente lo que él ha alcanzado y se tiene la seguridad que en situaciones similares (diferentes a la prueba) mostrará la misma actuación.

La validez de una prueba se refiere al grado de veracidad que se puede dar a los resultados obtenidos. Dicho de otra forma una prueba es válida si sus ítems dan oportunidad a los alumnos de mostrar las competencias que ha alcanzado en el proceso de enseñanza-aprendizaje.

Por ejemplo: si un profesor desarrolla en clases algunos conceptos y reglas para que los alumnos los conozcan y no realiza ningún problema, y luego en la prueba plantea situaciones problemáticas para que los alumnos apliquen los conceptos y las reglas, evidentemente que los resultados obtenidos no tendrán ninguna validez, porque no existió congruencia entre las actividades realizadas en la clase (que llevaban al alumno a la categoría de conocimiento), y las actividades que debía realizar el alumno para responder la prueba (categoría de aplicación)

La validez tiene relación con el atributo que se va a medir, pueden existir muchos instrumentos para medirlo, pero hay uno que lo hará en forma más específica. Ejemplo, los resultados de una prueba de matemática son válidos (por lo tanto la prueba es válida) para mostrar la habilidad de un alumno para realizar cálculos, pero esa prueba no es válida para que los alumnos muestren sus habilidades artísticas. Parece obvio, pero cuando se analizan las pruebas de algunos docentes, da pena por sus alumnos, ya que a pesar de ellos, los alumnos aprenden.

El docente debe responder a las preguntas: ¿qué mide el test?, ¿en qué grado lo mide?. Si es capaz de responder a estas dos preguntas en forma clara, significa que la prueba que elaboró es válida. En consecuencia, mide los objetivos propuestos, las competencias específicas que el alumno debe mostrar. Y, en qué grado?, en el máximo de posibilidades.

La confiabilidad se refiere a la consistencia que tienen los resultados obtenidos en la prueba. Qué tan de fiar son los resultados. Se sabe lo que mide (validez) pero con qué precisión lo mide, hasta dónde es verdadera la información que entrega. Una prueba es confiable si cada vez que se aplica se obtienen resultados similares (siempre que sea al mismo grupo de alumnos y en condiciones parecidas). Seguramente en la segunda aplicación los resultados serán mejores, pero esa es una de las formas de medir la confiabilidad.

La confiabilidad se ve afectada por múltiples factores que se seleccionan con la administración del instrumento: instrucciones deficientes, cansancio de los alumnos, ambiente tenso, ruidoso, posibilidad de "adivinar" las respuestas, cambios emocionales por la actitud del profesor etc. También se ve afectada por la corrección subjetiva.

Confiabilidad es sinónimo de solidez, seguridad, fidelidad, confianza, crédito, estabilidad, coherencia, consistencia, precisión de los resultados, independiente de lo que se mide.
Ejemplo. Al pesar un kilo de harina envasada en una balanza de cocina, la aguja indicará un kilo, se puede repetir cuatro o cinco veces la medición y la balanza siempre marcará un kilo. La balanza es confiable. Lo mismo debería suceder con las pruebas que hace el profesor. Evidentemente esto no es posible porque se trabaja con personas, pero teniendo cuidado al elaborar las pruebas, ellas pueden llegar a ser bastante confiables.

La objetividad es una característica que está referida a la elaboración y a la corrección de una prueba. Una prueba será más objetiva de elaboración si participa más de una persona en su elaboración. Por esto es recomendable hacer las pruebas en equipos de profesores de una especialidad ya que hay más imaginación para elaborar preguntas y para analizar la consistencia de ellas. Esto ayuda también a mejorar la validez de la prueba.

La objetividad de corrección está referida a la asignación de los puntajes a las respuestas de los alumnos. Esto se salvaguarda con la confección de una plantilla o guía de corrección que permita comparar las respuestas de los alumnos con una respuesta pre-establecida, para que no influya la opinión del profesor en la asignación.

En general puede influir en la corrección el "efecto de halo" que es el prejuicio que el profesor tiene hacia determinados alumnos, esto hace que corrija algunas pruebas asignando puntajes generosamente, y en otras miserablemente. Para cada prueba se dan recomendaciones específicas para evitar justamente esta influencia.

El grado de dificultad de la prueba está determinado por la dificultad de las preguntas. Supuestamente una prueba debe tener preguntas fáciles, medianas y adecuadas, desde el punto de vista del profesor. Aunque si el proceso de enseñanza-aprendizaje ha sido desarrollado considerando las diferencias individuales, todas las preguntas deberán tener el mismo grado de dificultad.

Para establecer el grado de dificultad de una prueba se relaciona el número de preguntas de ellas con el promedio aritmético de los puntajes obtenidos por los alumnos. Así si los alumnos estuvieron sometidos a clases expositivas y no fueron atendidas las diferencias individuales, se espera que el 50% del grupo aprenda, es decir, que el promedio del curso sea similar a la mitad del puntaje total de la prueba. La dificultad de la prueba entonces es de un 50%. En cambio si se atendieron las diferencias individuales, se utilizó evaluación formativa, se analizaron los requisitos, etc., la prueba no debería ser difícil para nadie y todos alcanzarían los puntajes altos.

Lo ideal sería que esta característica no fuera siquiera percibida por los alumnos.

El grado de discriminación de la prueba está referido a la propiedad de la prueba de separar a los alumnos que saben (lograron los objetivos) de aquellos que no saben (no lograron los objetivos).

Vale decir, una prueba discrimina si sus ítems son respondidos correctamente sólo por aquellos alumnos que lograron los objetivos que medía la prueba. Lo mismo que en el caso anterior, si no interesa diferenciar a los alumnos, sino lo fundamental es que todos aprendan, la prueba no tendría grado de discriminación porque todos responderían bien. El grado de discriminación se relaciona con la dispersión de los puntajes obtenidos por los alumnos, mientras más distantes están el puntaje máximo y el mínimo obtenido en un grupo, podría decirse que el grado de discriminación será mayor.

La representatividad de una prueba está referida a la relación que existe entre los objetivos (cuyo logro debe ser medido), y las preguntas de la prueba. Lo ideal es que para cada objetivo se elabore un número de preguntas definido de tal forma que se sepa exactamente qué preguntas se utilizarán para medir cada competencia. Ejemplo:

Objetivos ítems.
1 1-2-3-4
2 5-6-7-8
3 9-10-11-12.

Al hacer el análisis de los resultados de la prueba puede establecerse claramente qué objetivos fueron logrados por los alumnos y cuáles no, de acuerdo a las respuestas que ellos dan.

Sin embargo, como el número de preguntas en una prueba es limitado y el número de objetivos es mucho, es necesario hacer un muestreo de objetivos y considerar aquellos que resulten más abarcadores (que incluyen a otros). Para esos objetivos se deben elaborar ítems, de este modo la prueba resultará también más representativa.

La practicidad no es realmente una característica métrica, sino que se relaciona con el costo de la prueba en cuanto a recursos, esto es, si se necesita mucho papel, multicopias, etc., y en cuanto al tiempo que necesita, de elaboración, aplicación y corrección. Así entonces las pruebas de ejecución y las orales son poco prácticas de aplicación, porque se administran por alumno, en forma individual, y el profesor debe esperar que éste responda o ejecute y observarlo. Se usa mucho tiempo al tener un curso numeroso. No obstante, hay objetivos donde no sirve otra prueba y es necesario usarla. La prueba de ensayo es rápida de elaboración y aplicación, pero el profesor demora mucho tiempo en corregirla. Todas las pruebas en general son poco prácticas en algún sentido.

Ejemplo : Un profesor puede tener mucho cuidado al hacer una prueba, toma en cuenta los objetivos, elabora preguntas muy específicas, relaciona objetivos e ítemes y valida las preguntas con un colega. Esa prueba puede carecer de objetividad de construcción porque la elaboró el docente solo y no en conjunto con otros. Las reuniones por asignatura o por departamento pueden ser utilizadas para elaborar pruebas en conjunto.

Etapas de construcción de un instrumento de medición educativa.

Para construir una prueba, cualquiera sea ella, es necesario seguir paso a paso una serie de etapas, en la medida que se cumplan todas ellas, con las precauciones que se señalan, es probable que el instrumento resulte con las características métricas necesarias y entregue información válida y confiable acerca de las competencias logradas por los alumnos. Esto permitirá calificarlos y tomar decisiones pertinentes.

Las etapas a seguir son:

1.- Diseño del instrumento: Hacer un diseño, es hacer una planificación de la prueba, es delimitar el contexto en que se aplicará la prueba, qué es lo que va a medir. Esto significa:

Especificar el tipo de prueba.

Especificar la unidad de aprendizaje cuyo logro se medirá

Establecer el número de alumnos que rendirá la prueba.

Determinar el propósito evaluativo (diagnóstico, formativo y sumativo).

Hacer un listado de los objetivos que serán medidos o describir los aprendizajes esperados.

Fijar el número de preguntas de la prueba o de situaciones a las que se enfrentará al alumno.

Relacionar los objetivos con el número de preguntas de la prueba.

Al especificar cada uno de estos aspectos se están marcando los límites de la prueba. Esto permite que el profesor se dé cuenta de lo que quiere medir y qué es lo que puede medir.
En esta etapa no se elaboran todavía las preguntas, sólo se establece el número de ellas y su relación con los objetivos. Con ello se está ganando la representatividad del instrumento.

2.- Elaboración de la prueba: Elaborar una prueba significa:

Elaborar las preguntas o ítems.

Validar las preguntas

Elaborar la prueba formal.

Elaborar las preguntas o ítems: Los ítems deben dar oportunidad al alumno para que exprese la conducta que aparece en el objetivo. Pueden ser de diferente forma según sea el tipo de prueba. Así una prueba oral o una prueba de ensayo tiene preguntas en forma de orden: nombre las partes de una fresadora; o en forma de interrogante ¿qué alimentos componen el grupo uno? . En una lista de cotejo las preguntas son enunciados en tercera persona singular, señalando acciones a realizar. Ejemplo:

Realiza el hilván sastre con una puntada justa y otra suelta.
Remata el hilván al principio.
Remata el hilván al final.

En una prueba objetiva se entrega un enunciado y alternativas de respuesta. Ejemplo: Sociedad anónima es aquella que:

Su capital lo aporta una persona.

Cuenta con socios gestores que aportan capital

Su fondo social lo aportan sus accionistas.

Para facilitar la elaboración de preguntas y no hacerlas todas cada vez que se haga una prueba, se recomienda hacerlas en fichas y guardarlas. Especialmente en el caso de las pruebas de ensayo y objetivas.

Validar las preguntas: Una vez hechas las preguntas es necesario validarlas. Validar significa que trabajan uno a uno con un experto (en este caso, con otro profesor de la misma asignatura, con el jefe de departamento o con el jefe de UTP) para que analice la pregunta y determine si realmente la pregunta mide la conducta que expresa el contenido (si el objetivo es de aplicación, la pregunta da la posibilidad de que el alumno aplique al responderla), si está bien redactada, si se utiliza lenguaje a nivel del alumno, etc. Todas aquellas preguntas que resulten dudosas para el experto, probablemente resultarían dudosas para el alumno en el momento de aplicar la prueba, por lo tanto es mejor cambiar los ítemes. Las preguntas que pasan la prueba del experto pueden ser incluidas en el instrumento que será aplicado a los alumnos.

Elaborar la prueba formal. Una vez elaboradas todas las preguntas se deben ordenar para imprimir o multicopiar la prueba. El criterio para ordenar las preguntas es obviamente de acuerdo a la secuencia que tienen los objetivos. Ellos fueron desarrollados ordenadamente en la unidad de aprendizaje y de la misma forma deben ser ordenadas las preguntas de la prueba. Es de suponer que el mismo procedimiento lógico que se siguió en la sala de clases, lo siguió el alumno para estudiar y lo seguirá el profesor para hacer la prueba. A esto ayuda también la relación objetivo-ítem que se hizo en el diseño de la prueba.

La prueba formal, además de las preguntas de prueba debe llevar instrucciones específicas en cuanto al número de preguntas de la prueba, el tiempo de respuesta, la forma de respuesta, el puntaje de cada pregunta, el tipo de preguntas, la forma de corrección, si se hará descuentos, etc. Las instrucciones corresponden a las reglas de la prueba, lo que el alumno debe tener en cuenta al responder.

Ejemplo de una hoja de instrucciones de Prueba de Ensayo.

Esta es una prueba de seis preguntas.

Dispone de 60 minutos para responder.

Responda en una hoja de cuadro grande tamaño oficio.

El puntaje de cada pregunta aparece ( ) al lado de cada pregunta.

Puede usar calculadora.

Las fórmulas están en la pizarra.

Debe desarrollar el reemplazo de los datos en la fórmula paso a paso en la hoja de respuestas.

Coloque su nombre al final de la hoja de respuesta.

En el caso de la prueba objetiva, además de las instrucciones y las preguntas, debe adjuntarse una hoja de respuestas, para que el alumno responda más fácilmente, no inhabilite el material de prueba para ser usado nuevamente y se pueda corregir con una plantilla.

3.- Aplicación de la prueba: Una vez elaborada e impresa la prueba, es el momento de la aplicación, es decir, administrarla a los alumnos en la sala de clases.

Cuando la aplicación es colectiva, la situación de prueba debe ser la más tranquila posible, se está aplicando una medición, y ella será más exacta mientras más relajado esté el alumno y no lo alteren factores ambientales. Es importante señalar al comienzo las instrucciones para responder la prueba, y el tiempo de que dispone el alumno para hacerlo. Prevenir situaciones de copia separando a los alumnos convenientemente y recomendándole que guarden todo material ajeno a la prueba. Una vez que se ordenaron y se dieron todas las instrucciones se anota el tiempo de inicio y de término en la pizarra, y no se hace ninguna otra referencia al tiempo.

Cuando la aplicación de la prueba es individual, también deben darse al alumno todas las reglas del juego de antemano y al hacer cada pregunta o al observar su actuación, dar un tiempo prudente de respuesta. Cuando se aplica una lista de cotejo, puede ser conocida por el alumno de antemano, así el puede saber a que actuación da mayor importancia el profesor y poner énfasis en ellas. La lista de cotejo puede ser usada indistintamente con propósito diagnóstico, formativo y sumativo, y conocerla de antemano el alumno.

Ejemplo: Para verificar si un alumno maneja una máquina de escribir, se diseña y elabora una lista de cotejo con todos los pasos que debe seguir para demostrar que sabe hacerlo. Esta lista de acciones puede ser conocida por el alumno, se aplica con propósito diagnóstico y él se da cuenta de qué acciones realiza y cuáles no y después de ensayar muchas veces puede verificar nuevamente qué acciones ha mejorado y cuál debe mejorar aún más. Cuando el profesor deba calificar, puede usar la misma lista y observar la actuación final del alumno.

4.-Corrección de la prueba: Luego de aplicadas las pruebas ocurre el proceso de corrección. Corregir es verificar si el alumno ha emitido respuestas correctas y asignar puntajes a dichas respuestas.

Cada prueba se corrige de distintas formas, según sea el tipo de ella. Pero en todos los casos es conveniente tener una plantilla o guía de corrección para comparar con ella las respuestas del alumno y asignar los puntajes que correspondan. Se evita así el "efecto de halo", que puede ser positivo o negativo, pero afecta de todas formas la objetividad de la corrección. Esto afecta a todos los instrumentos de medición excepto a la prueba objetiva que es la única que podría ser corregida, utilizando una plantilla, por el propio alumno, y no llegaría a resultados diferentes de los del profesor.

Para la lista de cotejo solo se cuentan los puntos de las actuaciones correctas y con ese puntaje se calcula la nota. Aunque antes de calcular la nota se debe hacer un análisis de las respuestas.

La prueba de ensayo se corrige por pregunta y no por alumno para mantener en cierta medida la objetividad de la corrección y no se comparen las respuestas de los alumnos entre sí.

La prueba objetiva se corrige con una plantilla, marcando las respuestas incorrectas, luego se cuentan las respuestas correctas y se le hace un descuento de acuerdo a una tabla considerando que el alumno puede haber dado algunas respuestas al azar.

5.-Análisis de la prueba: Antes de asignar las notas o calificaciones a la prueba o determinar el logro de objetivos de acuerdo al puntaje, es necesario hacer un análisis de las respuestas, esto es, establecer la tendencias de ellas, ¿todos los alumnos respondieron todo?, ¿qué pregunta no fue respondida?, ¿Existen errores que se repiten en las respuestas y ¿cuál fue la variación de los puntajes?.

Puede ocurrir por ejemplo que:

En una secuencia de acciones de una lista de cotejo, una acción no la realiza ninguno de los alumnos porque resulta irrelevante para el proceso.

En una prueba de ensayo podría suceder que todo el grupo utiliza mal una fórmula porque en algún momento fue mal escrita.

En un test objetivo de 40 ítems, todos omiten la pregunta 38 y todos responden "a" en la pregunta 25 cuando la alternativa correcta era la "c".

En todos estos casos sería conveniente no considerar ese(os) ítem(es) para el puntaje final de cada alumno. Ahora si no hay ningún problema y aparentemente las respuestas incorrectas fueron por desconocimiento del alumno, no sería necesario hacer ajustes al puntaje total.

6.- Calificación: Cuando se tienen los puntajes para cada alumno después de corregir y analizar la prueba es el momento de tomar decisiones. Estas decisiones se refieren a determinar si el alumno logró o no los objetivos que medía la prueba.

Si el propósito evaluativo al aplicar el instrumento era diagnóstico, se darán a conocer los puntajes a cada alumno y se le comunicará a cada uno los vacíos que necesita llenar.

Si el propósito evaluativo fue formativo, también se darán a conocer los puntajes a cada alumno, se les comunicarán sus carencias y se dará la orientación necesaria y las actividades que el alumno debe realizar para remediarlas.

Si el propósito evaluativo era sumativo, es necesario transformar los puntajes a calificaciones, para ello existen distintos procedimientos según sea la prueba utilizada. La forma más simple de asignar calificaciones, utilizada para lista de cotejo, la prueba oral y la prueba de ensayo es la siguiente:

Puntaje obtenido por el alumno
Nota = ---------------------------------- . 7
Puntaje total de la prueba

El puntaje total de la prueba puede ser ajustado si se ha decidido eliminar alguna pregunta.