Consejos para la construcción de una prueba de evaluación con preguntas de elección múltiple. (O, más sencillo, un examen tipo test).
Elección del contenido que se desea evaluar
* Debe ser una muestra representativa del contenido recogido en una tabla de especificación, evitando ítems triviales.
Se preguntará de forma general por lo trabajado durante la asignatura y no se preguntará por lo no trabajado.
* La representatividad deberá marcar lo sencillo o complejo, concreto o abstracto, memorístico o de razonamiento que deba ser el ítem, así como el modo de expresarlo.
Preguntaremos según cuáles hayan sido nuestros objetivos de aprendizaje. Preguntas y objetivos han de alinearse.
Una de las claves es pensar qué debería de poder responder correctamente un alumno para acreditar haber superado el nivel mínimo requerido para alcanzar el aprobado.
Esa reflexión sobre ese hipótetico alumno que está en el umbral entre el aprobado y el suspenso, entre haber alcanzado por los pelos los objetivos y quedarse un poco atrás, nos ayudará también a definir el nivel de dificultad de la prueba.
Expresión del contenido en el ítem
* Lo central debe expresarse en el enunciado. Cada opción es un complemento que debe concordar gramaticalmente con el enunciado.
Así, este no es un ítem correcto. Este ítem no va de nada en realidad. No está evaluando algo concreto.
* La sintaxis o estructura gramatical debe ser correcta. Evitar ítems demasiado escuetos o profusos, ambiguos o confusos, cuidando además las expresiones negativas.
Queremos evaluar nuestra asignatura, no el desempeño en una prueba de sobrecarga verbal.
* La semántica debe estar ajustada al contenido y a las personas evaluadas.
No hay ítems buenos para todo momento y población. Hay que amoldarse. Si cierta palabra puede ser confusa y no forma parte del contenido de la asignatura, mejor cambiarla. No queríamos medir vocabulario.
* La opción correcta debe ser solo una, acompañada por distractores plausibles.
Hay pruebas del tipo 'marca todas las correctas': mucho lío para básicamente ninguna ganancia en la calidad de la evaluación.
Instrucciones del tipo 'marca la más correcta': saldrá mal, probablemente.
Los distractores (alternativas incorrectas) deberían ser aquellas respuestas erróneas más frecuentes en el caso de que el examen fuera abierto, no de elección múltiple. ¿En el caso de aprendizaje parcial qué responderían?
Este es uno de los motivos que justifica limitarse a tres opciones de respuesta. Con más uno empieza a ponerse demasiado creativo (en el mal sentido) construyendo los distractores.
Hay quien incluye alternativas pretendidamente graciosas. Yo no arriesgaría con el humor en momentos de tensión como son los de un examen. Lo que para unos supone liberar tensión en una fase así para otros supone falta de rigor.
* La opción correcta debe estar repartida entre las distintas ubicaciones.
En la medida de lo posible no deberíamos seguir un patrón a la hora de situar la correcta. De ser así, corremos el riesgo no de evaluar la asignatura, sino la habilidad para captar nuestro patrón.
* Las opciones deben ser preferiblemente tres.
Menos alternativas: más probabilidad de acierto por puro azar.
Más alternativas: más texto a leer para escasa ganancia en información. También, más riesgo de redactar opciones de baja calidad.
- Mis exámenes son de cinco alternativas y funcionan muy bien.
- Pues adelante. El objetivo es ese, evaluar bien. Las instrucciones generales no son mandatos.
* Las opciones deben presentarse de tal modo que se facilite su legibilidad.
Por ejemplo, un ítem así es innecesariamente pesado en su pura presentación.
* El conjunto de opciones de cada ítem debe aparecer estructurado.
En línea con las últimas recomendaciones, ¿qué ítem es más sencillo en su presentación y lectura?
Ayuda, en el caso de haber un orden claro en las alternativas, aplicarlo para su presentación. Este sería un ítem que no cumpliría. Presentaría otros dos problemas. Uno, ¿es realmente este nivel de precisión relevante? Dos, una alternativa destaca sobre las otras (más decimales).
* Las opciones deben ser autónomas entre sí, sin solaparse ni referirse unas a otras. Por ello, deben evitarse las opciones «Todas las anteriores» y «Ninguna de las anteriores».
Si las alternativas están solapadas, descartada uno, descartada en realidad más de una. Y habitualmente el solapamiento viene acompañado de redacción muy farragosa.
* Ninguna opción debe destacar del resto ni en contenido ni en apariencia.
Yo saqué el teórico de conducir escogiendo la opción que 'sonaba' a código y descartando las redactadas como podría escribir yo. El acierto debería venir del conocimiento, no de claves irrelevantes.
Este hilo está basado en este entrada de mi blog:
unnombrealazar.blogspot.com/2007/01/pregun…
Y esa entrada bebía de este artículo:
psicothema.com/psicothema.asp…
¿Dónde fijar el aprobado? Lo más sencillo es ponerlo en el cinco sobre diez. Mantengámonos en la convención a la que estamos acostumbrados. El reto, pues, es ver cómo llevar a que el umbral de conocimientos que linda entre haber superado objetivos o no corresponda a ese cinco.
Antes una nota: una asignatura da para lo que da. Son cuatro meses y, en créditos ECTS, 25 horas de trabajo por crédito. A veces como profesores asumimos que el aprendizaje profundo es más rápido y fácil de lo que realmente es.
Nuestros conocimientos consolidados y automatizados de una materia que ya de partida se nos daba bien se nos hacen tan básicos y evidentes que podemos pensar que su adquisición es más fácil de lo que es para nuestros estudiantes.
Para intentar que el cinco corresponda con la nota de ese estudiante imaginado que está en el umbral entre aprobar y suspender se han desarrollado lo más sencillo es desarrollar tres bloques de preguntas: dificultad por debajo del umbral mínimo, ajustadas a umbral y por encima.
No he usado los términos 'fáciles' o 'difíciles' con intención. Si nuestros estudiantes han trabajado mucho y bien, podemos tener notas altísimas en general. Eso supondría que no hay preguntas difíciles (si lo valoramos como poco acertadas).
Pensar en preguntas de diferentes niveles ayuda a ajustar el aprobado. Un potencial riesgo, a veces, es plantear únicamente las que separan suspenso/aprobado y notable/sobresaliente. De este modo, el nivel global del examen nos habría quedado demasiado alto.
Ese alumnado con un nivel ajustadísimo en el aprobado saca como la mitad de las que separan suspenso/aprobado, pero falla las de notable/sobresaliente en su mayoría, por lo que al final quedaría por debajo del cinco (nota que le correspondería).
¿Cuántos alumnos deberían aprobar? La mayoría de quienes le han dedicado las horas que por normativa les podemos pedir como profesores. Nuestro trabajo es diseñarles un camino de aprendizaje para que muchos cumplan con ello.
¿Cómo calcular la puntuación total una vez que obtenidas las respuestas ítem a ítem? En medición hay modelos más finos, pero para un examen convencional resultan dificílmente aplicables. Lo viable: los aciertos suman, los errores restan y las omisiones no afectan.
¿Por qué restan los errores? Imaginemos un mono con un palo respondiendo un examen de verdadero/falso de cien preguntas. Por puro azar, cabría esperar que acertara la mitad. Sin penalizar errores, habría llegado al cinco.
Por eso,
Puntuación = Aciertos - Errores/(Número de opciones - 1)

El mono acierta 50 y falla 50. Era V/F (dos opciones).
Puntuación(mono) = 50 - 50/(2 - 1) = 0
Hay quien sugiere otras opciones: no restar y subir la nota para aprobar. No es aconsejable. Si se hace así, se está animando a responder todos los ítems, incluso aquellos de los que no se tiene ninguna idea. Eso es meter más ruido de respuestas al azar. No es así si omiten.
Y, si uno sube la nota requerida para aprobar, el rango de valores para diferenciar entre el aprobado por los pelos y el excelente se estrecha. Eso lleva a que pequeños cambios de nota tengan más efecto.
¿Y cómo puedo saber si mi examen funciona bien?
Dos fuentes de información. Una, el propio alumnado. Las quejas de estos merecen atención. No es lo mismo escucharles que dar por buena lo que dicen, claro, pero sí que sus aportaciones son valiosísimas para afinar el sistema.
Una queja habitual: "No nos esperábamos que el examen fuera así". Ayuda en gran medida haberles pasado pruebas de otras convocatorias, incluso trabajándolas en clase. También exámenes parciales. Así ellos saben bien a qué van, cuál es el nivel de exigencia y contenidos esperados.
Si hemos tenido un cuatrimestre de contacto estrecho con nuestros alumnos, también podemos hacernos una idea de qué nota esperábamos para algunos de ellos. Si la gente que iba bien, que le dedicaba tiempo, saca notas bajas, p.ej., muy probablemente hemos calibrado mal dificultad.
La otra fuente de información son indicadores estadísticos. Los más sencillos:
- Nota media en el ítem: desde un valor negativo (que depende del número de alternativas) hasta 1. Nos habla de la dificultad. Los valores muy extremos apuntan a ítems potencialmente mal planteados.
Si lo que queremos es evaluar nivel de aprendizaje y no todos son iguales en ese nivel, los ítems que casi todos aciertan o casi todos fallan no están recogiendo esa variabilidad presente en nuestro alumnado.
Digo que puede marcar que el ítem presenta problemas, no que lo sea realmente. La estadística da pistas, no cierra la interpretación. Es necesario el jucio experto (el del profesor) para ver si de verdad no estaba bien planteado.
Otro indicador:
- Correlación entre la puntuación en el ítem y el total del examen. El ítem mide con más ruido que el total del test. Se espera una correlación positiva (quienes aciertan el ítem suelen sacar mayor nota total), pero tampoco suele ser altísima.
La correlación ítem-total permite marcar dos problemas. Uno, correlaciones de casi cero: el ítem es posible que 'vaya por libre', no evalúa lo mismo que el resto del examen. Dos, correlaciones negativas: es probable que nos hayamos equivocado al especificar l alternativa correcta

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Juan Ramón

Juan Ramón Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @unnombrealazar

13 Jan
Mañana empieza el periodo de exámenes en la Universidad de Zaragoza. Espero que a todos nos acompañe la dosis adecuada de justicia y suerte.
Para mí un principio importante en la evaluación es que, ante la duda, a favor del estudiante.
Las temperaturas mínimas esperadas para mañana jueves son -5º en Huesca, -9º en Teruel y 2º en Zaragoza. Cierto que cabe esperar mejores en adelante. No veo bien cómo encajar esto y una adecuada ventilación con unas condiciones que permitan el máximo rendimiento en la evaluación.
Los exámenes online suponen un cierto riesgo de copia, pero que los estudiantes perciban que la universidad y el profesorado somos insensibles a sus necesidades razonables en estos momentos creo que es un riesgo mayor.
Read 4 tweets
11 Jan
Para quienes decían que los universitarios eran unos irresponsables ante la COVID:

vozpopuli.com/espana/examene…
- Pero es que los alumnos copian mucho con un examen online - argumetan algunos.
- Pandemia - debería de servir como respuesta suficiente.
- ¡Pero es que mucho, mucho! - insisten.
- Primero, no es tan claro que sea tan generalizado. Ni todos santos ni todos villanos. Segundo, hay modos de intentar reducir ese riesgo de copia. Tercero... ¿Te suena lo de la pandemia?
Read 4 tweets
5 Feb 20
El grupo MDPI ha lanzado las 'estafas' piramidales en el mundo académico. Está triunfando especialmente en España.
Lanzas un 'special issue'. Actuar como editor invitado en ese número cuenta, para la ANECA, como dos años de editor convencional en otra revista.
Captas a quienes van a publicar en ese volumen especial. El listón para publicar en MDPI es bajo y los plazos son breves. La percepción es que por unos 1500 euros tienes una publicación en Q1 o Q2 en como un mes.
Ese volumen es de publicación continua, esto es, no se publican todos los artículos en una sola vez. En tanto que unos artículos probablemente citarán a otros eso te encaja para subir el factor de impacto.
Read 7 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!