Evaluar con IA no es acelerar la calificación: es recuperar la profundidad perdida de la evaluación formativa

Por qué leer este artículo

El retrovisor formativo de la IA

Un texto para repensar la IA en evaluación: no como atajo para calificar más rápido, sino como tecnología capaz de devolver profundidad, evidencia y sentido formativo al aprendizaje.

Superar la lógica de la calificación automática

La IA no debería reducirse a corregir pruebas o acelerar notas. Su valor está en ampliar la mirada sobre procesos, errores, evidencias y trayectorias de aprendizaje.

Recuperar la evaluación formativa

Bien integrada, la IA puede fortalecer la retroalimentación inmediata, la autorregulación y la toma de decisiones del estudiante durante el proceso, no solo al final.

Proteger el juicio docente

La IA no reemplaza al profesor: exige mejor diseño, criterios claros, transparencia, ética y gobernanza pedagógica para interpretar lo que los datos no explican solos.

Idea fuerza: La IA no acelera la evaluación: le devuelve profundidad, memoria pedagógica y capacidad de mirar el pensamiento en movimiento.

Resumen

La irrupción de la inteligencia artificial generativa en educación ha reactivado una tensión histórica de la evaluación: ¿evaluamos para cerrar un proceso o para abrir nuevas oportunidades de aprendizaje? La imagen del docente que diseña con IA, el estudiante que responde con IA y el profesor que califica con IA representa el riesgo más visible: una automatización circular del “copiar y pegar”. Sin embargo, esa misma escena contiene una posibilidad más profunda. Si se usa pedagógicamente, la IA puede actuar como habilitante de teorías, hallazgos e investigaciones que durante décadas fueron difíciles de implementar a escala: retroalimentación inmediata, evaluación formativa, diálogo evaluativo, autorregulación, personalización y toma de decisiones pedagógicas basadas en evidencia.

Este artículo propone leer la IA como un bólido tecnológico que solo adquiere sentido si viaja con retrovisor: no para volver nostálgicamente al pasado, sino para rescatar aquello que la investigación educativa ya sabía, pero que los sistemas escolares y universitarios no siempre pudieron sostener. Desde los aportes de Black y Wiliam (1998), Anijovich (2019), la evaluación andragógica y la evaluación decisional, se plantea que la IA no debe sustituir el juicio docente, sino amplificar su capacidad de observar procesos, interpretar evidencias y generar retroalimentación accionable. La evidencia empírica más reciente (2024-2026) matiza y a la vez sostiene esta tesis: el feedback generado por IA es, en promedio, estadísticamente equivalente al feedback humano —ni superior ni inferior— (Kaliisa et al., 2025), y solo produce mejoras reales de aprendizaje cuando está mediado por diseño pedagógico deliberado (Lu et al., 2026). La tesis central es que la IA bien integrada no empobrece la evaluación: puede llevarla a un nivel de profundidad que, paradójicamente, muchas veces fue inviable en tiempos sin IA.

Palabras clave: evaluación formativa, inteligencia artificial, retroalimentación, evaluación decisional, andragogía, IA generativa, juicio docente, aprendizaje profundo, autorregulación.

Evaluar con IA no es acelerar la calificación: es recuperar la profundidad perdida de la evaluación formativa

Hay una escena que resume con precisión el riesgo educativo de nuestro tiempo: un docente prepara un examen con inteligencia artificial, un estudiante lo responde con inteligencia artificial y el mismo docente lo evalúa con inteligencia artificial. En apariencia, todo funciona. El examen existe, la respuesta existe, la nota existe. El circuito está completo.

Pero algo esencial ha desaparecido.

No desapareció la tarea. No desapareció el instrumento. No desapareció la calificación. Lo que desapareció fue la experiencia intelectual que debía ocurrir entre el problema, la producción, la interpretación del error y la mejora. La IA, usada superficialmente, no destruye la evaluación: la vuelve innecesariamente perfecta en su forma y peligrosamente vacía en su sentido.

Sin embargo, la misma imagen permite construir una segunda lectura. En las tres viñetas siguientes, el docente no le pide a la IA que haga el examen por él, sino que lo ayude a diseñar preguntas que evalúen comprensión, transferencia y pensamiento crítico. El estudiante no le pide a la IA que responda por él, sino que lo acompañe con preguntas, pistas y contraargumentos. El profesor no le pide que califique automáticamente, sino que identifique patrones de error, malentendidos y próximos pasos de retroalimentación.

Allí cambia todo.

La IA deja de ser una máquina de reemplazo y se convierte en una arquitectura de profundidad. No sustituye la evaluación formativa: vuelve posible aquello que la evaluación formativa prometió durante décadas, pero que muchas veces no pudo sostener por falta de tiempo, escala, formación, instrumentos o condiciones institucionales.

La tesis de este artículo es simple: la IA no inaugura el valor de la retroalimentación formativa; lo habilita en nuevas condiciones de posibilidad. Para comprenderlo, necesitamos viajar en este bólido tecnológico con un buen retrovisor — y, como veremos, también con suficiente prudencia para no confundir la velocidad del vehículo con la calidad del trayecto.

1. El retrovisor: la evaluación formativa no nació con la IA

Uno de los errores más frecuentes en la conversación actual es suponer que la inteligencia artificial “descubrió” la personalización, la retroalimentación inmediata o la evaluación adaptativa. No es así. Lo que la IA modifica no es el fundamento pedagógico, sino la posibilidad operativa de sostenerlo con mayor frecuencia, granularidad y escala.

Black y Wiliam (1998) ya habían situado la evaluación formativa en el corazón del aprendizaje al definirla como el conjunto de actividades de docentes y estudiantes que producen información usada como retroalimentación para modificar la enseñanza y el aprendizaje. Su revisión mostró evidencia sólida de que fortalecer la retroalimentación frecuente puede generar ganancias relevantes en el aprendizaje.

Dylan Wiliam (Wiliam, s. f.; Black & Wiliam, 2018) sintetizó posteriormente cinco estrategias clave: aclarar intenciones de aprendizaje y criterios de éxito; generar evidencias de aprendizaje; proporcionar retroalimentación que ayude a avanzar; activar a los estudiantes como recursos de aprendizaje entre pares; y activar a los estudiantes como dueños de su propio aprendizaje.

Estas ideas son profundamente actuales porque describen exactamente lo que la IA podría potenciar si se usa bien. La pregunta ya no es si la IA puede calificar más rápido, sino si puede ayudar a que docentes y estudiantes hagan algo más valioso con la evidencia de aprendizaje.

Ahí entra la mirada de Rebeca Anijovich (2019). Su aporte permite distinguir la retroalimentación correctiva —”esto está bien” o “esto está mal”— de la retroalimentación formativa, entendida como información cualitativa sobre logros, desafíos y modos de mejorar una producción. En su trabajo se insiste en que retroalimentar no equivale a calificar: implica abrir posibilidades de mejora, diálogo y acción.

La retroalimentación puede ser entendida como producto, como acto dialógico o como acción sostenible (Anijovich, 2019). La primera se entrega al final. La segunda se construye en interacción. La tercera se convierte en modo de acompañar el aprendizaje. Esa secuencia permite leer el problema de la IA con más precisión: la IA superficial produce feedback como producto; la IA pedagógicamente integrada puede habilitar feedback como diálogo y como acción sostenida.

Lo que confirma la evidencia más reciente es que esta secuencia no es solo una intuición teórica. Una revisión sistemática centrada en docencia universitaria latinoamericana (2023-2025) advierte que buena parte de la investigación emergente sobre IA generativa en educación superior se concentra en capacitación docente y desafíos éticos, mientras problemas macroestructurales —desigualdad tecnológica, ausencia de políticas institucionales— quedan relativamente invisibilizados (Revista Realidad Educativa, 2025). Es decir: el campo sabe que la IA podría habilitar feedback como diálogo, pero la investigación todavía documenta más las condiciones de adopción que sus efectos reales sobre el aprendizaje. El retrovisor, en este punto, también sirve para mirar los límites actuales del propio bólido.

Retroalimentación Correctiva / El final del camino

Entendida como la información que se entrega al final de un proceso. Suele limitarse a validar si algo “está bien” o “está mal”, careciendo de poder formativo porque llega tarde para que el estudiante actúe sobre ella.

Riesgo: La IA Superficial

Automatiza el ritual evaluativo tradicional. El docente pide a la IA que califique rápidamente un examen y genere un comentario estandarizado.

“La IA vuelve la evaluación innecesariamente perfecta en su forma y peligrosamente vacía en su sentido.”

Impacto en el Aprendizaje

En este nivel, la IA no produce mejoras significativas.

Simula profundidad, pero no modifica la comprensión del estudiante ni mejora el juicio profesional del docente. Es una automatización del status quo.

2. El problema no es que la IA evalúe: el problema es qué entiende por evaluar

Cuando la IA se usa para preparar un examen, resolverlo y calificarlo en modo automático, no estamos ante innovación educativa. Estamos ante una automatización del ritual evaluativo tradicional.

El docente ya no redacta, pero tampoco necesariamente diseña. El estudiante ya no responde, pero tampoco necesariamente comprende. El sistema ya no corrige tarde, pero tampoco necesariamente retroalimenta mejor.

Este circuito tiene un peligro específico: permite simular profundidad. Un examen puede parecer mejor redactado. Una respuesta puede parecer más elaborada. Una retroalimentación puede parecer más técnica. Pero si ninguna de esas capas modifica la comprensión del estudiante, ni mejora el juicio profesional del docente, ni produce decisiones pedagógicas más ajustadas, entonces la IA no elevó la evaluación: solo embelleció su superficie.

La evidencia empírica reciente permite precisar esta ambivalencia con un dato contundente. El meta-análisis más amplio disponible hasta ahora sobre el tema —41 estudios, 4.813 estudiantes— encontró que el tamaño del efecto agrupado del feedback de IA frente al feedback humano es pequeño y estadísticamente no significativo (Kaliisa et al., 2025). En otras palabras: la IA no es, por sí sola, ni mejor ni peor que un docente entregando retroalimentación. No hay una superioridad automática que justifique adoptarla sin diseño. Pero tampoco hay una inferioridad que justifique rechazarla por principio. La diferencia la hace, una vez más, qué se le pide y cómo se integra al ciclo formativo — no la herramienta en sí misma.

La literatura institucional latinoamericana confirma esta ambivalencia desde otro ángulo. Una revisión sistemática del uso de IA en la evaluación del desempeño docente en educación superior latinoamericana, que depuró más de dos mil documentos hasta seleccionar veinte estudios de calidad, concluyó que la IA favorece retroalimentación inmediata y personalizada, agilidad en la recopilación de evidencias y mejores decisiones institucionales, pero también persiste resistencia docente, dependencia tecnológica y desigualdad de acceso (Ortiz et al., 2025). Su conclusión es clara: la IA es complementaria, no sustitutiva del rol docente.

Por eso la pregunta institucional no debería ser: “¿podemos usar IA para evaluar?”. La pregunta más seria es: ¿qué concepto de evaluación estamos automatizando?

Si automatizamos una evaluación extractiva, centrada en obtener respuestas, producir notas y cerrar evidencias, la IA hará más eficiente un modelo pobre. Si, en cambio, la integramos a una evaluación formativa, dialógica y situada, puede ayudar a que la evidencia se convierta en oportunidad de aprendizaje.

Simulador Evaluativo

La Trampa de la Automatización

Tienes 30 segundos. Una avalancha de evidencias de aprendizaje está llegando a tu escritorio. Tu objetivo es generar el mayor Aprendizaje Profundo posible.

IA Automática

Califica al instante. Máxima eficiencia para el sistema, pero mínimo diálogo formativo.

IA Dialógica

Lee la evidencia, reconoce señales y propone una ruta de mejora. Toma más tiempo, pero genera verdadero impacto.

📝 Respuesta escrita

🧪 Prototipo

🗣️ Reflexión oral

📊 Bitácora / datos

Tiempo Restante

15.0

Evidencias Procesadas

Eficiencia Operativa (Calificaciones) 0%

Aprendizaje Profundo (Mejora) 0%

“El problema no es que la IA evalúe: el problema es qué entiende por evaluar”.

Continuar lectura ↓

3. Lo que la IA habilita: feedback inmediato, criterial y accionable

Uno de los límites históricos de la retroalimentación formativa ha sido la latencia. El estudiante entrega una tarea hoy, recibe comentarios días o semanas después, y cuando los recibe ya está en otra unidad, otro problema, otra urgencia. La retroalimentación llega tarde para actuar.

Este punto conecta directamente con lo planteado por Anijovich (2019): una retroalimentación que mira solo al pasado pierde poder formativo. No basta con decirle al estudiante qué debió haber hecho. La pregunta decisiva es: ¿qué hacemos ahora?

La IA puede alterar esta condición material, y ya existe evidencia de distinta jerarquía que lo sostiene. En el extremo de mayor escala, Pensieve Grader, un sistema basado en modelos de lenguaje para calificación de respuestas manuscritas en cursos STEM universitarios, fue evaluado sobre más de 300.000 respuestas de estudiantes en más de veinte instituciones, reduciendo el tiempo de calificación en un promedio del 65% mientras mantenía una tasa de acuerdo del 95,4% con las notas asignadas por el instructor humano (Yang et al., 2025). Es decir: la reducción de tiempo no se logró a costa de la exactitud.

A una escala más local y operativa, una implementación en la Universidad Estatal del Sur de Manabí (Ecuador) documentó algo más modesto pero igualmente ilustrativo: un sistema de evaluación formativa con rúbricas analíticas estructuradas en planillas y orquestación automatizada generó y comunicó retroalimentación criterial personalizada a 113 estudiantes en aproximadamente trece minutos, frente a las seis a trece horas estimadas que habría tomado el mismo proceso de forma manual —una reducción proyectada de entre 96,8% y 98,4% del tiempo docente— (Amén Mora et al., 2025). Conviene ser precisos sobre el alcance de este dato: se trata de un estudio de desempeño operativo, no de una medición de aprendizaje, y su línea base manual es una estimación de los propios autores y no un tiempo cronometrado en condiciones reales. No demuestra que los estudiantes aprendieran más; demuestra que es técnicamente viable sostener un ciclo de retroalimentación criterial a escala con recursos modestos —una planilla de cálculo, un gestor de formularios y un script de automatización—, sin infraestructura sofisticada. Esa es justamente su relevancia para instituciones latinoamericanas con recursos limitados: muestra que el “bólido tecnológico” no exige una flota costosa para empezar a moverse.

Ese punto es crucial. La reducción de tiempo solo tiene valor pedagógico si el tiempo liberado vuelve al aprendizaje: mejores consignas, mejores criterios, mejores conversaciones, mejores oportunidades de revisión. Si la IA ahorra tiempo para aumentar el volumen de tareas, no hay transformación. Si ahorra tiempo para profundizar el acompañamiento, entonces sí hay innovación.

La evidencia causal más sólida en este sentido proviene de un ensayo controlado aleatorizado reciente en un curso universitario de gran tamaño, donde un sistema de feedback mediado por IA asistió a ayudantes de cátedra en la generación de comentarios sobre ensayos de estudiantes —sin reemplazarlos: los ayudantes podían adoptar, editar o descartar cada sugerencia— (Lu et al., 2026). El resultado fue una mejora medible en la calidad de las revisiones de los estudiantes, equivalente a desplazar a un estudiante promedio del percentil 50 al percentil 70 de la distribución, con ganancias crecientes a medida que los ayudantes adoptaban más sugerencias de la IA (Lu et al., 2026). Este es el patrón que mejor ilustra la tesis del artículo: la IA no sustituyó el juicio del ayudante, lo amplificó, y el efecto sobre el aprendizaje solo emergió cuando hubo mediación humana deliberada.

Modelo tradicional manual

El estudiante recibe la retroalimentación días o semanas después. Cuando la recibe, ya está en otra unidad. La latencia destruye la oportunidad de actuar y corregir.

Latencia · tiempo de respuesta Alta · días o semanas

Consistencia técnica Variable

Impacto en aprendizaje Base · percentil 50

Lectura pedagógica

Una retroalimentación que mira solo al pasado pierde poder formativo. No basta con decirle al estudiante qué debió haber hecho. — Anijovich, 2019.

Qué revela el modelo El problema no es solo cuánto tarda la retroalimentación, sino si llega a tiempo para que el estudiante pueda usarla.

4. De la retroalimentación escrita al ecosistema multimodal de mejora

Otro hallazgo importante de la investigación reciente es que la retroalimentación no tiene por qué limitarse al comentario escrito. Los estudiantes suelen comprender mejor cuando el feedback combina elementos visuales, verbales, audiovisuales y dialogados. Un estudio cualitativo desarrollado en México sobre la percepción estudiantil del aprendizaje multimedia en formato video documentó que los estudiantes universitarios valoran especialmente la posibilidad de revisar, pausar y volver sobre el contenido a su propio ritmo —una característica que el feedback escrito tradicional no ofrece con la misma naturalidad (REDIECH, 2024).

La IA generativa amplía esta posibilidad. Investigación reciente sobre sistemas de feedback multimodal generado por modelos de lenguaje encontró que este tipo de retroalimentación produce un aprendizaje equivalente al feedback entregado por un educador humano, pero con mejores percepciones por parte de los estudiantes respecto a su claridad y utilidad (2026). La IA puede ayudar a convertir una rúbrica en una explicación oral; un error recurrente en una microlección; una observación docente en una pauta de revisión; una producción estudiantil en una conversación socrática; o una retroalimentación escrita en un plan de acción.

Pero esto exige cambiar la unidad de diseño. Ya no se trata solo de “entregar comentarios”. Se trata de construir ciclos de retroalimentación:

evidencia del desempeño;
interpretación del error;
diálogo sobre criterios;
acción de mejora;
nueva oportunidad de aplicación;
reflexión sobre el cambio producido.

Sin esta última fase, el feedback no se completa (Anijovich, 2019). Si el estudiante no hace nada con la retroalimentación recibida, difícilmente podamos afirmar que hubo retroalimentación formativa.

La nueva unidad de diseño

El Ciclo Multimodal

Ya no se trata solo de entregar comentarios. La retroalimentación con IA se vuelve un ciclo: evidencia, interpretación, diálogo, acción, nueva oportunidad y reflexión.

Fase 1 del ciclo

Evidencia del desempeño

Todo ciclo comienza con una producción observable. La IA no reemplaza la necesidad de que el estudiante intente, resuelva y genere una evidencia real de su razonamiento.

Pregunta de diseño

¿Qué evidencia concreta permite observar el proceso del estudiante y no solo el resultado final?

✦ Transmutación IA

Antes Error estático Un comentario aislado que llega tarde.

IA Después Microlección a medida Audio y video interactivo.

Sin esta última fase, el feedback no se completa. Si el estudiante no hace nada con la retroalimentación recibida, difícilmente podamos afirmar que hubo retroalimentación formativa.

5. IA y autorregulación: el estudiante no como usuario, sino como agente

El mayor peligro del uso estudiantil de IA es que el estudiante la convierta en sustituto de su pensamiento. Pero el mayor potencial es que la convierta en interlocutor metacognitivo.

La diferencia está en el tipo de interacción.

“Respóndelo por mí” produce dependencia. “No me lo resuelvas; hazme preguntas, dame pistas, ayúdame a revisar mi razonamiento” produce agencia.

Aquí conviene introducir una distinción que la investigación reciente ha empezado a formalizar con precisión: la diferencia entre la IA como oráculo y la IA como andamiaje. Un marco teórico reciente sobre metacognición potenciada por IA advierte algo incómodo y necesario: incluso los intercambios que se presentan como “socráticos” pueden preservar, sin proponérselo, una dinámica de oráculo, si el sistema termina insinuando la respuesta correcta en el tono de sus preguntas (Frontiers in Education, 2025). Cuando esto ocurre, se debilita lo que la literatura llama el “efecto protégé” —la ganancia cognitiva que se produce cuando una persona debe explicarle algo a otra— y se suprime la práctica reflexiva genuina del intentar, observar el resultado y ajustar. No basta con que la IA haga preguntas; importa que esas preguntas dejen al estudiante con trabajo intelectual real por hacer.

Esta distinción no es solo teórica. Un ensayo controlado aleatorizado reciente en aulas de educación básica, donde estudiantes interactuaron con un sistema de IA diseñado explícitamente para guiar mediante cuestionamiento socrático —sin revelar la respuesta, escalando pistas progresivas y derivando a supervisión humana cuando era necesario—, mostró mejoras medibles en autorregulación del aprendizaje (Educational Psychology Review, 2026). El diseño importaba más que la tecnología: el mismo modelo de lenguaje, instruido para resolver en vez de acompañar, habría producido el efecto opuesto.

Esto es clave para docentes, investigadores y empresas EdTech. No basta con generar “feedback automático”. La pregunta de diseño debe ser: ¿este feedback aumenta la capacidad del estudiante para revisar, decidir, justificar y transferir?

Una IA que solo entrega respuestas reduce la agencia. Una IA que enseña a preguntar puede fortalecerla. Una IA que señala errores puede ser útil. Una IA que ayuda al estudiante a reconocer patrones de error, planificar próximos pasos y monitorear su mejora puede ser transformadora.

Simulador de andamiaje cognitivo

El Espejo Socrático

Un chat simulado que no entrega respuestas cerradas: devuelve preguntas para hacer visible el razonamiento, revisar supuestos y decidir el siguiente paso.

Modo andamiaje

IA socrática · fase 1

Hola. Soy tu tutor de IA en modo andamiaje. No voy a resolver por ti: voy a ayudarte a observar cómo estás pensando. Escribe una duda, una idea incompleta o un problema que quieras revisar.

Tip: escribe una idea incompleta. El valor está en construirla, no en pedir una respuesta final.

Autorregulación 0%

El indicador sube cuando la conversación avanza desde la duda inicial hacia criterios, supuestos, verificación y acción.

Progreso reflexivo0/4

Ruta socrática

1Situar la duda

2Reconocer recursos

3Examinar supuestos

4Verificar razonamiento

5Decidir acción

Clave pedagógica

La IA no actúa como oráculo. Funciona como espejo: devuelve una pregunta para que el estudiante observe su propio proceso.

Has cerrado el ciclo básico: ahora la retroalimentación deja de ser comentario recibido y se convierte en decisión de mejora.

6. Gobernanza: sin transparencia, la evaluación con IA pierde legitimidad

La evaluación no es solo un acto técnico. Es un acto institucional, ético y político. Define oportunidades, trayectorias, certificaciones, accesos y reputaciones. Por eso, cuando se incorpora IA, la pregunta por la gobernanza no es secundaria.

Una revisión sistemática reciente sobre evaluación sostenible asistida por IA en educación superior, que analizó 47 estudios publicados entre 2019 y 2025, encontró un patrón revelador: en más de dos tercios de los estudios centrados en equidad, la IA logró mayor consistencia de puntuación que los evaluadores humanos (Sustainability, 2026). Pero en más de la mitad de los estudios centrados en transparencia, se identificó una divulgación inadecuada o parcial de los procesos de decisión de la IA ante los propios estudiantes evaluados (Sustainability, 2026). Es decir: la IA puede ser más consistente, pero esa consistencia no siempre se acompaña de claridad sobre cómo se llegó a un juicio. Consistencia sin transparencia no es legitimidad.

El dato regional confirma la magnitud del problema de gobernanza. Una encuesta nacional mexicana reciente, con base en más de un millón de estudiantes y ciento treinta mil docentes en cerca de tres mil instituciones, encontró que el 57,5% de las instituciones de educación superior carecen de documentos oficiales que regulen el uso de IA, y que el 76% de los docentes y el 67% de los estudiantes desconocen las normativas existentes incluso cuando sí existen (ANUIES/OIIAES, 2025). La adopción tecnológica, en otras palabras, avanza considerablemente más rápido que la gobernanza institucional que debería encuadrarla.

Esto implica que las instituciones no pueden delegar la evaluación en sistemas opacos. Deben definir, al menos, cinco condiciones:

Primero, qué tareas evaluativas pueden ser asistidas por IA y cuáles requieren juicio humano directo.

Segundo, cómo se informa a estudiantes y docentes el uso de IA en la evaluación.

Tercero, qué mecanismos de apelación existen cuando el estudiante no está de acuerdo con una retroalimentación o calificación mediada por IA.

Cuarto, cómo se protegen los datos utilizados en el proceso.

Quinto, cómo se audita la calidad, equidad y consistencia de las salidas generadas.

La IA puede ser un habilitante, pero sin gobernanza puede convertirse en una nueva caja negra. Y la evaluación formativa no puede sostenerse sobre cajas negras, porque su sentido depende de que el estudiante comprenda los criterios, interprete la evidencia y actúe sobre ella.

Responde los 6 pilares para obtener un diagnóstico. 0%

Definición clara de tareas

¿Está definido qué puede hacer la IA, qué debe revisar el docente y qué decisiones requieren juicio humano directo?

Transparencia frente al estudiante

¿Se informa explícitamente cuándo se usa IA, con qué propósito y qué rol conserva la persona evaluadora?

Mecanismo de apelación

¿Existe una vía clara para revisar discrepancias, errores de interpretación o desacuerdos con una calificación mediada por IA?

Privacidad y protección de datos

¿Se evita exponer datos sensibles, trabajos identificables o información personal en herramientas sin garantías suficientes?

Auditoría de calidad y equidad

¿Se revisan sesgos, consistencia, trazabilidad y calidad de las salidas generadas o sugeridas por la IA?

Responsabilidad humana documentada

¿Queda claro quién valida, corrige, asume responsabilidad y toma la decisión final cuando la IA participa en la evaluación?

Diagnóstico de legitimidad

Este auditor no reemplaza una política institucional. Sirve como lectura rápida para detectar zonas de opacidad antes de implementar IA en procesos evaluativos.

7. La evaluación andragógica: más allá de la rúbrica rígida — y un vacío que conviene declarar

Mis propios desarrollos previos permiten ampliar la discusión desde la evaluación formativa hacia una evaluación andragógica, situada y decisional. En La evaluación andragógica: más allá de la rúbrica rígida (González Grez, 2025b), planteo que la evaluación de adultos requiere reconocer experiencia, autonomía y contextos únicos del aprendiz adulto. Allí se propone trascender la medición de productos para avanzar hacia procesos colaborativos, reflexivos y auténticamente significativos.

Esta idea es especialmente relevante para educación superior, formación laboral, capacitación corporativa y EdTech. En esos contextos, evaluar no puede reducirse a comprobar si alguien reprodujo un contenido. Hay que observar cómo interpreta situaciones, moviliza experiencia previa, toma decisiones, justifica criterios y transfiere aprendizajes a problemas reales.

Aquí, sin embargo, conviene hacer una declaración honesta antes que una afirmación apresurada: al rastrear sistemáticamente la literatura académica indexada de los últimos tres años sobre evaluación formativa con IA específicamente en contextos andragógicos —educación de adultos, formación corporativa, educación continua—, el resultado es mayoritariamente contenido de divulgación profesional y marketing de plataformas, no estudios empíricos revisados por pares. Esto no es un defecto de búsqueda; es, en sí mismo, un hallazgo. El campo andragógico está sustancialmente sub-investigado en comparación con la educación superior formal y la educación básica, al menos en lo que respecta a la intersección específica con evaluación formativa e IA generativa.

Lejos de debilitar el argumento de este artículo, ese vacío lo confirma desde otro ángulo: si la evaluación andragógica ya era, antes de la IA, un terreno con menos sistematización empírica que la pedagogía escolar tradicional, entonces la oportunidad que abre la IA no es solo de escala, sino de visibilización. Un sistema capaz de capturar trazas decisionales, comparar trayectorias profesionales y sostener portafolios reflexivos podría, eventualmente, generar el tipo de evidencia longitudinal que la investigación andragógica ha tenido dificultades para producir por su propia naturaleza dispersa y no escolarizada. Por ahora, esto debe formularse como agenda de investigación futura, no como hallazgo consolidado.

Dicho esto, la IA puede ser útil ya hoy si se diseña como mediadora de procesos andragógicos. Por ejemplo:

ayudar al estudiante adulto a contrastar su experiencia previa con nuevos marcos conceptuales;
generar escenarios situados de decisión;
adaptar retroalimentación según trayectoria y contexto profesional;
producir preguntas de profundización en lugar de respuestas cerradas;
comparar decisiones alternativas y sus consecuencias;
apoyar portafolios reflexivos y bitácoras de aprendizaje.

La clave es no usar la IA para rigidizar aún más la rúbrica, sino para abrir capas de interpretación que la rúbrica por sí sola no ve.

◌ Gobernanza evaluativa con IA

Auditor de Transparencia

Evalúa si una institución cuenta con condiciones mínimas para usar IA en evaluación sin convertir el proceso en una caja negra. No mide innovación tecnológica: mide legitimidad, trazabilidad y responsabilidad pedagógica.

0/6 respondidos

Definición clara de tareas: ¿está explícito qué hace la IA y qué queda bajo juicio humano directo?

Sin esta frontera, la IA puede terminar decidiendo aspectos que deberían permanecer bajo responsabilidad docente.

Transparencia: ¿se informa explícitamente al estudiante cuándo, cómo y para qué se usa IA?

La transparencia no es una nota al pie: es parte de la confianza evaluativa.

Apelación: ¿existe un mecanismo claro para revisar discrepancias, errores o desacuerdos?

Toda evaluación mediada por IA debe permitir revisión humana y corrección institucional.

Privacidad: ¿se protege la información del estudiante durante la captura, procesamiento y almacenamiento?

No basta con usar una herramienta potente; importa qué datos se entregan, dónde quedan y quién puede acceder.

Auditoría: ¿se revisa periódicamente la calidad, sesgos, consistencia y equidad de las salidas de la IA?

La calidad de la IA no se presume: se observa, se contrasta y se documenta.

Responsabilidad humana: ¿queda documentado quién valida, modifica o asume las decisiones evaluativas finales?

La IA puede asistir, pero la legitimidad exige trazabilidad humana sobre la decisión final.

8. La decisión como unidad mínima observable de la competencia

Uno de los aportes más potentes de mi línea de trabajo es la idea de que la decisión puede entenderse como unidad mínima observable de la competencia. En ese marco, la competencia deja de ser un bloque abstracto y comienza a manifestarse en elecciones situadas, justificables y analizables.

Este desplazamiento es central para la era de la IA.

Cuando la respuesta correcta está cada vez más disponible, la evaluación no puede seguir centrada únicamente en la producción final. Debe observar el proceso de decisión: qué información selecciona el estudiante, qué criterios prioriza, qué riesgos reconoce, qué alternativas descarta, qué consecuencias anticipa, qué valores activa y cómo justifica su acción.

En Matrices de decisión, evidencias de competencia (González Grez, 2025c), propongo que la toma de decisiones visibiliza competencias cognitivas, emocionales y sociales, convirtiendo cada elección en una huella observable del repertorio competencial.

Esto abre una oportunidad enorme para la IA. No para decidir por el estudiante, sino para ayudar a capturar trazas del proceso decisional:

alternativas consideradas;
argumentos descartados;
cambios de criterio;
nivel de confianza;
evidencias usadas;
sesgos posibles;
consecuencias anticipadas;
reflexión posterior a la decisión.

Esta no es una aspiración sin antecedente empírico reciente. Un caso documentado en una universidad argentina de ingeniería diseñó precisamente un esquema de “interacción trazable” con un tutor de IA en un curso de hidrología: la transcripción completa del intercambio entre estudiante e IA, junto con el tiempo verificado de uso, se incorporó como evidencia de evaluación del proceso, no solo del producto final entregado (arXiv, 2510.22279, 2025). Es un ejemplo concreto, aunque todavía incipiente, de evaluación decisional aplicada a la interacción misma con la IA.

La evaluación con IA, desde esta perspectiva, no debería preguntar solamente “¿qué produjo el estudiante?”, sino también “¿cómo llegó a producirlo?”, “¿qué ponderó?”, “¿qué no vio?”, “¿qué haría distinto?” y “¿qué decisión tomaría en un nuevo contexto?”.

Simulador de evaluación decisional

El Trazador de Decisiones

La competencia no está solo en elegir una respuesta, sino en hacer visible el proceso: evidencias usadas, valores priorizados, sesgos revisados, consecuencias previstas y criterios modificados.

Fase 1 de 3 · Analiza el caso 33%

Caso situado

Gestión de riesgo hidrológico

Una zona urbana presenta riesgo de inundación severa. El presupuesto disponible no permite resolver todo al mismo tiempo. Puedes reforzar los diques, lo que ofrece protección material inmediata pero implica alto costo, o modernizar el sistema de alertas tempranas, que permite evacuar mejor a la población, aunque no evita el daño material.

Dato técnico La zona baja concentra viviendas, comercio local y una escuela pública.

Restricción El presupuesto solo permite una intervención durante este ciclo.

Tensión ética Reducir daño material no siempre equivale a reducir vulnerabilidad humana.

Elige una decisión inicial. No existe una única respuesta correcta: lo importante será reconstruir la lógica que sostiene tu decisión.

Tu decisión inicial

—

Ahora reconstruye tu huella decisional. Selecciona al menos cuatro trazas del razonamiento que realmente deberían quedar visibles si esta decisión fuera evaluada como competencia.

Cierre breve: ¿qué criterio pesó más en tu decisión?

Selecciona al menos cuatro trazas para construir una lectura decisional más profunda.

Profundidad decisional

0/100

Análisis de la huella decisional

9. Del artefacto al sistema de valor

En mi texto sobre el sistema de valor como arquitectura oculta de la competencia (González Grez, 2026), planteo una tesis especialmente fecunda: el producto puede ser el mismo, pero el sistema de valor que lo produjo puede ser radicalmente distinto. Evaluar solo el artefacto omite el proceso de ponderación que llevó a esa producción.

Este argumento resulta decisivo frente a la IA generativa.

Dos estudiantes pueden entregar respuestas formalmente similares. Uno puede haber copiado una salida de IA sin comprenderla. Otro puede haber usado IA para contrastar ideas, revisar sesgos, pedir contraargumentos, reformular su posición y producir una síntesis propia. El producto final puede parecer equivalente. La competencia desplegada no lo es.

Por eso la evaluación en la era de la IA debe desplazarse desde la detección del producto hacia la lectura de procesos. No basta con preguntar si el texto fue generado por IA. Hay que preguntar qué tipo de relación cognitiva, ética y decisional construyó el estudiante con la IA. Una revisión reciente sobre estrategias de integridad académica en la era de la IA coincide en este desplazamiento: privilegia tareas situadas, evaluación del proceso, defensa oral y metacognición como respuestas que resultan difíciles de replicar mecánicamente mediante un sistema automatizado, precisamente porque exigen mostrar el razonamiento, no solo el resultado (Arandu UTIC, 2025-2026).

Mi formulación es clara: pasar de evaluar lo que el sujeto produce a observar cómo pondera; de interpretar la brecha entre lo que dice y lo que hace como déficit a leerla como dato diagnóstico; de buscar evidencia solo en el producto terminado a cartografiar patrones decisionales en el proceso vivo.

Esa podría ser una de las grandes contribuciones de la IA a la evaluación: no simplemente calificar más rápido, sino hacer visibles procesos que antes quedaban ocultos.

Simulación diagnóstica

Revelador de Arquitecturas de Valor

Dos estudiantes pueden entregar un producto final casi idéntico. La pregunta evaluativa profunda no es solo qué produjeron, sino cómo lo construyeron, qué decisiones tomaron y qué valor formativo dejó el proceso.

El producto final puede parecer igual; la arquitectura cognitiva puede ser completamente distinta. Activa los rayos X pedagógico-andragógicos para distinguir copia superficial de construcción deliberada de valor.

Producto final · Estudiante A Visible

“El sistema de valor es una arquitectura oculta de la competencia porque permite observar no solo el resultado, sino las decisiones que sostienen el desempeño.”

A primera vista, el texto parece correcto, preciso y conceptualmente sólido.

Arquitectura revelada 28/100

Salida copiada Sin contraste Sin revisión Autoría débil

El producto suena competente, pero la huella de proceso es mínima. La IA fue usada como generadora de respuesta, no como instrumento para pensar, contrastar o mejorar.

Prompt directo Solicita una definición terminada sin explicitar criterios propios.

Adopción inmediata No registra dudas, alternativas ni decisiones de edición.

Producto final · Estudiante B Visible

“El sistema de valor es una arquitectura oculta de la competencia porque permite observar no solo el resultado, sino las decisiones que sostienen el desempeño.”

El resultado textual es casi idéntico al anterior. La diferencia aparece al mirar el proceso.

Arquitectura revelada 86/100

Contraste de ideas Chequeo de sesgos Síntesis propia Revisión iterativa

El producto final parece similar, pero fue construido mediante decisiones visibles: comparación, descarte, reformulación y justificación. Aquí la IA amplifica el razonamiento, no lo sustituye.

Exploración inicial Pide alternativas conceptuales y detecta límites de cada una.

Contraste deliberado Compara versiones, identifica sesgos y selecciona criterios.

Síntesis justificada Integra la respuesta final con huella de edición y autoría.

La evaluación cambia cuando mira la arquitectura, no solo el producto.

Si ambos textos reciben la misma nota, la evaluación premia apariencia de competencia. Si se observa la arquitectura de valor, aparece una diferencia decisiva: autoría, trazabilidad, criterio y capacidad de mejora.

Lectura clave: no basta evaluar el producto final generado con apoyo de IA. Es necesario pedir evidencias del proceso: prompts, criterios, versiones, descartes, revisiones y justificación de decisiones.

10. Para EdTech y tomadores de decisión: el futuro no está en corregir más, sino en comprender mejor

Para los equipos directivos de empresas EdTech, este punto es estratégico. La próxima generación de soluciones de evaluación no debería competir solo por velocidad de corrección, dashboards más vistosos o bancos de preguntas más grandes. El verdadero valor estará en sistemas capaces de sostener ciclos formativos profundos.

Una EdTech orientada a evaluación con IA debería responder preguntas como:

¿El sistema ayuda al docente a diseñar mejores evidencias o solo automatiza calificaciones?
¿El estudiante recibe próximos pasos accionables o solo comentarios genéricos?
¿La plataforma permite revisar la evolución del razonamiento o solo acumula notas?
¿La IA explica sus criterios de retroalimentación?
¿El docente conserva control profesional sobre la interpretación final?
¿La herramienta promueve autorregulación o dependencia?
¿Se pueden auditar sesgos, errores y decisiones automatizadas?

La literatura latinoamericana reciente coincide en que la IA puede favorecer retroalimentación inmediata y personalizada, agilizar la recopilación de evidencias, fortalecer la toma de decisiones institucionales y estimular innovación pedagógica; pero también advierte desafíos persistentes como resistencia docente, dependencia tecnológica y desigualdad de acceso (Ortiz et al., 2025; Arteaga et al., 2025). Un estudio ecuatoriano con metodología Delphi encontró que el 74% de los docentes encuestados no había recibido formación específica en IA, lo que genera incertidumbre y resistencia incluso cuando existe disposición a adoptar la tecnología (Dialnet, 2024). La brecha, en otras palabras, no es solo de infraestructura: es de capacitación y de tiempo institucional para apropiarse críticamente de la herramienta.

Por eso, la IA educativa que realmente aporte valor no será la que prometa reemplazar al docente, sino la que lo ayude a ver mejor.

Simulación de retroalimentación

Transmutador de Retroalimentación IA

Convierte un comentario evaluativo estático en una retroalimentación pedagógico-andragógica accionable: explicación, plan de mejora, pregunta metacognitiva y evidencia esperada.

Input tradicional

Comentario estático

Escribe una retroalimentación breve, genérica o centrada en la nota. El simulador mostrará cómo convertirla en una experiencia formativa.

Comentario tradicional

Escribe o selecciona un comentario tradicional para activar la transmutación.

Output formativo

Ecosistema multimodal de mejora

La salida no reemplaza el juicio docente: lo organiza para que el estudiante sepa qué revisar, cómo mejorar y qué evidencia producir.

Esperando un comentario tradicional. El resultado aparecerá como una secuencia de retroalimentación accionable.

Diagnóstico del comentario original Comentario centrado en juicio general, con baja orientación para la acción.

Explicación breve y situada

Parece que tu respuesta identifica el tema, pero todavía no muestra con claridad qué relaciones, tensiones o contrastes sostienen tu análisis.

Plan de acción en tres pasos

1. Subraya tu idea principal. 2. Agrega una evidencia que la respalde. 3. Contrasta tu postura con una alternativa o contraejemplo.

Pregunta metacognitiva

¿Qué parte de tu análisis demuestra comprensión propia y qué parte solo describe información ya disponible?

Evidencia esperada de mejora

Entrega una nueva versión con una idea central explícita, dos evidencias justificadas y una breve explicación de qué cambiaste.

Lectura clave: la IA no debe convertir la evaluación en una fábrica de comentarios bonitos. Debe ayudar a transformar una observación general en una ruta visible de mejora.

11. Una propuesta: evaluación aumentada por IA con retrovisor pedagógico

A partir de los recursos revisados, se puede proponer un marco de evaluación aumentada por IA basado en seis principios.

1. Principio de profundidad. La IA debe usarse para aumentar la calidad de las preguntas, la interpretación de evidencias y la retroalimentación, no solo para acelerar tareas administrativas.

2. Principio de agencia. El estudiante debe usar IA para pensar mejor, no para desaparecer del proceso. Toda interacción evaluativa con IA debería dejar trazas de reflexión, decisión o mejora — y debería diseñarse explícitamente para evitar la dinámica de oráculo, incluso cuando se presenta en formato de preguntas (Frontiers in Education, 2025).

3. Principio de retroalimentación accionable. Todo feedback debe responder tres preguntas: dónde estoy, qué necesito comprender mejor y qué acción concreta puedo realizar ahora.

4. Principio de juicio docente aumentado. La IA puede sugerir, clasificar, detectar patrones y generar borradores, pero el juicio evaluativo profesional debe permanecer en el docente. La evidencia experimental disponible respalda este principio de forma directa: las mejoras de aprendizaje más sólidas se observan precisamente cuando un humano media, adopta, edita o descarta las sugerencias de la IA, no cuando la IA actúa de forma autónoma (Lu et al., 2026).

5. Principio de trazabilidad decisional. La evaluación debe capturar no solo productos finales, sino decisiones, criterios, cambios de posición, justificaciones y revisiones (González Grez, 2025c).

6. Principio de gobernanza transparente. Toda integración de IA en evaluación debe incluir criterios explícitos, información al estudiante, protección de datos, mecanismos de revisión y auditoría institucional (Sustainability, 2026).

Este marco permite evitar dos extremos: el rechazo defensivo de la IA y la automatización ingenua de la evaluación. Entre ambos existe una tercera vía: una evaluación formativa, andragógica y decisional aumentada por IA.

Síntesis operativa

Manifiesto de Evaluación Aumentada

Un marco ético, pedagógico-andragógico y operativo para integrar IA sin vaciar el sentido de la evaluación formativa. No se trata de evaluar más rápido, sino de observar mejor, decidir mejor y acompañar mejor.

La evaluación aumentada no sustituye el juicio humano: lo vuelve más visible, trazable y accionable.

Cada principio funciona como una condición de diseño. Si falta uno, la IA puede acelerar el proceso, pero también empobrecerlo.

Principio 1 de 6

Profundidad antes que velocidad.

Principio 1

Principio de Profundidad

La IA debe usarse para aumentar la calidad de las preguntas, la interpretación de evidencias y la retroalimentación, no solo para acelerar tareas administrativas.

Riesgo si se ignora

Convertir la evaluación en una fábrica eficiente de calificaciones pobres.

Práctica recomendada

Usar IA para identificar patrones de error, generar preguntas de profundización y proponer nuevas evidencias de mejora.

Pregunta de diseño

¿Esta integración de IA ayuda a comprender mejor el aprendizaje o solo reduce tiempo operativo?

12. Cierre: la IA como retrovisor del futuro

La metáfora del bólido tecnológico con retrovisor permite comprender el momento actual. La IA nos da velocidad, pero la velocidad sin dirección puede intensificar el error. El retrovisor no sirve para conducir hacia atrás; sirve para no olvidar de dónde venimos, qué aprendimos y qué investigaciones quedaron esperando condiciones de posibilidad.

Durante décadas, la evaluación formativa nos dijo que la retroalimentación debía ser oportuna, específica, comprensible, dialógica y orientada al futuro (Black & Wiliam, 1998; Wiliam, s. f.). También nos dijo que el estudiante debía actuar sobre esa retroalimentación, que los pares podían ser recursos de aprendizaje, que la autoevaluación era central y que el docente debía usar evidencia para ajustar la enseñanza.

El problema no fue la falta de teoría. Fue la dificultad de implementación sostenida.

La evidencia más reciente —meta-análisis con miles de estudiantes (Kaliisa et al., 2025), ensayos controlados aleatorizados (Lu et al., 2026), revisiones sistemáticas regionales (Ortiz et al., 2025)— no permite afirmar que la IA resuelva automáticamente ese problema de implementación. Lo que sí permite afirmar es algo más matizado y, en el fondo, más útil: la IA no es estructuralmente inferior al feedback humano, puede sostener ciclos de retroalimentación a una escala antes impensable, y produce mejoras reales de aprendizaje precisamente en los diseños donde el juicio humano sigue mediando, decidiendo y dando sentido final al proceso.

Hoy la IA puede habilitar parte de aquello que ya sabíamos. Puede reducir latencias, multiplicar oportunidades de feedback, personalizar rutas, detectar patrones, generar preguntas, apoyar simulaciones, visibilizar decisiones y devolver al docente tiempo para pensar pedagógicamente.

Pero también puede hacer lo contrario: convertir la evaluación en un circuito perfecto de simulación, donde el docente copia, el estudiante copia y la máquina califica lo que otra máquina produjo.

La diferencia no está en la tecnología. Está en el diseño pedagógico, en la gobernanza institucional y en el juicio profesional.

La pregunta de fondo no es si la IA cambiará la evaluación. Ya la está cambiando. La pregunta decisiva es si la usaremos para evaluar más rápido lo mismo de siempre o para recuperar, por fin, la profundidad que la evaluación formativa prometió desde hace décadas.

La IA no debería ser el fin de la evaluación humana. Puede ser el comienzo de una evaluación más humana, precisamente porque libera condiciones para volver a mirar lo que nunca debimos dejar de observar: el pensamiento del estudiante, la calidad de sus decisiones, la transformación de sus criterios y la posibilidad real de aprender a partir de la evidencia.

Dashboard de evaluación aumentada

Bólido Auralis

Simula decisiones de integración de IA y observa cómo cambian velocidad operativa, profundidad pedagógico-andragógica y trazabilidad del aprendizaje.

Equilibrio activo

Indicadores vivos

Tablero de tensión evaluativa

La automatización puede liberar tiempo, pero solo crea valor cuando vuelve al aprendizaje.

Velocidad operativa 20%

Profundidad pedagógico-andragógica 80%

Trazabilidad decisional 65%

Alerta: la velocidad está superando la capacidad de interpretación. El sistema corre el riesgo de producir simulación evaluativa: mucho flujo, poca comprensión.

El retrovisor

Principios que no se deben perder

Cada decisión del simulador activa o debilita estos principios.

1 Profundidad antes que volumen La IA debe ayudar a interpretar evidencias, no solo a procesarlas.
2 Agencia sobre dependencia El estudiante debe permanecer dentro del proceso de pensamiento.
3 Juicio docente mediado La IA sugiere; el criterio profesional decide y contextualiza.

Escenario 1 · Calificación masiva

Habilitar calificación masiva de ensayos

¿Automatizamos la calificación para liberar tiempo, o usamos la IA para generar borradores de feedback que serán revisados y convertidos en diálogo?

Decisión inicial: el sistema está equilibrado. La pregunta no es si usar IA, sino qué vuelve visible y qué vuelve invisible.

Lectura del tablero La integración de IA es saludable cuando la velocidad no supera la profundidad ni borra la trazabilidad del proceso.

La IA puede convertir la evaluación en un circuito vacío de copiar, responder y calificar automáticamente. Pero también puede habilitar algo mucho más profundo: retroalimentación inmediata, diálogo formativo, autorregulación y evaluación de decisiones reales. La evidencia más reciente confirma que la IA no es mágica ni es inferior al juicio humano: amplifica lo que el diseño pedagógico le permite amplificar. El desafío no es usar IA para corregir más rápido, sino para comprender mejor cómo aprende, decide y mejora una persona.

Glosario expandible

30 conceptos clave del Retrovisor Formativo de la IA

Un glosario para leer el artículo con mayor profundidad: conceptos de evaluación formativa, inteligencia artificial, juicio docente, aprendizaje profundo y gobernanza pedagógica.

Evaluación formativa IA educativa Juicio docente Autorregulación Gobernanza Aprendizaje profundo

Evaluación formativa y profundidad pedagógica 01–06

01Evaluación formativa+

Proceso de evaluación orientado a mejorar el aprendizaje mientras ocurre. No se limita a poner una nota: observa avances, errores, criterios y posibilidades de mejora.

Retroalimentación Autorregulación Juicio docente

Relacionado en grezan.cl

02Retrovisor formativo+

Metáfora central del artículo: la IA no solo impulsa hacia adelante, también permite mirar hacia atrás para comprender trayectorias, decisiones, errores y evidencias invisibles.

IA educativa Memoria pedagógica Proceso

03Profundidad evaluativa+

Capacidad de interpretar el aprendizaje más allá del resultado final. Implica mirar cómo piensa, decide, duda, corrige y mejora el estudiante durante el proceso.

Aprendizaje profundo Evidencia Criterios

Relacionado en grezan.cl

04Evaluación como proceso+

Comprensión de la evaluación como acompañamiento continuo, no como acto final. Permite intervenir antes de que el error se consolide o la desconexión se vuelva invisible.

Feedback Trayectoria Mejora

05Evaluación auténtica+

Evaluación situada en problemas reales o verosímiles, donde el estudiante debe tomar decisiones, justificar criterios y transferir conocimientos a contextos complejos.

Competencias Decisión situada Transferencia

Relacionado en grezan.cl

06Memoria pedagógica+

Capacidad de registrar y recuperar evidencias del proceso de aprendizaje para comprender evolución, persistencia de errores, avances y patrones de mejora.

Evidencias Trayectorias IA

Inteligencia artificial aplicada al aprendizaje 07–12

07IA educativa+

Uso de sistemas de inteligencia artificial para apoyar procesos de enseñanza, aprendizaje, retroalimentación, personalización, análisis de evidencias y toma de decisiones educativas.

EdTech Personalización Feedback

Relacionado en grezan.cl

08IA generativa+

Tipo de IA capaz de producir textos, ejemplos, preguntas, explicaciones, simulaciones o retroalimentaciones. Su valor educativo depende del diseño pedagógico que la orienta.

Copilotaje Diseño pedagógico Criterios

Relacionado en grezan.cl

09Copilotaje cognitivo+

Relación humano-IA donde la tecnología no reemplaza el pensamiento, sino que acompaña, tensiona, organiza y amplifica la capacidad de analizar, decidir y aprender.

Juicio aumentado IA generativa Autorregulación

Relacionado en grezan.cl

10Automatización evaluativa+

Uso de tecnología para corregir, clasificar o puntuar con rapidez. El artículo advierte que automatizar no equivale necesariamente a comprender mejor el aprendizaje.

Calificación Riesgo Juicio docente

11Personalización algorítmica+

Adaptación de contenidos, apoyos o rutas según datos del estudiante. Puede ser útil, pero requiere transparencia para evitar encierros, sesgos o simplificaciones.

Datos Sesgo Gobernanza

Relacionado en grezan.cl

12Tutor inteligente+

Sistema que acompaña al estudiante con pistas, explicaciones, preguntas o retroalimentación. Su potencia aumenta cuando está alineado con objetivos y criterios pedagógicos.

Feedback Apoyo adaptativo Aprendizaje autónomo

Relacionado en grezan.cl

Retroalimentación, autorregulación y aprendizaje profundo 13–18

13Retroalimentación inmediata+

Devolución rápida que permite actuar cuando el aprendizaje aún está en curso. Su valor no está solo en la velocidad, sino en la claridad, pertinencia y acción que habilita.

Evaluación formativa IA Mejora

Relacionado en grezan.cl

14Retroalimentación accionable+

Feedback que no solo informa lo que está bien o mal, sino que orienta qué hacer después, cómo mejorar y qué criterio debe atender el estudiante.

Criterios Mejora Autorregulación

15Autorregulación del aprendizaje+

Capacidad del estudiante para monitorear su desempeño, reconocer brechas, ajustar estrategias y tomar decisiones sobre su propio proceso de aprendizaje.

Metacognición Feedback Autonomía

Relacionado en grezan.cl

16Metacognición+

Capacidad de pensar sobre el propio pensamiento. En evaluación con IA, permite que el estudiante no solo reciba una respuesta, sino que comprenda cómo llegó a ella.

Autorregulación Proceso Decisión

17Aprendizaje profundo+

Comprensión que conecta conceptos, criterios y decisiones. Se opone al aprendizaje superficial basado solo en repetición, cumplimiento o respuesta rápida.

Comprensión Transferencia Reflexión

18Trayectoria de aprendizaje+

Secuencia de avances, errores, decisiones y cambios que muestra cómo aprende una persona. La IA puede ayudar a hacer visible esa trayectoria si se usa con sentido formativo.

Memoria pedagógica Proceso Evidencias

Juicio docente, criterios y decisiones 19–24

19Juicio docente+

Capacidad profesional de interpretar evidencias, ponderar contexto, reconocer matices y tomar decisiones pedagógicas. La IA puede apoyar, pero no reemplazar este juicio.

Criterios Ética Gobernanza

20Juicio aumentado+

Uso de IA para ampliar la capacidad de observación y análisis del docente, sin delegar la responsabilidad educativa ni convertir la decisión pedagógica en una salida automática.

Copilotaje IA educativa Responsabilidad

Relacionado en grezan.cl

21Criterios de evaluación+

Referentes que permiten valorar la calidad de una respuesta, producto, decisión o proceso. Sin criterios claros, la IA puede entregar feedback convincente pero pedagógicamente débil.

Rúbricas Feedback Transparencia

22Evaluación decisional+

Enfoque que evalúa no solo resultados, sino las decisiones que toma el estudiante y los procesos cognitivos que las sostienen en contextos reales o inciertos.

Competencias Incertidumbre Proceso

Relacionado en grezan.cl

23Decisión situada+

Decisión tomada en un contexto específico, con restricciones, información incompleta y consecuencias. Es clave para evaluar competencias más allá de respuestas abstractas.

Evaluación auténtica Contexto Competencia

Relacionado en grezan.cl

24Rúbrica inteligente+

Rúbrica enriquecida con IA para orientar análisis, feedback y mejora. No debe convertirse en automatismo cerrado: necesita criterios interpretables y revisión docente.

Criterios IA Feedback

Ética, gobernanza y riesgos pedagógicos 25–30

25Gobernanza de IA+

Conjunto de decisiones, criterios y responsabilidades que regulan cómo se usa la IA. En educación, implica transparencia, cuidado de datos, revisión humana y sentido pedagógico.

Ética Transparencia Responsabilidad

Relacionado en grezan.cl

26Transparencia algorítmica+

Necesidad de comprender, explicar y comunicar cómo interviene la IA en una evaluación. El estudiante debe saber qué se analiza, con qué criterios y con qué límites.

Confianza Datos Ética

27Sesgo algorítmico+

Distorsión que puede aparecer cuando un sistema reproduce patrones injustos, incompletos o descontextualizados. En evaluación, puede afectar interpretaciones y oportunidades.

Justicia Datos Gobernanza

28Dependencia cognitiva+

Riesgo de que el estudiante o docente delegue demasiado en la IA y pierda capacidad de analizar, decidir, argumentar o sostener criterios propios.

Autonomía Metacognición Riesgo

29EdTech+

Campo de tecnologías educativas orientadas a enriquecer enseñanza, aprendizaje, evaluación y gestión educativa. El artículo invita a pasar del uso instrumental al uso pedagógico crítico.

Tecnología educativa IA Innovación

Relacionado en grezan.cl

30Diseño pedagógico con IA+

Planificación intencional del uso de IA según objetivos, evidencias, criterios, actividades y retroalimentación. Sin diseño, la IA puede acelerar prácticas pobres en lugar de transformarlas.

MEI Andragogía Heutagogía

Relacionado en grezan.cl

Referencias

Evidencia empírica y meta-analítica reciente (2023-2026)

Adıgüzel, A., Esen, A. C., & Karagöl, S. (2025). The impact of online feedback on student learning outcomes: a meta-analysis. Asia Pacific Education Review. https://doi.org/10.1007/s12564-025-10099-2

Amén Mora, P. G., Rincón Zambrano, R. A., Molineros Ronquillo, J. del R., & Bacusoy Sánchez, J. M. (2025). Evaluación formativa automatizada con IA en educación superior. Revista Científica de Innovación Educativa y Sociedad Actual “ALCON”, 5(4), 539–553. https://doi.org/10.62305/alcon.v5i4.782

Fleckenstein, J., Liebenow, L. W., & Meyer, J. (2023). Automated feedback and writing: a multi-level meta-analysis of effects on students’ performance. Frontiers in Artificial Intelligence, 6, 1162454. https://doi.org/10.3389/frai.2023.1162454

Kaliisa, R., Misiejuk, K., López-Pernas, S., & Saqr, M. (2025). How does artificial intelligence compare to human feedback? A meta-analysis of performance, feedback perception, and learning dispositions. Educational Psychology. https://doi.org/10.1080/01443410.2025.2553639

Lu, X., Ju, W., Dudley, J., Sano, A., & Wang, D. (2026). AI-mediated feedback improves student revisions: A randomized trial with FeedbackWriter in a large undergraduate course. Proceedings of CHI ’26. https://doi.org/10.1145/3772318.3791121

Yang, J., Kim, S., Rondinelli, M., & Shao, Z. (2025). Pensieve Grader: An AI-powered, ready-to-use platform for effortless handwritten STEM grading. arXiv preprint arXiv:2507.01431.

Zhang, K. (2025). Enhancing critical writing through AI feedback: A randomized control study. Behavioral Sciences, 15(5), 600. https://doi.org/10.3390/bs15050600

Autorregulación, metacognición y agencia estudiantil

Becerra, D., Andres, M., Villegas, M., Daza, B., & Cobos, R. (2025). MOSAIC-F: A framework for enhancing students’ oral presentation skills through personalized feedback. arXiv preprint arXiv:2506.08634.

Frontiers in Education. (2025). The cognitive mirror: A framework for AI-powered metacognition and self-regulated learning. Frontiers in Education. https://doi.org/10.3389/feduc.2025.1697554

arXiv. (2026). AI tutoring can safely and effectively support students: An exploratory RCT in UK classrooms. arXiv preprint arXiv:2512.23633.

Educational Psychology Review. (2026). Enhancing school students’ self-regulated learning through generative AI support: A randomized controlled trial. Educational Psychology Review. https://doi.org/10.1007/s10648-026-10133-8

arXiv. (2026). LLM-based multimodal feedback produces equivalent learning and better student perceptions than educator feedback. arXiv preprint arXiv:2601.15280.

Frontiers in Education. (2026). Artificial intelligence as a scaffolding tool for self-directed learning in ODeL environments. Frontiers in Education. https://doi.org/10.3389/feduc.2026.1793940

Gobernanza, ética y equidad

Discover Education. (2025). Ethics and governance of generative AI in education: A systematic review on responsible adoption. Discover Education. https://doi.org/10.1007/s44217-025-01051-y

Frontiers in Education. (2026). Institutional approaches to generative AI management in higher education: A systematic review. Frontiers in Education. https://doi.org/10.3389/feduc.2026.1814426

Education Sciences. (2026). Six institutional intervention areas to support ethical and effective student use of generative AI in higher education. Education Sciences, 16(1), 137. https://www.mdpi.com/2227-7102/16/1/137

Sustainability. (2026). Sustainable AI-driven assessment in higher education: A systematic review of fairness, transparency, pedagogical innovation, and governance. Sustainability, 18(2), 785. https://doi.org/10.3390/su18020785

Frontiers in Education. (2026). A systematic critical review of generative AI’s impact on authorship, pedagogy, and integrity (2023-2025). Frontiers in Education. https://doi.org/10.3389/feduc.2026.1769680

Evaluación auténtica y de procesos

Arandu UTIC. (2025-2026). Evaluación auténtica en la era de la IA: estrategias para la integridad académica. Arandu UTIC.

arXiv. (2025). Hybrid instructor AI assessment in academic projects: Efficiency, equity, and methodological lessons. arXiv preprint arXiv:2510.22286.

arXiv. (2025). The AI tutor in engineering education: Design, results, and redesign of an experience in hydrology at an Argentine university. arXiv preprint arXiv:2510.22279.

LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades. (2025). El rol del docente universitario en la evaluación del aprendizaje real en tiempos de inteligencia artificial. LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades.

Revisiones sistemáticas latinoamericanas

Ortiz, D. D., Muñoz-Vera, J. V., Vera-Angulo, M. I., & Del Campo, G. (2025). Revisión sistemática del uso de inteligencia artificial en la evaluación del desempeño docente en la educación superior latinoamericana. Revista Científica Arbitrada de Investigación en Comunicación, Marketing y Empresa REICOMUNICAR, 8(16), 448–464.

Revista Realidad Educativa. (2025). Docencia e inteligencia artificial generativa en educación superior en América Latina: Focos y vacíos de la investigación emergente (revisión sistemática 2023-2025). Revista Realidad Educativa, Universidad Finis Terrae.

Ciencia Latina Revista Científica Multidisciplinar. (2024-2025). Inteligencia artificial generativa (IA Gen) en la transformación digital de la educación superior: Una revisión sistemática de literatura. Ciencia Latina Revista Científica Multidisciplinar.

Revista Espacios. (2025). Revisión sistemática de inteligencia artificial generativa (GenIA) para el diseño de experiencias de aprendizaje, 2020-2025. Revista Espacios, 46(3).

Revista Espacios / SciELO Venezuela. (2025). Inteligencia artificial generativa en educación superior: Una revisión sistemática de literatura hispanohablante. Revista Espacios.

Brechas de acceso, resistencia docente y dependencia tecnológica

ANUIES / OIIAES. (2025). Encuesta Nacional sobre Usos y Percepciones de la IA Generativa (ENIAG). Asociación Nacional de Universidades e Instituciones de Educación Superior.

RIED-Revista Iberoamericana de Educación a Distancia. (2025). IA generativa y pensamiento crítico en la educación universitaria a distancia: Desafíos y oportunidades. RIED-Revista Iberoamericana de Educación a Distancia, 28(2), 233–273.

Arteaga, et al. (2025). La inteligencia artificial en la educación: Desafíos y oportunidades. South Florida Journal of Development, 6(5), e5219. https://doi.org/10.46932/sfjdv6n5-006

Dialnet. (2024). Desafíos y retos de la inteligencia artificial en la educación. Ecuador.

Referencias clásicas sobre evaluación formativa y retroalimentación

Anijovich, R. (2019). Orientaciones para la formación docente y el trabajo en el aula: Retroalimentación formativa. SUMMA / Fundación La Caixa.

Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7–74. https://doi.org/10.1080/0969595980050102

Black, P., & Wiliam, D. (2018). Classroom assessment and pedagogy. Assessment in Education: Principles, Policy & Practice, 25(6), 551–575.

Wiliam, D. (s. f.). Assessment for learning: Why, what and how?

Wisniewski, B., Zierer, K., & Hattie, J. (2020). The power of feedback revisited: A meta-analysis of educational feedback research. Frontiers in Psychology, 10, 3087. https://doi.org/10.3389/fpsyg.2019.03087

Producción propia (grezan.cl)

González Grez, A. (2024, 15 de mayo). Evaluación por competencias en la era de la IA: ¿Qué oportunidades tiene la docencia? Grezan. https://grezan.cl

González Grez, A. (2025a, 8 de septiembre). Matrices de decisión, evidencias de competencia: Un enfoque de evaluación. Grezan. https://grezan.cl

González Grez, A. (2025b, 31 de julio). La evaluación andragógica: Más allá de la rúbrica rígida. Grezan. https://grezan.cl

González Grez, A. (2025c, 8 de septiembre). Matrices de decisión, evidencias de competencia: Un enfoque de evaluación. Grezan. https://grezan.cl

González Grez, A. (2025d, 11 de diciembre). Hacia una evaluación decisional y heurística de competencias en la era de la IA: Del modelo extractivo a un enfoque situado, andragógico y probabilístico. Grezan. https://grezan.cl

González Grez, A. (2025e, 14 de diciembre). La decisión como unidad mínima observable de la competencia: Del bloque fragmentado a las decisiones vivas. Grezan. https://grezan.cl

González Grez, A. (2025f, 15 de diciembre). Evaluación decisional y futures thinking: Un marco para medir competencias auténticas en contextos de incertidumbre. Grezan. https://grezan.cl

González Grez, A. (2026, 30 de abril). El sistema de valor como arquitectura oculta de la competencia: Decisión situada, cálculo neurocognitivo y evaluación decisional. Grezan. https://grezan.cl

González Grez, A. (s. f.). Fundamentos teóricos de la diferenciación andragógica. Grezan. https://grezan.cl

#AprendizajeProfundo #Autorregulación #EdTech #EvaluaciónConIA #EvaluaciónDecisional #EvaluaciónFormativa #IAEducativa #InteligenciaArtificial #JuicioDocente #Retroalimentación

El retrovisor formativo de la IA

Superar la lógica de la calificación automática

Recuperar la evaluación formativa

Proteger el juicio docente

Resumen

Evaluar con IA no es acelerar la calificación: es recuperar la profundidad perdida de la evaluación formativa

1. El retrovisor: la evaluación formativa no nació con la IA

✓ Retroalimentación Correctiva / El final del camino

Riesgo: La IA Superficial

Impacto en el Aprendizaje

↔ Retroalimentación Formativa / El acto dialógico

El estudiante como usuario

Oportunidad: La IA Integrada

∞ Retroalimentación Sostenible / El sistema de valor

A La IA como Arquitectura de Profundidad

2. El problema no es que la IA evalúe: el problema es qué entiende por evaluar

Simulador Evaluativo

3. Lo que la IA habilita: feedback inmediato, criterial y accionable

4. De la retroalimentación escrita al ecosistema multimodal de mejora

Evidencia del desempeño

5. IA y autorregulación: el estudiante no como usuario, sino como agente

6. Gobernanza: sin transparencia, la evaluación con IA pierde legitimidad

7. La evaluación andragógica: más allá de la rúbrica rígida — y un vacío que conviene declarar

8. La decisión como unidad mínima observable de la competencia

Gestión de riesgo hidrológico

—

Análisis de la huella decisional

9. Del artefacto al sistema de valor

La evaluación cambia cuando mira la arquitectura, no solo el producto.

10. Para EdTech y tomadores de decisión: el futuro no está en corregir más, sino en comprender mejor

Comentario estático

Ecosistema multimodal de mejora

Explicación breve y situada

Plan de acción en tres pasos

Pregunta metacognitiva

Evidencia esperada de mejora

11. Una propuesta: evaluación aumentada por IA con retrovisor pedagógico

Principio de Profundidad

12. Cierre: la IA como retrovisor del futuro

Tablero de tensión evaluativa

Principios que no se deben perder

Habilitar calificación masiva de ensayos

30 conceptos clave del Retrovisor Formativo de la IA

Leave a Reply Cancel Reply

Retroalimentación Correctiva / El final del camino

Retroalimentación Formativa / El acto dialógico

Retroalimentación Sostenible / El sistema de valor

La IA como Arquitectura de Profundidad