Cuando medir no es comprender

Autopercepción, simulacro empírico y el vacío formativo en el desarrollo de competencias digitales docentes

Sobre el doble estándar metodológico que privilegia el alarmismo fragmentado sobre la transformación documentada

I. Introducción

Durante la última década, el desarrollo de competencias digitales docentes se ha convertido en un campo prolífico de producción académica. Instrumentos, escalas, marcos y cuestionarios se multiplican con una promesa implícita: medir para mejorar. Sin embargo, a fuerza de medir, algo se ha ido perdiendo en el camino. No la rigurosidad —que abunda—, sino la capacidad real de comprender y transformar la formación docente.

Este ensayo no busca descalificar la investigación educativa ni negar el valor de los datos. Busca algo más incómodo: preguntar qué tipo de evidencia estamos aceptando como válida, y qué consecuencias tiene eso para el diseño curricular, la práctica pedagógica y la formación inicial docente.

Pero este ensayo no solo cuestiona la validez de instrumentos autoperceptivos. Cuestiona toda una arquitectura de legitimación académica que, paradójicamente, aplica doble estándar: rigor metodológico extremo para rechazar propuestas transformadoras que carecen de “numeritos”, y laxitud epistemológica para publicar estudios alarmistas con muestras ridículas que luego se presentan como “evidencia científica” de tendencias globales. Hopkins & Searles (2023) lo llaman “recalcitrant institutional forces” —fuerzas institucionales recalcitrantes— que neutralizan el potencial transformador de la investigación educativa, manteniendo una maquinaria académica que describe síntomas sin tocar causas estructurales.

La Arquitectura de la Legitimación Académica

II. El espejismo de la evidencia empírica ligera

Instrumentos basados en autopercepción, como los ampliamente utilizados en estudios recientes sobre competencia digital docente, producen números, medias, desviaciones estándar y diferencias estadísticamente significativas. El problema no está en el cálculo, sino en la interpretación epistemológica que se hace de esos resultados.

Cuando una escala de autopercepción se presenta como evidencia empírica suficiente para inferir niveles de competencia, ocurre un desplazamiento silencioso pero grave: la representación subjetiva se confunde con la capacidad profesional real.

No estamos midiendo decisiones pedagógicas, ni diseño de experiencias de aprendizaje, ni criterios de selección tecnológica en contextos reales. Estamos midiendo cómo los sujetos se ven a sí mismos dentro de un marco discursivo previamente legitimado. Eso no es irrelevante, pero tampoco es evidencia fuerte de competencia.

El problema aparece cuando estos datos se usan para sostener afirmaciones estructurales, diagnósticos formativos amplios o recomendaciones curriculares profundas. Allí, el dato deja de describir y empieza a simular comprensión.

La crisis no está en los números per se, sino en su interpretación epistemológica. Duckworth et al. (2024) demuestran que cuando se controlan medidas conductuales objetivas en investigación educativa, los instrumentos autoperceptivos pierden significancia estadística — el método estaba midiendo ruido, no competencia. Más grave aún, Hübner et al. (2022) documentan el “reference bias”: estudiantes en contextos de alto rendimiento se autoevalúan más bajo que estudiantes objetivamente menos competentes en contextos de bajo rendimiento, porque calibran relativamente a sus pares inmediatos. Esto destruye la comparabilidad entre instituciones, regiones, países — precisamente lo que estos estudios pretenden establecer.

El problema estructural, como advirtió Messick (1989), es la “construct-irrelevant variance”: cuando el instrumento mide desirabilidad social, normas contextuales o comprensión del lenguaje del cuestionario en lugar del constructo teórico declarado. No es ruido estadístico – es invalidez epistemológica.

El Espejismo de la Evidencia "Empírica"

III. El ritual académico del “micro-hallazgo”

Una dinámica se repite con inquietante regularidad en la literatura:

  1. Se aplica un instrumento de autopercepción.
  2. Se identifican diferencias estadísticamente significativas menores.
  3. Se sobredimensiona el hallazgo mediante un lenguaje técnico-conclusivo.
  4. El artículo cierra con una promesa: “en futuras investigaciones se profundizará…”

Este cierre no es una limitación honesta; es un modelo de producción académica. Un sistema que premia la fragmentación del conocimiento, la acumulación de papers y la postergación indefinida de lo esencial: intervenir el diseño real de la formación docente.

Pero la verdadera pregunta es: ¿por qué este modelo persiste si es epistemológicamente estéril? Myers et al. (2024) documentan que el sistema “publish or perish” transforma la investigación en industria de producción de papers, no de conocimiento. El físico Peter Higgs, descubridor del bosón que lleva su nombre, declaró que bajo las presiones actuales de productividad, “no conseguiría empleo académico” porque “no sería considerado suficientemente productivo” (citado en Rahman, 2024).

La evidencia cuantitativa es devastadora: Agrawal (2014) reporta que 55% de artículos en las revistas científicas más prestigiosas nunca reciben una sola citación. De los que sí, 42% reciben solo una cita, y entre 5-25% son autocitaciones. La mayoría de la producción académica nace y muere sin impacto — pero cumplió su función: engrosar el CV, asegurar la plaza, mantener la métrica institucional.

Así, la investigación educativa corre el riesgo de convertirse en una maquinaria que describe síntomas sin tocar causas, y que legitima su propia inercia bajo el amparo del método.

El Ritual Académico del Micro Hallazgo

IV. Cuando el método reemplaza al pensamiento

La estadística no es el problema. El problema es su fetichización.

En educación, el método ha pasado a ser garantía de verdad, incluso cuando el fenómeno medido es débil, indirecto o conceptualmente mal definido.

Una escala Likert no convierte una percepción en competencia.
Un ANOVA no transforma una opinión en evidencia de desempeño.

La crisis de replicación pone en evidencia las consecuencias de esta fetichización metodológica. Camerer et al. (2018) replicaron 21 estudios publicados en Nature y Science —las revistas más prestigiosas del mundo: solo 62% se replicaron, con tamaños de efecto al 50% del original. Hedges (2024) lo llama “crisis existencial para la ciencia”. Brodeur et al. (2024) demuestran que el sistema genera incentivos perversos: resultados marginalmente significativos en tesis doctorales se asocian con mejores empleos académicos, incentivando prácticas cuestionables sobre rigor metodológico.

¿Y en educación? Maksimović (2023) sintetiza la crítica fundamental: el positivismo asume que fenómenos educativos son objetivamente medibles como fenómenos naturales, ignorando que la enseñanza y el aprendizaje son contextualmente situados, interpretativamente construidos y cargados de valor. Aplicar mecánicamente métodos de ciencias naturales a fenómenos sociales no es rigor — es error categorial.

Sin embargo, el lenguaje académico suele operar como si así fuera. Y ese desplazamiento tiene consecuencias: currículos que se ajustan a indicadores autoperceptivos, políticas formativas que responden a promedios, y programas de formación que confunden sentirse competente con ser capaz de diseñar, decidir y actuar pedagógicamente.

Cuando el método reemplaza al pensamiento

V. El doble estándar: alarmismo con muestras ridículas vs. transformación sin “numeritos”

Aquí se revela la contradicción más obscena del sistema: el mismo rigor metodológico que se invoca para rechazar propuestas transformadoras desaparece mágicamente cuando se trata de publicar estudios alarmistas.

Consideremos el caso paradigmático del estudio “Your Brain on ChatGPT” del MIT Media Lab (2025). El estudio concluyó que el uso de ChatGPT en tareas de escritura reduce la actividad cerebral y genera “deuda cognitiva”, afirmando que provoca menor activación neuronal y dificultades en la memoria. Los titulares fueron devastadores: “ChatGPT pudre tu cerebro”, “deterioro cognitivo por IA”. El estudio se volvió viral en junio de 2025, amplificado por medios como Euronews y redes sociales.

Examinemos el “rigor metodológico” de este estudio ampliamente difundido:

  • Muestra: 54 participantes adultos. De esos, solo 18 completaron todas las sesiones.
  • Diseño: Cuatro meses de duración, tres grupos (ChatGPT, buscador, control), medición con EEG.
  • Revisión por pares: Ninguna. El estudio es preliminar, sin peer review.
  • Causalidad: No probada. Solo muestra correlación entre uso de ChatGPT y menor engagement en tareas específicas.
  • Generalización: De 18 personas que completaron el estudio a conclusiones sobre “daño cerebral” global.

Como señalan los críticos en The Conversation (Shukla, 2025), el estudio es sensacionalista: no prueba daño permanente, solo menor conectividad cerebral durante tareas específicas. La conclusión “ChatGPT pudre tu cerebro” es injustificada por la evidencia presentada.

Sin embargo, este estudio metodológicamente débil:
✓ Se publicó desde una institución prestigiosa
✓ Generó cobertura mediática masiva
✓ Se cita como “evidencia científica”
✓ Alimenta políticas restrictivas sobre IA en educación

Ahora, el contraste:

Cuando una propuesta pedagógica documentada, con fundamentación teórica robusta, diseño curricular coherente, evidencia cualitativa de múltiples casos y validación en práctica real se presenta sin muestra estadística n > 30 y p < 0.05, la respuesta institucional es:

✗ “No es riguroso”
✗ “Falta evidencia empírica”
✗ “No es generalizable”
✗ “Necesitamos números”
✗ Rechazo editorial

El absurdo es estructural y sistemático:

Estudios alarmistas:
18 personas + sin peer review + conclusiones globales + titulares sensacionalistas = publicado + difundido + citado como “ciencia”

Propuestas transformadoras:
Marco teórico robusto + diseño curricular documentado + validación en práctica + coherencia metodológica + sin muestra estadística = “anecdótico”, “no generalizable”, “falta rigor”

Schlicht-Schmälzle et al. (2024) documentan este “persistent gap” entre investigación y práctica educativa: la investigación no está diseñada para transformar, sino para publicar. Joyce & Cartwright (2020) lo expresan con claridad quirúrgica: los estudios experimentales establecen causalidad en poblaciones específicas, no predicen efectividad en contextos diferentes.

El salto epistemológico de “18 personas en MIT mostraron menor conectividad cerebral” a “ChatGPT causa daño cerebral global” es metodológicamente injustificable — pero se acepta si genera alarma institucional y clicks mediáticos.

La crisis del peer review documentada por NISO (2024) permite que estudios metodológicamente débiles pasen como “investigación legítima” cuando confirman narrativas institucionales (en este caso: “la IA es peligrosa”) o generan visibilidad. El mismo sistema que rechaza innovación pedagógica por “falta de rigor” amplifica alarmismo estadístico con muestras ridículas y sin revisión por pares.

Esto no es ciencia. Es simulacro de ciencia que preserva jerarquías académicas, genera capital simbólico institucional (publicidad para MIT Media Lab), y bloquea transformación pedagógica real mientras alimenta pánico moral sobre tecnologías emergentes.

La pregunta incómoda es: ¿Por qué un estudio de 18 personas sin peer review sobre “daño cerebral por ChatGPT” se difunde globalmente, mientras propuestas pedagógicas documentadas con centenares de horas de implementación se rechazan por “falta de evidencia”?

La respuesta: porque el sistema no valida conocimiento por su capacidad de transformar práctica, sino por su capacidad de generar publicaciones indexables y narrativas institucionales.

El doble estándar académico

VI. La brecha investigación-práctica como síntoma sistémico

La consecuencia estructural de este simulacro metodológico es la imposibilidad de aplicar la investigación educativa en práctica real.

Broekkamp & van Hout-Wolters (2007) identificaron el problema hace casi dos décadas: investigadores persiguen generalización, educadores necesitan soluciones situadas. Palmer & Perry (2024) demuestran el trade-off fundamental: incrementar control experimental reduce validez ecológica — lo que es metodológicamente “riguroso” es prácticamente inaplicable.

Pero hay algo más profundo. Como advirtió Messick (1989, 1994), validez no es solo evidencial sino consecuencial: incluye las implicaciones de valor y las consecuencias sociales del uso de instrumentos. Un test puede ser técnicamente impecable y socialmente destructivo. Una medición puede ser estadísticamente significativa y pedagógicamente irrelevante.

El gap investigación-práctica no es problema de “transferencia” o “comunicación”. Es consecuencia epistemológica de un paradigma que privilegia:

  • Validez interna sobre relevancia contextual
  • Medición sobre comprensión estructural
  • Fragmentación sobre coherencia sistémica
  • Publicabilidad sobre aplicabilidad

Young & Diem (2024) documentan cómo el positivismo dominante en política educativa falló sistemáticamente en considerar dinámicas de poder, experiencia vivida y consecuencias reales de las intervenciones. No por falta de método, sino por fetichización del método que invisibiliza lo que no puede cuantificarse.

La brecha investigación - práctica: Un síntoma sitémico, no un problema de comunicación

VII. Conocimiento abierto vs. conocimiento indexado: epistemologías en disputa

La crítica anterior nos conduce a una pregunta incómoda: ¿existe otra forma de validar conocimiento educativo?

La respuesta es sí — y está ocurriendo fuera de las revistas indexadas.

Los Recursos Educativos Abiertos (OER) representan una epistemología radicalmente distinta: conocimiento que se construye públicamente, se somete a escrutinio colectivo, se itera continuamente y se mejora rizomáticamente. No es “paper que se publica y abandona” — es proceso vivo de co-construcción.

Pero el sistema académico no lo reconoce. Dube et al. (2024) exponen que los criterios de legitimación editorial favorecen la hegemonía del Norte Global — conocimiento del Sur sin indexación equivale a conocimiento inexistente, sin importar su calidad o impacto real. Los sistemas de “legitimidad” son construcciones políticas, no métricas universales de calidad.

NISO (2024) documenta la paradoja del open access: prometió democratizar conocimiento, generó explosión de artículos con revisión inconsistente y nuevos costos que excluyen instituciones menos affluentes. La “apertura” reproduce inequidades estructurales cuando se implementa dentro de la lógica comercial de publicación.

Weimer et al. (2023) encuentran que métricas de “open scholarship” se concentran en outputs de investigación, ignorando educación, formación, recursos pedagógicos. El sistema de reconocimiento académico está desbalanceado hacia lo que genera capital simbólico indexado, no hacia lo que transforma práctica educativa.

La alternativa no es “indexarse o morir”. Es construir otras infraestructuras de validación:

  • Peer review público y transparente
  • Iteración continua basada en uso real
  • Co-construcción con comunidades educativas
  • Documentación exhaustiva de diseño y decisiones
  • Evidencia de impacto en práctica, no solo en journals

Esto no es “menos riguroso” — es epistemológicamente distinto. Privilegia coherencia sobre correlación, transformación sobre publicación, comunidad sobre citación.

Formas de Construir y validar conocimiento educativo

VIII. Otra forma de evidencia: comprender el diseño, no solo medir sujetos

Frente a este escenario, es legítimo —y necesario— proponer otra aproximación. No menos científica, sino epistemológicamente distinta.

Analizar el desarrollo de competencias digitales docentes no exige únicamente medir percepciones. Exige:

Examinar cómo se estructura el currículo
Qué decisiones habilita y cuáles bloquea
Qué tipo de docente produce el sistema formativo
Qué lugar ocupa la tecnología: instrumento, estrategia o mediación pedagógica

Esta evidencia no siempre se expresa en números. Se construye en la coherencia entre marcos, diseño curricular, experiencias de aprendizaje y prácticas reales. Es una evidencia estructural, no autodeclarativa.

Esta evidencia estructural requiere otras formas de validación. No cuestionarios, sino análisis de:

  • Coherencia entre marco conceptual y diseño curricular (Messick, 1989)
  • Decisiones pedagógicas habilitadas vs. bloqueadas por el sistema formativo
  • Tipo de docente que produce el diseño institucional actual
  • Lugar que ocupa la tecnología: ¿instrumento, estrategia o mediación pedagógica?

Esto es evidencia arquitectónica, no autodeclarativa. Se construye en la consistencia teórico-práctica, no en promedios de escalas Likert. Y requiere competencias que el sistema actual no incentiva: capacidad de análisis curricular profundo, comprensión de diseño formativo, visión sistémica de procesos educativos.

Comprender el diseño, no solo medir sujetos

IX. De la crítica a la co-construcción

Criticar este estado de cosas no implica deslegitimar la investigación ni oponer “opinión” a “ciencia”. Implica reorientar la pregunta.

No se trata de saber cuánto se perciben competentes los futuros docentes.
Se trata de saber qué decisiones son capaces de tomar cuando enfrentan contextos complejos, tecnologías ambiguas y escenarios pedagógicos reales.

La formación inicial docente necesita menos papers que describan percepciones y más marcos que orienten diseño formativo, liderazgo curricular y coherencia institucional. Necesita menos erudición autocontenida y más conocimiento que se haga cargo de transformar.

El conocimiento educativo que necesitamos no cabe en el formato “paper indexado con p < 0.05”. Se construye en la iteración pública, el escrutinio colectivo, la documentación exhaustiva y la validación por impacto en práctica real.

No necesita menos rigor — necesita otro rigor: el de la coherencia conceptual, la consistencia metodológica, la honestidad sobre limitaciones, la transparencia en decisiones de diseño, y el compromiso con transformación sobre publicación.

Porque al final, la pregunta no es “¿está indexado?”. La pregunta es: ¿transforma la formación docente? Y esa respuesta no la dan los numeritos.

De la crítica a la co-construcción

X. Cerrar el círculo: medir, sí — pero después de comprender

La estadística tiene un lugar. Pero no es el punto de partida, ni puede seguir siendo el sustituto de la comprensión profunda.

Primero se diseña, se observa, se interviene y se comprende.
Luego —si tiene sentido— se mide.

Invertir ese orden ha generado una ilusión de avance académico y un estancamiento práctico en la formación docente. Romper ese ciclo no es un gesto contra la academia. Es, quizás, un gesto a favor de su sentido original.

El circulo se cierra cuando la medición sirve a la comprensión, no al revés
Referencias
Agrawal, A. (2014). Publish or perish: Where are we heading? Journal of Research in Medical Sciences, 19(2), 87-89. https://pmc.ncbi.nlm.nih.gov/articles/PMC3999612/
Brodeur, A., Cook, N., Hartley, J. S., & Heyes, A. (2024). Incentives and the replication crisis in social sciences: A critical review of open science practices. Research Policy, 53(9), 104642. https://doi.org/10.1016/j.respol.2024.104642
Broekkamp, H., & van Hout-Wolters, B. (2007). The gap between educational research and practice: A literature review, symposium, and questionnaire. Educational Research and Evaluation, 13(3), 203-220.
Camerer, C. F., Dreber, A., Holzmeister, F., Ho, T. H., Huber, J., Johannesson, M., … & Wu, H. (2018). Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour, 2(9), 637-644.
Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281-302.
Dube, N., Deville, J., & Fathallah, J. (2024, septiembre). Equity in Open Access scholarly publishing: A reflection on OASPA 2024. Presentado en Open Access Scholarly Publishers Association Conference, Lisboa, Portugal. https://openbookcollective.pubpub.org/pub/equity-in-open-access-scholarly-publishing-a-reflection-on-oaspa-2024/release/1
Duckworth, A. L., Galla, B. M., Tsukayama, E., Milkman, K., & Eskreis-Winkler, L. (2024). Beyond self-report: A simple trait measure based on a behavioral task predicts real-world outcomes. Educational Psychology Working Papers, 24-900. https://files.eric.ed.gov/fulltext/ED664524.pdf
Euronews (2025, junio 25). Estudio del MIT: ChatGPT podría causar deterioro cognitivo. https://es.euronews.com/next/2025/06/25/estudio-del-mit-chatgpt-podria-causar-deterioro-cognitivo
Hedges, L. (2024, febrero 28). An existential crisis for science. Institute for Policy Research, Northwestern University. https://www.ipr.northwestern.edu/news/2024/an-existential-crisis-for-science.html
Hopkins, L., & Searles, C. (2023). Societal impacts of higher education research: From ‘publish or perish’ to ‘publish and prosper’ in business school scholarship. Sustainability, 15(13), 10718. https://doi.org/10.3390/su151310718
Hübner, N., Wagner, W., Hofer, M., & Nagengast, B. (2022). Large studies reveal how reference bias limits policy applications of self-report measures. Scientific Reports, 12, 19276. https://doi.org/10.1038/s41598-022-23373-9
Joyce, K. E., & Cartwright, N. (2020). Bridging the gap between research and practice: Predicting what will work locally. American Educational Research Journal, 57(3), 1045-1082.
Maksimović, J., & Evtimov, M. (2023). Positivism and post-positivism as the basis of quantitative research in pedagogy. Research in Pedagogy, 13(1), 208-218. https://doi.org/10.5937/IstrPed2301208M
Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-103). New York: Macmillan.
Messick, S. (1994). The interplay of evidence and consequences in the validation of performance assessments. Educational Researcher, 23(2), 13-23.
MIT Media Lab (2025). Your brain on ChatGPT. https://www.media.mit.edu/projects/your-brain-on-chatgpt/overview/
Myers, K. R., Lakhani, K. R., Tham, W. Y., Xu, Y., & Cohodes, N. (2024). Publish or perish: What the research says about productivity in academia. Harvard Business School Working Knowledge. https://hbswk.hbs.edu/item/publish-or-perish-what-the-research-says-about-productivity-in-academia
NISO (2024). Access to science and scholarship 2024: Building an evidence base to support the future of open research policy. https://www.niso.org/niso-io/2024/11/access-science-and-scholarship-2024
Palmer, L. R. J., & Perry, R. C. (2024). Evaluating what works in the classroom: Best practice and future opportunities. Educational Research Preprint. https://doi.org/10.31234/osf.io/preprint
Rahman, Z. (2024, abril 12). Our ‘publish-or-perish’ culture is breaking the academy. Brown Daily Herald. https://www.browndailyherald.com/article/2024/04/rahman-26-our-publish-or-perish-culture-is-breaking-the-academy
Schlicht-Schmälzle, R., Klein, E. D., Phelps, D. G., & Wenz, S. E. (2024). Bridging the research-practice gap in education: Initiatives from 3 OECD countries. OECD Education Working Papers, No. 319. https://doi.org/10.1787/c0d3f781-en
Shukla, P. (2025, junio). MIT researchers say using ChatGPT can rot your brain. The truth is a little more complicated. The Conversation. https://theconversation.com/mit-researchers-say-using-chatgpt-can-rot-your-brain-the-truth-is-a-little-more-complicated-259450
Weimer, V., Heck, T., van Leeuwen, T., & Rittberger, M. (2023). The quantification of open scholarship—A mapping review. Quantitative Science Studies, 4(3), 650-670. https://doi.org/10.1162/qss_a_00266
Young, M. D., & Diem, S. (2024). The vital necessity of critical education policy research. Educational Researcher, 53(3), 123-135. https://doi.org/10.3102/0013189X241239985
Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos requeridos están marcados *