El espejismo de comprensión que produce la IA generativa

08 mayo 2026
Las herramientas de IA generativa permiten completar tareas sin esfuerzo, lo que podría fomentar la pereza cognitiva y metacognitiva en el alumnado (img.: iStock).

Un estudio sobre la capacidad del alumnado de secundaria para gestionar con solvencia las herramientas de IA generativa en tareas de investigación científica revela un patrón de dependencia excesiva, que no ayuda a evaluar críticamente las respuestas de la IA ni a regular las estrategias subsiguientes. El estudio propone entrenar al alumnado con estrategias de regulación metacognitiva, necesarias para un aprendizaje significativo y sostenible en el manejo de los modelos conversacionales de IA.

En unas jornadas de ciencia celebradas en el Círculo de Bellas Artes el pasado mes de abril, el profesor de secundaria y gran divulgador Jorge Barrio ofreció una de sus destacadas demostraciones de física en la que dejaba caer simultáneamente una pluma y una pesada bola metálica por sendos tubos verticales de pvc. El resultado era contraintuitivo: la pluma caía bastante antes que la bola metálica. Lo mismo ocurrió cuando dejó caer simultáneamente con la esfera metálica una pelota de pimpón, que llegó al suelo antes que la de metal. «¿Qué está pasando?», preguntaba.

Experimentos de Jorge Barrio en el Círculo de Bellas Artes, en abril de 2026 (img.: EF).

Algunos de los asistentes miraban en el interior de los tubos durante la caída -la bola metálica descendía lentamente, sin tocar las paredes, mientras que la de pimpón lo hacía en caída libre- y proponían explicaciones inverosímiles. Pero Barrio se resistía a explicar el fenómeno; se limitaba a evidenciar la inconsistencia de los argumentos e invitaba a formular nuevas hipótesis.

En la segunda jornada, me contaba Barrio que unos alumnos le llevaron la respuesta de un agente de IA generativa. Habían decidido preguntar a un modelo conversacional de IA cómo era posible que la caída de la bola metálica fuera más lenta que la pluma, y la IA les dio una respuesta aparentemente verosímil, aunque completamente falsa, basada en diferencias de flujos y empujes a lo largo del desplazamiento por el tubo.

La explicación de la experiencia no era trivial; requería algunas nociones de electromagnetismo típicas del bachillerato de ciencias. Lo que ocurría es que los tubos tenían una capa intermedia de cobre y que la bola metálica era un imán potente, por lo que al caer por el tubo inducía una corriente en el cobre cuyo campo magnético se oponía a la variación de flujo magnético, lo que frenaba al imán en su caída. Es la conocida Ley de Lenz, que es una consecuencia directa de la ley de conservación de la energía.

La explicación del fenómeno ofrecida por la IA estaba plagada de argumentos físicos perfectamente hilados y creíbles, pero completamente falsos. Era una de esas respuestas complacientes, a las que la IA nos tiene acostumbrados, que contribuyen a satisfacer la curiosidad del alumnado y a generar un espejismo de comprensión del fenómeno, con el riesgo añadido de que deje de hacerse nuevas preguntas.

La ilusión de comprensión

Es probable que el alumnado que utiliza modelos de lenguaje como ChatGPT piense que está aprendiendo, pero una investigación reciente con estudiantes de secundaria (de 14 a 15 años) demuestra que no siempre es así. El estudio The Illusion of Understanding: How Middle-Schoolers Fail to Regulate Inquiry with ChatGPT in a Science Task analiza la capacidad real del alumnado para autorregular procesos de búsqueda y construcción de conocimiento cuando interactúa con sistemas conversacionales como ChatGPT.

La investigación pone en evidencia que el acceso instantáneo a respuestas aparentemente coherentes y convincentes de la IA no garantiza comprensión real ni aprendizaje profundo. Por el contrario, la convincente fluidez comunicativa de la IA puede generar una “ilusión de comprensión” que dificulta el pensamiento crítico y la regulación metacognitiva del aprendizaje.

La capacidad de formular preguntas significativas, reformularlas y detectar errores es un indicador de comprensión profunda, cuyos mediadores tradicionales son el profesorado y los compañeros de clase. Pero las respuestas inmediatas y verosímiles de los sistemas de IA generativa como ChatGPT, modifican radicalmente esta situación, con una apariencia de autoridad que puede dificultar la detección de respuestas vagas o directamente erróneas. Esta apariencia de autoridad puede reducir los mecanismos de vigilancia cognitiva del alumnado y hacerle creer que ha entendido un fenómeno científico simplemente porque ha recibido una respuesta clara y bien redactada, aunque dicha respuesta sea superficial o insuficiente para resolver la tarea. Un ejemplo de esto es el caso con el que abríamos este artículo.

Diseño de la experiencia

En la experiencia participaron inicialmente 73 estudiantes de entre 14 y 15 años procedentes de cuatro centros educativos de la región de Nouvelle-Aquitaine, aunque, tras excluir respuestas incompletas, la muestra final quedó compuesta por 63 participantes. La investigación se desarrolló en horario escolar y en grupos reducidos. Inicialmente, el alumnado recibió una breve introducción sobre el protocolo experimental y una demostración técnica del funcionamiento de la interfaz basada en ChatGPT.

El diseño experimental combinó distintos instrumentos cuantitativos y de análisis de la interacción, con los que no solo se pretendía analizar el rendimiento final, sino también la calidad de la interacción y la capacidad de regulación del proceso de indagación.

Cada estudiante debía resolver seis tareas científicas extraídas de un banco de doce ejercicios equivalentes, para las que se les daba la opción de utilizar un prompt sugerido, diseñado previamente como «eficiente» o «ineficiente», o de redactar uno propio. Tras recibir la respuesta de ChatGPT, el alumnado debía valorar su utilidad y decidir si deseaba seguir preguntando. Finalmente, redactaba una explicación científica breve utilizando sus propias palabras.

Resultados y discusión

Desde la perspectiva del aprendizaje autorregulado, aprender con IA no solo requiere utilizar herramientas digitales; también exige formular preguntas eficaces, reconocer respuestas imprecisas, evaluar críticamente las respuestas y decidir si hay que seguir investigando.

Los autores trataban de averiguar hasta qué punto el alumnado de educación secundaria era capaz de desarrollar este proceso. Esperaban que la interacción con ChatGPT funcionara como apoyo para la exploración científicay que el conocimiento previo y la familiaridad con la IA favorecieran el rendimiento final, pero los resultados fueron distintos a lo esperado.

  • El desempeño global fue relativamente bajo. La tasa media de éxito fue de 0,51. Los análisis estadísticos mostraron que el rendimiento mejoraba cuando el alumnado era más crítico ante las respuestas y cuando formulaba preguntas de seguimiento tras respuestas que consideraba insuficientes.
  • El alumnado utilizó masivamente los prompts sugeridos por el sistema (el 94,1% recurrió al menos una vez a ellos), pero su capacidad para distinguir entre prompts eficaces e ineficaces fue extremadamente baja.
  • Se constató una incapacidad generalizada para distinguir respuestas científicamente útiles de las pobres o superficiales. El alumnado calificó como útiles y satisfactorias el 71,4% de las respuestas de bajo nivel, prácticamente la misma proporción que las respuestas realmente informativas, lo que indica que muchos aceptaban explicaciones vagas o incompletas simplemente porque estaban redactadas de manera clara y convincente.
  • Otro resultado inesperado fue la reducida tendencia a hacer nuevas preguntas al sistema. Incluso cuando percibían que una respuesta era insuficiente, no solían profundizar o reformular la consulta. Esta falta de seguimiento sugiere un fallo en la autorregulación del aprendizaje.

Algunos resultados fueron especialmente llamativos, porque contradicen las intuiciones pedagógicas habituales:

  • Contrariamente a lo esperado, el alumnado que declaraba tener más experiencia con herramientas de IA no obtuvo mejores resultados. De hecho, la familiaridad con la herramienta se asoció con una menor vigilancia en la selección de prompts. En el mismo sentido, el alumnado más confiado en el dominio de la herramienta mostró menor capacidad crítica, y aceptó más respuestas deficientes sin cuestionarlas.
  • El alumnado que afirmaba conocer mejor los temas científicos tampoco evaluó mejor las respuestas, lo que sugiere que la fluidez comunicativa de la IA interfiere en la vigilancia epistemológica, aunque exista cierta base conceptual previa.

Los autores interpretan estos resultados como consecuencia de un desajuste entre las exigencias metacognitivas de la IA generativa y las capacidades regulatorias del alumnado adolescente. En realidad, el trabajo con la IA generativa no elimina la necesidad de autorregulación, sino que la intensifica, porque el alumnado debe decidir continuamente si la respuesta realmente responde al problema, si es suficientemente específica, si existen lagunas conceptuales y si conviene profundizar.

A diferencia del profesorado, que ofrece un andamiaje y una orientación contextualizada para promover la reflexión, ChatGPT ofrece respuestas inmediatas sin ningún tipo de exigencia cognitiva, lo que puede favorecer procesos de aceptación pasiva de la información (lo que algunos llaman pereza cognitiva).

Por ello, el perfil de alumnado más vulnerable identificado por el estudio estaba muy familiarizado con IA y confiaba en las capacidades de la herramienta, pero tenía una menor regulación metacognitiva. De hecho, el alumnado con mayor capacidad de autorregulación supo distinguir mejor la calidad de los prompts y formuló preguntas de seguimiento con más frecuencia.

Algunas implicaciones educativas

El estudio demuestra que la interacción educativa con IA generativa plantea desafíos mucho más profundos que la simple integración tecnológica. La principal dificultad no reside en acceder a las respuestas, sino en desarrollar capacidades metacognitivas para regular el proceso de indagación científica. Por ello, la investigación propone varias recomendaciones:

  • Enseñar a evaluar críticamente las respuestas de la IA. No basta con enseñar a «usar» la herramienta; hay que enseñar a evaluar críticamente sus respuestas. Para ello habría que trabajar con ejemplos de respuestas superficiales, ambiguas o incorrectas, para hacer explícitas las diferencias, y mostrar en clase errores reales de la IA que suenen convincentes.
  • Introducir cierta exigencia pedagógica. Se trata de evitar las respuestas automáticas y de promover situaciones en las que el alumnado deba justificar, comparar y verificar respuestas.
  • Desarrollar competencias para reformular la pregunta y continuar investigando. Se trata de hacer preguntas de seguimiento y, también, de pedir al alumnado que explique el concepto después de haber usado la herramienta.
  • No confundir frecuencia de uso de la IA con competencia para aprender con ella. La experiencia puede generar exceso de confianza y reducir la vigilancia crítica.

La “ilusión de comprensión” identificada por los autores revela que muchos adolescentes aceptan respuestas convincentes de la IA sin evaluar críticamente su calidad epistemológica. En consecuencia, el reto pedagógico ya no consiste únicamente en introducir IA en las aulas, sino en enseñar al alumnado a cuestionarla, a regularla y a utilizarla como herramienta para pensar mejor, no simplemente para obtener respuestas más cómodas o más rápidas.


Referencia

  • Rania Abdelghani; Kou Murayama; Celeste Kidd; Hélène Sauzéon; Pierre-Yves Oudeyer (2026). The Illusion of Understanding: How Middle-Schoolers Fail to Regulate Inquiry with ChatGPT in a Science Task. Arxiv. Disponible en: https://arxiv.org/html/2505.01106v2