Por sí sola, la inteligencia artificial sigue siendo “demasiado superficial e inconsistente para evaluar adecuadamente los trabajos universitarios”. Por ello, la decisión final sobre cómo se califican las tareas “debería siempre recaer en un evaluador humano”.
Esa es la conclusión a la que llegó un equipo de académicos liderado por la U. de Cambridge, que usó algunos de los modelos de IA generativa más avanzados —entre ellos, Claude y ChatGPT, en sus versiones actualizadas en abril de 2026— para corregir 761 ensayos de estudiantes de Psicología de tres universidades del Reino Unido. Aunque no hubo un prompt (instrucción para interactuar con estos sistemas) específico, a cada modelo se le dio a entender que debía tomar el papel de un evaluador experimentado de cierta casa de estudios y que su labor era corregir textos de estudiantes de pregrado.
Aunque la precisión de la IA para calificar ensayos “no fue uniformemente alta”, los investigadores observaron que logró coincidir con la categoría de nota asignada por evaluadores humanos, como sobresaliente o aprobado, en un 35% a 65% de los casos, dependiendo de la universidad analizada.
Sin embargo, los grandes problemas aparecieron frente a los extremos: la IA tendía a asignar notas muy bajas a trabajos que los evaluadores humanos consideraban excelentes. En cambio, sobrevaloraba ensayos que para las personas que corrigieron estaban entre los de peor desempeño.
Y es que, a diferencia de los humanos, los sistemas de IA mostraron una “hipersensibilidad a las características lingüísticas”. Según explica el estudio, estos sistemas pusieron notas más altas según la extensión de los textos, así como la complejidad del vocabulario usado y oraciones formadas. Todo esto, independientemente de la calidad académica de los diversos ensayos.
(…) Brayan Díaz, investigador del Centro Nacional de Inteligencia Artificial (Cenia) y del Centro de Investigación para la Mejora de los Aprendizajes (Cima) de la Facultad de Educación de la U. del Desarrollo, indica que “no solo hay que pensar en la enseñanza como pararse frente a la clase y dictar. El proceso es mucho más complejo; uno como profesor evalúa y aprende de sus estudiantes, logra identificar fortalezas y debilidades. Si automatizamos todo el proceso, el docente tiene menos información para generar prácticas más efectivas y personalizadas”.
De cualquier forma, Díaz advierte que esto no supone que no se pueda buscar un equilibrio, aplicando la IA no como reemplazo, sino como complemento.
