Recientemente, una cadena de televisión de Francia llevó a cabo un experimento utilizando un examen de filosofía del bachillerato como base. Se solicitó a la inteligencia artificial ChatGPT que elaborara un ensayo sobre la pregunta «¿la verdad es siempre convincente?». Posteriormente, una profesora evaluó el texto resultante junto con herramientas de inteligencia artificial, con el fin de comparar las calificaciones.
El examen en cuestión es crucial para los estudiantes que buscan acceder a la universidad. Aunque la docente era consciente de que el trabajo había sido generado por una IA, se le pidió que lo calificara de manera objetiva. Su evaluación resultó en una nota de 8 sobre 20, significativamente más baja que las calificaciones otorgadas por las herramientas de IA, que oscilaron entre 15 y 19.5.
El experimento comenzó con una instrucción específica dada a ChatGPT, que incluía directrices claras sobre la estructura y el contenido esperado de un ensayo de bachillerato. Sin embargo, uno de los errores más importantes fue que la IA interpretó de forma incorrecta la pregunta inicial, reformulándola como «¿es la verdad suficiente para convencer?». Esta variación, según la profesora, alteró por completo el enfoque filosófico del tema.
La profesora criticó el ensayo por contener demasiadas frases prefabricadas y transiciones poco fluidas, además de considerar que la argumentación era superficial y carecía de profundidad reflexiva. A pesar de que el texto abordó el tema en su conclusión, la IA no logró desarrollar una discusión sustancial sobre el problema planteado.
En un giro interesante, los periodistas que llevaron a cabo el experimento también pidieron a ChatGPT que evaluara su propio trabajo. La IA se otorgó a sí misma una nota de 19.5 sobre 20, evidenciando su limitada capacidad de autocrítica. Otros organismos también evaluaron el ensayo, obteniendo calificaciones variables, pero ninguna de las herramientas reconoció el error conceptual inicial detectado por la profesora. Todos coincidieron en resaltar la buena estructura y la coherencia de la argumentación, lo que destaca una desconexión significativa en la evaluación del contenido.


