banner
Centro de Noticias
Manténgase conectado con nuestro servicio en línea las 24 horas.

Noticias de Óptica y Fotónica

May 21, 2023

hannah lanford

Gerd Kortemeyer

¿Qué significa para los educadores si un chatbot de IA puede aprobar una clase de física? Intrigado por el debate sobre los grandes modelos de lenguaje en el mundo académico, Gerd Kortemeyer, ahora director de desarrollo educativo y tecnología en ETH Zurich, Suiza, decidió poner a prueba ChatGPT, literalmente. Informa que, según sus respuestas a tareas y exámenes reales para un curso de física basado en cálculo, GPT-3.5 habría logrado una (apenas) calificación aprobatoria (Phys. Rev. Phys. Educ. Res., doi: 10.1103/ PhysRevPhysEducRes.19.010132).

Para algunos, este resultado puede causar preocupación sobre la integridad académica. Pero Kortemeyer, quien enseñó física introductoria en los Estados Unidos durante muchos años, no está particularmente preocupado por el potencial de la IA para permitir el engaño. En cambio, dice, plantea preguntas sobre cómo estamos enseñando y evaluando a los estudiantes de física. OPN habló con Kortemeyer sobre sus pensamientos sobre el futuro de la educación física y GPT, y las habilidades "inherentemente humanas" que espera impartir en sus clases.

Gerd Kortemeyer: No debería haberlo sorprendido, pero inicialmente lo hice, cuán cerca estaban los errores del bot de los errores que cometen los estudiantes reales. No debería sorprenderme porque no sé exactamente con qué cuerpo de texto se entrenó; incluso puede haber contenido algunos foros de discusión sobre física.

Pero me sorprendió que algo que no es más que un mecanismo de autocompletado probabilístico, básicamente coincidencia de patrones, imitara el comportamiento de los estudiantes. Eso me hace cuestionar lo que hemos estado probando todo este tiempo.

¿Realmente estamos probando la coincidencia de patrones? ¿Estamos dando calificaciones de física basadas en la coincidencia de patrones, si tal algoritmo puede funcionar bien?

Si un estudiante es entrenado para estas evaluaciones estandarizadas, se convierte en una especie de pequeño robot. Básicamente has entrenado a esos niños para que lo hagan tan bien como una máquina.

OpenAI publicó un artículo que muestra cómo funciona GPT en las evaluaciones estandarizadas. Para el ACT, SAT, todos esos, termina en los percentiles superiores. Entonces eso significa que si un estudiante es entrenado para estas evaluaciones estandarizadas, se convierte en una especie de pequeño robot. Básicamente has entrenado a esos niños para que lo hagan tan bien como una máquina. Y eso me asusta.

La calificación en los cursos de introducción a la física también se basa en evaluaciones muy estándar: exámenes, tareas, proyectos de programación y preguntas de clicker. Así que no debería estar tan sorprendido de que ChatGPT pasara, porque al final, resolver estos problemas introductorios de física es algo muy algorítmico.

Bueno, los estudiantes aún necesitan poder resolver estos problemas. Si desea hacer algún tipo de física avanzada, todos estos conceptos básicos como las leyes de Newton, las leyes de circuitos, etc., debe tener ese conocimiento práctico en el fondo de su mente. Porque si no puedes sacar ese conocimiento inmediatamente, no podrás avanzar en física. Entonces, aunque la IA puede hacer la física básica, necesito poder evaluar que los estudiantes también pueden hacerlo. Y las herramientas de IA seguramente fallarán en cualquier cosa que sea física realmente avanzada.

Así que todavía tenemos que evaluar estas cosas, pero no únicamente. A medida que la inteligencia artificial mejora, también debemos centrarnos en las habilidades que son inherentemente humanas. ¿Qué es la inteligencia humana? ¿Qué es la creatividad humana? En mis clases, siempre trato de enseñar un poco más que solo memorizar hechos. Quiero que la gente sienta curiosidad por la física, que piense críticamente, que aplique estos principios a situaciones cotidianas. Quiero tener todos estos tipos de procesos metacognitivos funcionando.

Digamos que doy un problema de tarea y al final, su respuesta es que un automóvil se mueve a 4000 millas por hora. Como ser humano, miras eso y dices: "Eso es probablemente 40 millas por hora. Volvamos. ¿Qué hice aquí?" Los humanos tienen la capacidad de preguntar: ¿es esto siquiera realista?

No puedo decir nunca, pero la inteligencia artificial está lejos de descubrir nada nuevo. Porque no se cuestiona a sí mismo. No cuestiona la naturaleza.

Si obtengo la misma respuesta loca de una IA, simplemente continúa con esa respuesta. Cuando está mal, está mal en dos órdenes de magnitud y es como, "¿Y qué? Ese es mi resultado". Los humanos tienen esa habilidad de pensar constantemente en segundo plano, ¿puede esto ser cierto? Es una forma completamente diferente de evaluar tu respuesta; no es la forma que te llevó a la solución. AI actualmente no tiene ninguno de estos procesos. Simplemente avanza y muestra un resultado.

Mirar un problema, hacer cálculos y pensar, eh, eso es interesante, ¿cómo sucedió eso? No puedo decir nunca, pero la inteligencia artificial está lejos de descubrir nada nuevo. Porque no se cuestiona a sí mismo. No cuestiona la naturaleza.

Creo que la única forma de evaluarlos es con un tipo de evaluación mucho más larga y a mayor escala. El último ejemplo de ello es su tesis doctoral. Una persona trabaja durante años, investigando algo que es, hasta ese momento, completamente desconocido. Si no tienes la curiosidad, la metacognición, el conocimiento fundamental, todas estas herramientas, no podrás terminar una tesis doctoral en física.

Entonces, ¿cómo se reduce eso a los niveles más bajos? La única forma que pude encontrar en mis clases fue asignar proyectos más largos. Hice que los estudiantes hicieran cosas como videos de "Cazadores de mitos", donde eligieron un mito urbano para investigar y armaron una explicación de la física real detrás de él. Hice que un grupo hiciera la pregunta, si estás en una pelea de bar, ¿es mejor que te rompan una botella llena o vacía en la cabeza?

Así que construyeron una pequeña máquina con una "cabeza" de bola de billar en un "cuello" de resorte, pusieron un sensor de aceleración en la bola de billar, hicieron un brazo oscilante al que podían unir botellas, aplastaron las botellas contra la bola y midieron el aceleración. Descubrieron que lo peor que puede pasar es que la botella no se rompa porque la energía no se disipa. Y documentaron muy bien la física.

Ahí es donde puede separar a las personas que solo están haciendo coincidencias de patrones de las personas que están genuinamente interesadas. Y, a veces, los estudiantes que pueden no ser 4.0, estudiantes perfectos en las evaluaciones tradicionales prosperan en este entorno. Es una dimensión diferente de hacer ciencia. Solo lleva mucho más tiempo y, por supuesto, calificarlo es más subjetivo.

Enseñé a muchos estudiantes de premedicina en los Estados Unidos, y para ellos, el mensaje era: si la calificación de su curso no es 4.0, la calificación más alta es un fracaso. Y, de hecho, un director de admisiones de la escuela de medicina que estaba de visita en nuestra universidad dijo: "Si solo tienes un 3.5 en física, es mejor que tengas una buena razón". Y pensé, tienes que estar bromeando. Un 3.5 es una gran calificación en física.

La alegría se está drenando de todo el asunto. Soy físico porque lo disfruto. Los estudiantes en clase, muchos de ellos no disfrutaron la experiencia.

La alegría se está drenando de todo el asunto. Soy físico porque lo disfruto. Los estudiantes en clase, muchos de ellos no disfrutaron la experiencia. Puedo hacer mis pequeñas bromas, puedo tratar de ser entretenido, puedo tratar de hacer que las cosas se estrellen y se rompan. Pero al final saben que lo que va a contar es si tienen un 4.0 o un 3.5. Y las escuelas de medicina deberían considerar: una vez que una IA pueda obtener un 4.0 en los cursos correctos, ¿vamos a admitir eso en la escuela de medicina? ¿Por qué no? ¿Qué falta?

Si le quitamos toda la diversión y lo hacemos tan orientado a la calificación y la evaluación estándar, entonces habremos reducido a los estudiantes al nivel de la inteligencia artificial. Eso es un peligro aquí.

Al menos en ETH Zurich, tratamos de evitar hacer juicios rápidos e implementar regulaciones de inmediato. Algunas universidades inmediatamente se apresuraron a prohibirlo y dijeron: "Ni una sola palabra generada por IA puede terminar en algo que se está evaluando. Es plagio, es escritura fantasma". Básicamente están aplicando términos del pasado a esta nueva tecnología, y luego van al siguiente paso y dicen que por eso está prohibido.

Escribimos un artículo de blog sobre que la IA no es una pandemia. Cuando llegó el COVID-19, inmediatamente creamos reglas y regulaciones porque teníamos que hacerlo: era una pandemia mortal. Y solo tratamos de advertir a nuestra universidad que no vea la IA de la misma manera y que proponga reglas y regulaciones de inmediato antes de descubrir qué es realmente.

Si la inteligencia artificial está disponible durante los exámenes, el problema real no es hablar con la inteligencia artificial, el problema real es hablar con otras personas. En el momento en que haga que la inteligencia artificial esté disponible como un servicio en la nube, los estudiantes también podrían hablar entre ellos. Esa sería una forma mucho, mucho más eficiente de hacer trampa que trabajar con una IA. Si puedo ver una respuesta autorizada de mi amigo profesor, ¿por qué confiaría en una respuesta probabilística de una IA? Así que ese es en realidad el obstáculo más grande. Con la inteligencia artificial viene la conectividad a Internet y la comunicación humana.

En ETH, tenemos estas enormes evaluaciones que duran horas y estamos pensando en tenerlas en dos partes. Así que tal vez la primera parte sea completamente papel y lápiz. Sin calculadoras de bolsillo, nada. Y así es como evaluamos el conocimiento fundamental, quitando todo eso.

Y luego, la segunda parte son problemas mucho más avanzados, y pueden funcionar como lo harían en la vida real. Tienes todas las herramientas a tu disposición, y eso no es solo IA, son cosas como Wolfram Alpha, herramientas de estadísticas, todo lo que tienes en tu computadora portátil.

Lo único que sigue siendo problemático es la comunicación interpersonal. Quiero decir, todo es colaborativo, tal vez puedas tener exámenes grupales. Pero tu amigo profesor de física, probablemente ahí es donde necesitamos trazar una línea.

La mayor amenaza que veo es que la gente cree ciegamente en el resultado de la inteligencia artificial. El cuestionamiento crítico de lo que sale de la IA es algo que la gente simplemente no ha aprendido.

La mayor amenaza que veo es que la gente cree ciegamente en el resultado de la inteligencia artificial. El cuestionamiento crítico de lo que sale de la IA es algo que la gente simplemente no ha aprendido. Arroja cosas que suenan oh, tan plausibles. Todo lo que dice suena como la verdad absoluta, no hay calificativos. Aunque todo el algoritmo es completamente probabilístico, no le da una probabilidad de ser correcto.

Si la gente no cuestiona lo que sale de la IA, literalmente podría conducir al desastre. Ha habido accidentes de avión porque los pilotos ya no sabían realmente cómo volar el avión y no cuestionaron la salida de la computadora incluso cuando estaba equivocada.

Entonces, esa confianza ciega, amplificada por las redes sociales, permite que cualquier cosa sea lanzada al mundo en poco tiempo. Y luego la ficción plausible, que es lo que la IA produce en este momento, se convierte en realidad. Y si esa misma ficción alimenta el siguiente corpus de texto, los próximos datos de entrenamiento, nos estamos alejando cada vez más de la verdad. Así que ese es el mayor desafío en este momento.

Veo una oportunidad en las personas que lo usan como una herramienta. Así, por ejemplo, superar el bloqueo del escritor. Le dices que escriba un ensayo sobre cualquier tema. Luego produce su agradable ficción plausible, que puede ser un buen punto de partida. Luego empiezas a modificarlo, corregirlo, cambiar las cosas con las que no estás de acuerdo, pero a veces modificar es mucho más fácil que empezar de cero.

Eso, por supuesto, plantea la pregunta: ¿todavía hay pequeños fragmentos de texto que salieron directamente de ChatGPT? Probablemente si. ¿Es esto ahora plagio o escritura fantasma? Honestamente puedo decir que hice mío el texto, pero probablemente hay tres o cuatro palabras en el mismo orden que salieron de ChatGPT. ¿Debería estar prohibido? No me parece. El plagio es reclamar el trabajo de otros como propio. Creo que esto todavía puede ser considerado mi propio trabajo. Estoy usando IA como herramienta, de la misma manera que usaría DeepL o Grammarly para traducir o corregir un gran bloque de texto.

Es una excelente manera de obtener muchos puntos de vista diferentes sobre un tema, que, después de todo, se recopilan de un gran corpus de texto. Entonces tienes un espectro de opiniones e ideas sobre un tema. Todavía tienes que trabajar con ellos, pero ninguna búsqueda en Google te dará eso.

También puede responder preguntas muy especializadas. Para un artículo reciente, necesitaba hacer cierto tipo de gráfico en Excel. Busqué en Google durante media hora y no pude averiguar cómo hacer la cosa. Puse una oración en ChatGPT y me dio la receta para hacer la trama correcta. Y fue tan eficiente; simplemente respondió exactamente a la pregunta.

Entonces, como herramienta, puede ser genial. Lo uso muy regularmente en todo tipo de formas.

Definitivamente, probé algunas cosas con GPT-4, y eso estará en el rango del 80 % para la calificación del curso. Esa es una nota bastante decente en física.

Probé algunas cosas con GPT-4, y eso estará en el rango del 80 % para la calificación del curso. Esa es una nota bastante decente en física.

La próxima frontera para mí es jugar con la entrada multimodal. Los problemas de física a menudo vienen con pequeños bocetos, por lo que trata de alimentar directamente esas imágenes en el sistema en lugar de narrar lo que hay en la imagen.

También lo he estado estudiando con fines de calificación. Simplemente tomé un montón de derivaciones de soluciones de problemas y ChatGPT las calificó en una rúbrica. Eso te dará un R2 de más de 0.8. Así que en realidad es un poco prometedor. No todo está allí, pero está cerca de estar allí.

Fecha de publicación: 06 de junio de 2023

Gerd Kortemeyer: