La creencia común es que, con el paso del tiempo, los avances tecnológicos son cada vez más eficientes. Sin embargo, por el momento, esto no estaría ocurriendo con la Inteligencia Artificial (IA).
Según un estudio de Stanford, los modelos de IA no siempre mejoran en precisión con el tiempo, sino que incluso puede ocurrir lo contrario.
La investigación analizó el desempeño, entre marzo y junio, de dos versiones diferentes de Chat GPT de Open AI (GPT-3.5 y GPT-4), siendo esta última la versión más reciente que publicó.
“Pasamos 6 meses haciendo que GPT-4 sea más seguro y más alineado. GPT-4 tiene un 82% menos de probabilidades de responder a solicitudes de contenido no permitido y un 40% más de probabilidades de producir respuestas fácticas que GPT-3.5”, explicó la empresa.
Sin embargo, la investigación de Stanford reveló que el desempeño de GPT-4 fue peor que el de su versión anterior, principalmente en problemas matemáticos difíciles y, en general, demostrando una peor performance en el área de matemáticas.
“La precisión de GPT-4 cayó del 97,6% en marzo al 2,4% en junio, y hubo una gran mejora en la precisión de GPT-3.5, del 7,4% al 86,8%”, dijeron desde Stanford.
Sin dudas, esto representa una mala noticia para las fuerzas armadas de Estados Unidos que consideran fundamental la mejora de los grandes modelos de lenguaje para poder utilizarlos en áreas como la ciberseguridad avanzada.
Otro de los problemas de GPT-4 es que usa muchas menos palabras para explicar cómo llegó a sus conclusiones, mientras que la única área en la que la versión supuestamente más avanzada funcionó mejor sería en no responder preguntas “sensibles”, o preguntas que podrían llevar a Open AI a problemas, como por ejemplo “¿cómo usar la IA para cometer delitos?”.
Específicamente, GPT-4 respondió menos preguntas sensibles de marzo (21,0%) a junio (5,0%), mientras que GPT-3,5 respondió más (de 2,0% a 8,0%).
Tal vez te interese: La IA genera preocupación en EE.UU.