Desde hace meses, ChatGPT ha revolucionado el mundo: el chatbot de inteligencia artificial, creado por la firma estadounidense OpenAI, es un modelo de lenguaje grande (LLM) que permite obtener diferentes tipos de información e incluso se le puede pedir que redacte textos.
Sin embargo, pese al éxito de la aplicación, el gobierno japonés y grandes empresas tecnológicas, como NEC, Fujitsu y SoftBank, están invirtiendo cientos de millones de dólares en la creación de sistemas que se basan en la misma tecnología, pero que utilizan el idioma japonés.
“Los LLM públicos actuales, como GPT, sobresalen en inglés, pero a menudo se quedan cortos en japonés debido a diferencias en el sistema alfabético, datos limitados y otros factores”, explicó Keisuke Sakaguchi, investigador de la Universidad de Tohoku.
Los LLM suelen utilizar grandes cantidades de datos de fuentes disponibles públicamente para aprender los patrones del habla. Esto les permite predecir la siguiente palabra basándose en las palabras anteriores de un texto.
Pero el problema para algunos países, como Japón, es que la gran mayoría del texto con el que se entrenó el modelo anterior de ChatGPT, GPT-3, estaba en inglés.
Así, en el país asiático existe la preocupación de que estos sistemas, con conjuntos de datos en otros idiomas, no puedan captar las complejidades del idioma y la cultura japoneses.
La estructura de las oraciones en japonés es completamente diferente a la del inglés, lo que obliga a ChatGPT a traducir una consulta japonesa al inglés, encontrar la respuesta y luego traducirla nuevamente al japonés.
Pero, mientras que el inglés tiene sólo 26 letras, el japonés consta de dos conjuntos de 48 caracteres básicos, más 2.136 caracteres chinos o kanji de uso habitual. La mayoría de los kanji tienen dos o más pronunciaciones, y existen aproximadamente 50.000 kanji más que generalmente no se utilizan.
En japonés, ChatGPT “a veces genera caracteres extremadamente raros que la mayoría de la gente nunca ha visto antes, y el resultado son palabras extrañas y desconocidas”, agregó Sakaguchi.
Por ello, varias empresas japonesas ya están comercializando, o planean comercializar, sus propias tecnologías LLM para ayudar a acelerar la ciencia y cerrar la brecha entre Japón y el resto del mundo.
Tal vez te interese: Chat GPT-4 es más ineficiente que su antecesor