En medio de la polemica, DeepSeek se apresura a lanzar nuevo modelo de IA

Por

2 marzo, 2025

La startup china DeepSeek se encuentra en el centro de atención internacional tras el impacto generado por su modelo de razonamiento R1, y ahora se prepara para lanzar su sucesor, el modelo R2, antes de lo previsto. Según fuentes cercanas a la compañía, el lanzamiento originalmente programado para mayo podría adelantarse significativamente, aunque sin una fecha precisa confirmada.

El modelo R1 de DeepSeek desató una venta masiva en los mercados bursátiles globales, superando en rendimiento a varias propuestas de gigantes tecnológicos occidentales, a pesar de haber sido construido con chips Nvidia menos potentes. Esta eficiencia generó inquietud en la industria y en el gobierno estadounidense, que considera el liderazgo en inteligencia artificial como una prioridad nacional.

Capacidades y mejoras del modelo R2

Con el modelo R2, DeepSeek espera mejorar sus capacidades de programación y ampliar el razonamiento en idiomas distintos al inglés.

Este desarrollo refuerza la posición de China en la carrera global por la innovación en IA, con el apoyo de empresas y autoridades locales que ya integran los modelos de DeepSeek en sus sistemas.

El modelo R2 promete una mayor eficiencia en la generación de código y un mejor rendimiento en tareas de razonamiento complejo.

Se espera que también incorpore mejoras en la arquitectura de redes neuronales y técnicas avanzadas de optimización, permitiéndole competir con modelos desarrollados con inversiones mayores.

La visión detrás del éxito

El éxito de esta startup radica en la visión de su fundador, Liang Wenfeng, un multimillonario que alcanzó su fortuna a través del fondo de cobertura cuantitativo High-Flyer. Liang, conocido por su estilo de gestión horizontal, transformó a DeepSeek en un laboratorio de investigación más que en una empresa tradicional de tecnología.

A diferencia de las rígidas jerarquías comunes en el sector tecnológico chino, DeepSeek promueve un ambiente colaborativo, con jornadas laborales de ocho horas y una plantilla compuesta mayoritariamente por jóvenes graduados de las prestigiosas universidades Tsinghua y Peking. Esta cultura permitió atraer a talentos destacados y fomentar la innovación.

Infraestructura y poder de cómputo

El modelo de IA de bajo costo de DeepSeek es posible gracias a las inversiones de High-Flyer en investigación y capacidad de cómputo.

En 2020 y 2021, el fondo adquirió dos clusters de supercomputación, incluyendo Fire-Flyer II, compuesto por unos 10 mil chips Nvidia A100. Esta infraestructura resultó crucial tras la prohibición estadounidense de exportar estos componentes a China en 2022.

Los clusters permiten realizar experimentos a gran escala, optimizando el entrenamiento de modelos mediante el uso de técnicas avanzadas como Mixture-of-Experts (MoE) y Multihead Latent Attention (MLA).

El MoE divide el modelo en diferentes áreas de especialización, activando solo las necesarias para cada consulta. El MLA, por su parte, procesa simultáneamente distintos aspectos de la información, mejorando la detección de detalles clave.

Competencia y eficiencia de costos

DeepSeek se destaca también por el uso eficiente de estas técnicas, lo que reduce los costos computacionales al activar únicamente las secciones relevantes del modelo para cada consulta. Este enfoque permitió competir con modelos desarrollados con inversiones mucho mayores.

El modelo R1 de DeepSeek demostró ser entre 20 y 40 veces más económico que las soluciones equivalentes de OpenAI, según estimaciones de Bernstein. Esta ventaja de costos podría redefinir la estructura de precios en el mercado global de IA.

Por otro lado, el respaldo del gobierno chino fue clave para la rápida expansión de la compañía, con al menos 13 gobiernos municipales y 10 empresas estatales adoptando sus modelos. Empresas tecnológicas como Lenovo, Baidu y Tencent también han comenzado a integrar estas soluciones en sus productos.

Desafíos y perspectivas futuras

El lanzamiento anticipado del modelo R2 podría marcar un punto de inflexión en la industria de IA, desafiando el dominio de las grandes compañías occidentales y acelerando la competencia global.

La combinación de innovación, eficiencia y respaldo estatal posiciona a DeepSeek como un actor clave en el futuro de la inteligencia artificial.

No obstante, la compañía enfrenta desafíos relacionados con el embargo de chips avanzados por parte de Estados Unidos, lo que podría afectar su capacidad para mantener el ritmo de innovación en el largo plazo. Liang Wenfeng reconoció esta situación, señalando que la principal limitación para DeepSeek no es la financiación, sino el acceso a hardware de última generación.

Tal vez te interese: ¿Es realmente la aparición de DeepSeek un “momento Sputnik”?