El mundo de la Inteligencia Artificial contó este lunes con la primera bomba del año, con la liberación y disposición mundial de un nuevo modelo de DeepSeek. Rivalizando directamente con GPT-o1, este nuevo LLM desarrollado en China bajo el código R1 revolucionó rápidamente el mercado, dejando las primeras consecuencias en empresas estadounidenses.
Emergiendo como un gran contendiente, DeepSeek-R1 aprovecha los transformadores y otros formatos de razonamiento para optimizar la toma de decisiones. Su V3 es un sólido modelo de lenguaje, que integra aprendizaje por Mezcla de Expertos (MoE) con 671B de parámetros totales y con 37B activados para cada token. Esto le permite superar al GPT-4o y Llama 3.1 en una gran cantidad de campos, tales como Matemáticas 500 (EM), Codeforces (percentil) y DROP (3-shot F1/inglés).
Sin embargo, lo que ha impactado al mercado es su costo y lanzamiento. Según indicaron sus creadores a diferentes medios internacionales, DeepSeek solo contó con una inversión de 5.6 millones USD. Por otra parte, su desarrollo solo necesitó 2048 gráficas H800 NVIDIA, variantes menos potentes que las H100, GPUs actualmente usadas en EEUU para estos campos.
Adicionalmente, DeepSeek es de código abierto y utilizable de forma local. Para correrlo en tu computadora, se puede usar mediante Ollama, mientras que es compatible con GPU AMD y Huawei Ascend NPU. También tiene su API, disponible desde el mismo sitio oficial.
DeepSeek sacude NVIDIA
La llegada de DeepSeek fue bien recibida por la comunidad tecnológica, pero dejó con secuencias directas en las grandes norteamericanas dedicadas a IA. A quien más le impactó fue a NVIDIA, bajando más de 17% de sus acciones y perdiendo más de $589.000 millones de USD al día del nuevo estreno de R1.
Los motivos tienen netamente que ver con un “rompimiento en la actual burbuja de la IA”, centrado en “más gastos dan mejor rendimiento”. Comparado a las potentes GPU NVIDIA H800 y dichos de Sam Altman, CEO de OpenIA, en 2023 que entrenar GPT-4 había costado $100 millones de USD, DeepSeek logró una superioridad de campos utilizando solo una fracción de los recursos y capacidad de procesamiento.
Sam Altman elogia a DeepSeek
Por otro lado, su estreno tampoco ha pasado desapercibido entre expertos y su propia competencia. El mismo CEO de OpenAI indicó por Twitter X que es un “modelo impresionante, especialmente teniendo en cuenta lo que pueden ofrecer por el precio” y que es “estimulante tener un nuevo competidor”.
Esto también hizo reaccionar a Altman en esta carrera de IA, puesto a que mencionó que próximamente ofrecerán modelos mucho mejores y algunos nuevos.
Pese a que DeepSeek tiene varios puntos donde rivaliza con GPT-o1, el modelo de OpenIA todavía tiene la ventaja gracias a su capacidad de Ver y Escuchar en tiempo real. Sin embargo, tomando en cuenta que este nuevo competidor está acaparando mucho las miradas, es probable que veamos en un futuro cercano avances como GPT-o3. Además, podría adelantar los avances en AGI, campo de investigación de OpenAI que busca crear software con inteligencia similar a la humana.