- China Terremoto en los mercados por el fenómeno del modelo de inteligencia artificial chino DeepSeek
- Bolsas Wall Street reacciona a la irrupción de DeepSeek: Nvidia cae un 15% y sus pérdidas superan los 530.0000 millones de dólares
Sólo unos días después de que el gobierno de Donald Trump haya presumido de una inversión milmillonaria para mantener a EE.UU. "a la cabeza de la revolución de la inteligencia artificial", un proyecto chino ha puesto en duda ese supuesto dominio y alterado la narrativa de Silicon Valley en torno a las necesidades de infraestructura y energía de los modelos de lenguaje más avanzados.
Se trata de DeepSeek v3, un modelo de inteligencia artificial que ha sido entrenado a una fracción del coste que tienen sus rivales y con el que ha sido también posible crear Deepseek r1, una herramienta especializada en razonamiento que supera la que hasta ahora era considerada como la alternativa más avanzada, o1 de OpenAI.
Para entender la revolución que supone basta con señalar que el equipo detrás de Deepseek, liderado por el gerente e fondos de inversión Liang Wenfeng, ha entrenado el modelo por apenas 5,6 millones de dólares, una fracción de lo que cuesta tradicionalmente entrenar un modelo de capacidades similares. Usando varias técnicas avanzadas que la compañía ha explicado en un extenso artículo técnico publicado a principios de semana, Deepseek ha consiguido crear Deepseek V3 usando sólo 2,7 millones de horas de GPU en el proceso de entrenamiento, una onceava parte de lo que costó a Meta entrenar Llama 3.
Tal vez más importante, el equipo responsable está distribuyendo el modelo bajo código abierto con licencia del MIT, poniendo en un aprieto a muchas de las grandes empresas de inteligencia artificial de EE.UU., como Anthropic o OpenAI, que en los últimos meses han realizado rondas de inversión a precios muy altos justificando la necesidad de capital por el alto coste de entrenar nuevos modelos.
A China, que actualmente tiene severamente restringido el acceso a la última generación de chips especializados en los cálculos necesarios apr este tipo de aplicaciones, no le ha quedado más remedio que buscar una alternativa más eficiente, y parece haberla encontrado.
Deepseek V3, eso sí, incluye como era de esperar varios controles que impiden al modelo ofrecer respuestas negativas sobre episodios recientes de la historia de China o la situación geopolítica en Taiwan, sobre todo cuando se le pregunta en inglés. Comienza a ofrecer respuestas, a menudo siguiendo la línea ideológica del gobierno de Beijing, pero inmediatamente borra lo escrito y lo sustituye con un escueto "Lo siento, eso está más allá de mi alcance actual. Hablemos de otra cosa".
Esta censura no impedido que la comunidad de Silicon valley se muestre sorprendida con los resultados, sobre todo a la hora de pedir a la IA que razone problemas complejos de lógica, matemáticas o física.
Marc Andreesen, fundador del fondo de capital riesgo de Silicon valley A16Z y creador del navegador Netscape, se ha mostrado sorprendido por la capacidad de esta inteligencia artificial. "Deepseek R1 es uno de los avances más sorprendentes e impresionantes que he visto, y como código abierto, un profundo regalo para el mundo", explicaba en su cuenta de X, la red social anteriormente conocida como Twitter.
Yann LeCun, el máximo responsable de inteligencia artificial en Meta, también reconocía que Deepseek r1 representa un cambio de paradigma, aunque más que leerlo como un síntoma de que China podría estar superando a EE.UU. en la carrera de la IA, lo entiende como una confirmación de que el código abierto tiene el potencial necesario para superar a los modelos de IA cerrada de empresas como OpenAI o Anthropic.
"DeepSeek se ha beneficiado de la investigación abierta y el código abierto (p. ej. PyTorch y Llama, de Meta) Se les han ocurrido nuevas ideas y las han construido sobre el trabajo de otras personas. Debido a que su trabajo es público y de código abierto, todos podemos beneficiarnos de ello. Ese es el poder de la investigación abierta", explicó LeCun en una publicación en su página de LinkedIn.
La llegada de Deepseek r1 ha obligado a muchas de los grandes gigantes tecnológicos de Silicon Valley a reaccionar. Zuckerberg, por ejemplo, avanzó que este año Meta presentará la versión 4 de Llama (también de código abierto) y que espera que se convierta en el modelo más avanzado disponible. También ha asegurado que pronto una inteligencia artificial se unirá al equipo de investigación y desarrollo de la compañía, donde contribuirá en el desarrollo de código de las diferentes herramientas.
"Para impulsar esto, en Meta estamos construyendo un centro de datos de más de 2GW que es tan grande que cubriría una parte significativa de Manhattan. Terminaremos el año con más de 1,3 millones de GPU. activas", explica Zuckerberg.
OpenAI, por su parte, ha comenzado a ofrecer acceso limitado a o1 a las cuentas gratuitas de ChatGPT. Hasta ahora este modelo sólo estaba disponible, y de forma limitada, para usuarios de pago.