Como una pulseada a Donald Trump y su discurso de toma de mando en la presidencia de EE.UU., los chinos pusieron en funcionamiento DeepSeek, un modelo de inteligencia artificial tan poderoso como Meta u OpenAI pero significativamente más barato que hizo temblar al mercado tecnológico este lunes.
Una start up emergente china poco conocida puso de cabeza a los gigantes tecnológicos de EE. UU. Sus acciones se desplomaron y empresas como Meta y Nvidia debieron enfrentar una serie de cuestionamientos de cara al futuro de parte de los ejecutivos de tecnología que en todo el mundo recurrían a las redes sociales para expresar sus dudas y temores sobre la industria. La empresa llamada DeepSeek dio a conocer su modelo de IA tan poderoso como el que más, pero obtenido con mucho menos dinero de lo que se pensaba era posible, abriendo la duda de si las empresas estadounidenses seguirían siendo competitivas en IA en el corto plazo. Tan fuerte fue el impacto que Marc Andreessen, poderoso inversionista de riesgo, cofundador de Netscape Communications Corporation y uno de los primeros navegadores web con interfaz gráfica dijo textualmente que DeepSeek es «el momento Sputnik de la IA».
Propiedad de la empresa china de comercio de valores High-Flyer, DeepSeek dedicada a construir tecnologías de IA en la línea del chatbot ChatGPT de OpenAI adquirió en 2021 miles de chips de computadora del fabricante estadounidense Nvidia, los que son una parte fundamental de cualquier esfuerzo por crear poderosos sistemas de inteligencia artificial, y los entregó a centenares de jóvenes investigadores de IA de las mejores universidades chinas contratados bajo la promesa de altos salarios y la oportunidad de trabajar en proyectos de investigación de vanguardia. En los últimos años ya había lanzado varios modelos de lenguaje de gran tamaño, tecnología que sustenta chatbots como ChatGPT. El 10 de enero de 2025 lanzó su primera aplicación de chatbot gratuita basada en un nuevo modelo llamado DeepSeek-V3.
Ya a fines de diciembre de 2024, cuando presentó ese modelo, coincidió con las capacidades de los mejores chatbots de empresas estadounidenses como OpenAI y Google. Eso ya era de por sí solo impresionante. Pero el equipo detrás del nuevo sistema reveló otro gran paso adelante. Explicó documentalmente que para construir la tecnología utilizó solo una fracción de los chips de computadora que había adquirido, y que las grandes empresas de inteligencia artificial utilizan para entrenar sus sistemas. Estas entrenan sus chatbots con supercomputadoras que utilizan hasta 16.000 chips o más. Los chinos dijeron que solo requerían unos 2.000 chips Nvidia es decir unas 10 veces menos que lo estimado el año 2022 cuando se desencadenó el boom de la IA con OpenAI. Eso es igual a unos 6 millones de dólares en potencia de cómputo bruta para entrenar su sistema, lo que resulta casi ridículo frente a las inversiones norteamericanas previas.
Según consigna un artículo de The New York Times “…los ingenieros de la startup demostraron una forma más eficiente de analizar datos utilizando los chips. Los principales sistemas de IA aprenden sus habilidades mediante la identificación de patrones en grandes cantidades de datos, incluidos texto, imágenes y sonidos. DeepSeek describió una forma de difundir este análisis de datos a través de varios modelos de IA especializados que los investigadores llaman un método de «mezcla de expertos», (que) minimiza el tiempo perdido al mover datos de un lugar a otro”. Ello fue determinante pues “mover información entre los modelos tendía a reducir la eficiencia. DeepSeek hizo esto de una manera que le permitió usar menos potencia de cómputo.” Ello implica según Tim Dettmers, investigador del Instituto Allen para la Inteligencia Artificial en Seattle y profesor de ciencias de la computación en la Universidad Carnegie Mellon, que «DeepSeek utilizó métodos que cualquiera puede duplicar» lo que es una enorme ganancia en eficiencia.
Las pruebas de referencia estándar de DeepSeek-V3 indican que puede resolver problemas lógicos y escribir sus programas informáticos con la misma eficacia que cualquier otro programa que ya esté en el mercado. Una cuestión adicional trascendental es que el modelo fue presentado como código abierto, lo que significa que el código informático subyacente es compartido con otras empresas e investigadores, lo que permite a estas crear y distribuir sus propios productos utilizando las mismas tecnologías. Lo que ha sido determinante para que China haya construido sistemas de IA competitivos de manera tan rápida y económica, y que es algo que definitivamente no comparten los gigantes tecnológicos estadounidenses.