La empresa desarrolló un chatbot más económico y competitivo utilizando menos chips de alta gama que gigantes estadounidenses como Google y OpenAI, demostrando los límites del control de exportación de chips.

28 de enero 2025 – The New York Times

El día después de Navidad, una pequeña startup china llamada DeepSeek presentó un nuevo sistema de inteligencia artificial capaz de igualar las capacidades de los chatbots más avanzados de empresas como OpenAI y Google.

Eso, por sí solo, ya sería un logro significativo. Pero el equipo detrás del sistema, llamado DeepSeek-V3, destacó un avance aún mayor. En un artículo de investigación que explicaba cómo desarrollaron la tecnología, los ingenieros de DeepSeek afirmaron haber utilizado solo una fracción de los chips de computadora altamente especializados en los que las principales empresas de inteligencia artificial confían para entrenar sus sistemas.

Estos chips están en el centro de una tensa competencia tecnológica entre Estados Unidos y China. Mientras el gobierno estadounidense busca mantener su liderazgo en la carrera global de la inteligencia artificial, está tratando de limitar la cantidad de chips potentes, como los fabricados por la empresa de Silicon Valley Nvidia, que pueden ser vendidos a China y otros rivales.

Sin embargo, el rendimiento del modelo de DeepSeek plantea preguntas sobre las consecuencias no intencionadas de las restricciones comerciales del gobierno estadounidense. Estas restricciones han obligado a los investigadores en China a ser creativos utilizando una amplia gama de herramientas disponibles gratuitamente en internet.

El chatbot de DeepSeek respondió preguntas, resolvió problemas de lógica y escribió sus propios programas de computadora con tanta eficacia como cualquier otro sistema ya disponible en el mercado, según las pruebas de referencia utilizadas por las empresas estadounidenses de inteligencia artificial.

Y fue creado de forma económica, desafiando la idea predominante de que solo las empresas más grandes de la industria tecnológica —todas con sede en Estados Unidos— podían permitirse desarrollar los sistemas de inteligencia artificial más avanzados. Los ingenieros chinos dijeron que necesitaron solo alrededor de $6 millones en potencia de cómputo para construir su nuevo sistema. Esto es aproximadamente 10 veces menos de lo que el gigante tecnológico Meta gastó en desarrollar su última tecnología de inteligencia artificial.

“El número de empresas que pueden gastar $6 millones es enormemente mayor que el de empresas que pueden gastar $100 millones o $1,000 millones”, dijo Chris V. Nicholson, inversor en la firma de capital de riesgo Page One Ventures, que se centra en tecnologías de inteligencia artificial.

Desde que OpenAI inició el auge de la inteligencia artificial en 2022 con el lanzamiento de ChatGPT, muchos expertos e inversores habían llegado a la conclusión de que ninguna empresa podía competir con los líderes del mercado sin gastar cientos de millones de dólares en chips especializados.

Las principales empresas de inteligencia artificial del mundo entrenan sus chatbots utilizando supercomputadoras que emplean hasta 16,000 chips, si no más. Los ingenieros de DeepSeek, por otro lado, dijeron que necesitaron solo alrededor de 2,000 chips especializados de Nvidia.

Las restricciones de chips en China obligaron a los ingenieros de DeepSeek a «entrenar el modelo de manera más eficiente para que pudiera seguir siendo competitivo», dijo Jeffrey Ding, profesor asistente en la Universidad George Washington, especializado en tecnología emergente y relaciones internacionales.

A principios de este mes, la administración Biden emitió nuevas reglas destinadas a impedir que China obtenga chips avanzados de inteligencia artificial a través de otros países. Estas reglas se suman a rondas anteriores de restricciones que evitan que las empresas chinas puedan comprar o fabricar chips informáticos de última generación. El presidente Trump aún no ha indicado si mantendrá las reglas o las revocará.

El gobierno de Estados Unidos ha intentado evitar que los chips avanzados caigan en manos de empresas chinas por preocupaciones de que puedan ser utilizados con fines militares. En respuesta, algunas firmas en China han acumulado miles de chips, mientras que otras los obtuvieron a través de un mercado negro próspero de contrabandistas.

DeepSeek es administrada por una firma de trading cuantitativo de acciones llamada High Flyer. Para 2021, había canalizado sus ganancias en la adquisición de miles de chips Nvidia, que utilizó para entrenar sus modelos anteriores. La empresa, que no respondió a las solicitudes de comentarios, se ha hecho conocida en China por captar talento recién salido de las mejores universidades, ofreciéndoles altos salarios y la libertad de seguir las preguntas de investigación que más les interesen.

Zihan Wang, un ingeniero informático que trabajó en un modelo anterior de DeepSeek, dijo que la empresa también contrata personas sin experiencia en ciencias de la computación para ayudar a que la tecnología comprenda y genere poesía, además de responder preguntas del notoriamente difícil examen de ingreso a las universidades chinas.

DeepSeek no produce productos para consumidores, lo que permite que sus ingenieros se concentren completamente en la investigación. Esto significa que su tecnología no está limitada por el aspecto más estricto de las regulaciones de inteligencia artificial en China, que exige que las tecnologías orientadas al consumidor cumplan con los controles gubernamentales sobre la información.

Las principales empresas estadounidenses continúan avanzando en el desarrollo de tecnologías de inteligencia artificial. En diciembre, OpenAI presentó un nuevo sistema de «razonamiento» llamado o3, que supera el rendimiento de las tecnologías existentes, aunque aún no está ampliamente disponible fuera de la empresa. Sin embargo, DeepSeek sigue demostrando que no está muy lejos. Este mes, lanzó su propio modelo de razonamiento impresionante.

(The New York Times ha demandado a OpenAI y su socio Microsoft, acusándolos de infringir derechos de autor relacionados con contenido de noticias para sistemas de inteligencia artificial. OpenAI y Microsoft han negado esas acusaciones).

Una parte crucial de este mercado global en rápida evolución es una idea antigua: el software de código abierto. Al igual que muchas otras empresas, DeepSeek ha hecho de código abierto su último sistema de inteligencia artificial, lo que significa que ha compartido el código subyacente con otras empresas e investigadores. Esto permite a otros construir y distribuir sus propios productos utilizando las mismas tecnologías.

Mientras que los empleados de las grandes empresas tecnológicas chinas están limitados a colaborar solo con sus colegas, «si trabajas en código abierto, trabajas con talento de todo el mundo», dijo Yineng Zhang, ingeniero de software principal en Baseten, en San Francisco, quien trabaja en el proyecto de código abierto SGLang. Él ayuda a otras personas y empresas a crear productos utilizando el sistema de DeepSeek.

El ecosistema de código abierto para la inteligencia artificial cobró impulso en 2023 cuando Meta compartió libremente un sistema de inteligencia artificial llamado LLama. Muchos asumieron que esta comunidad solo prosperaría si empresas como Meta, gigantes tecnológicos con enormes centros de datos llenos de chips especializados, continuaban compartiendo sus tecnologías como código abierto. Sin embargo, DeepSeek y otras compañías han demostrado que ellas también pueden ampliar las capacidades de las tecnologías de código abierto.

Muchos ejecutivos y analistas han argumentado que las grandes empresas estadounidenses no deberían hacer de código abierto sus tecnologías, ya que podrían ser utilizadas para difundir desinformación o causar otros daños graves. Algunos legisladores estadounidenses han explorado la posibilidad de restringir o limitar esta práctica.

Pero otros opinan que si los reguladores frenan el progreso de las tecnologías de código abierto en Estados Unidos, China podría obtener una ventaja significativa. Argumentan que, si las mejores tecnologías de código abierto provienen de China, los desarrolladores estadounidenses construirán sus sistemas sobre esas tecnologías. A largo plazo, eso podría situar a China en el centro de la investigación y el desarrollo de la inteligencia artificial.

«El centro de gravedad de la comunidad de código abierto se ha estado trasladando a China», dijo Ion Stoica, profesor de ciencias de la computación en la Universidad de California, Berkeley. «Esto podría ser un gran peligro para Estados Unidos», porque permite a China acelerar el desarrollo de nuevas tecnologías. Horas después de su investidura, el presidente Trump revocó una orden ejecutiva de la administración Biden que amenazaba con restringir las tecnologías de código abierto.

El Dr. Stoica y sus estudiantes recientemente desarrollaron un sistema de inteligencia artificial llamado Sky-T1 que rivaliza con el rendimiento del último sistema de OpenAI, denominado OpenAI o1, en ciertas pruebas de referencia. Solo necesitaron $450 en potencia de cómputo. Lograron esto al construir sobre dos tecnologías de código abierto lanzadas por el gigante tecnológico chino Alibaba.

Su sistema de $450 no es tan poderoso como la tecnología de OpenAI o el nuevo sistema de DeepSeek. Además, las técnicas que utilizaron probablemente no producirán sistemas que superen el rendimiento de las tecnologías líderes. Sin embargo, el proyecto demostró que incluso operaciones con recursos mínimos pueden desarrollar sistemas competitivos.

Reuven Cohen, consultor tecnológico en Toronto, ha estado utilizando DeepSeek-V3 desde finales de diciembre. Afirma que es comparable a los sistemas más recientes de OpenAI, Google y la startup de San Francisco Anthropic, pero mucho más económico de usar. «DeepSeek es una forma de ahorrar dinero para mí», dijo. «Este es el tipo de tecnología que alguien como yo quiere usar».