DeepSeek entrena una inteligencia artificial con menos de 300,000 dólares

DeepSeek entrena una inteligencia artificial con menos de 300,000 dólares

Foto: Unsplash

El desarrollador chino de inteligencia artificial DeepSeek informó que su modelo de razonamiento R1 fue entrenado con un costo total de 294 mil dólares. La cifra, revelada en un artículo revisado por pares publicado en la revista Nature, representa una inversión significativamente menor a la que reportan compañías estadounidenses en proyectos similares de gran escala.

 

La empresa, con sede en Hangzhou, presentó esta estimación como la primera información oficial sobre los gastos de entrenamiento de su sistema. La publicación ocurrió meses después de que versiones preliminares de los modelos de bajo costo de DeepSeek provocaran una caída en los valores tecnológicos, en enero, al generar inquietud entre inversionistas que temían una competencia directa con líderes del sector como Nvidia.

 

El artículo de Nature, en el que figura el fundador Liang Wenfeng como coautor, precisó que el modelo R1 completó su fase principal de entrenamiento en 80 horas utilizando un clúster de 512 chips H800 de Nvidia. Una versión anterior del estudio no incluía estos detalles sobre costos ni recursos empleados.

 

Sam Altman, presidente ejecutivo de OpenAI, había indicado en 2023 que el "entrenamiento de modelos fundacionales" costaba "mucho más" de 100 millones de dólares. Pese a esa referencia, la empresa estadounidense no hizo públicas cifras exactas de inversión en ninguno de sus lanzamientos.

 

La documentación complementaria del estudio también incluyó una aclaración técnica: "En lo que respecta a nuestra investigación sobre DeepSeek-R1, utilizamos las GPU A100 para preparar los experimentos con un modelo más pequeño". Tras esta etapa inicial, el modelo pasó a entrenarse en su totalidad con los chips H800.

 

En junio, funcionarios estadounidenses dijeron a los medios que DeepSeek tenía acceso a "grandes volúmenes" de chips H100 adquiridos después de las restricciones impuestas en octubre de 2022. Nvidia respondió a la agencia que la compañía china empleó legalmente chips H800, no H100. En el mismo documento complementario, DeepSeek reconoció disponer de chips A100, usados en fases preparatorias de su investigación.

 

De acuerdo con reportes previos, la capacidad de DeepSeek para atraer especialistas destacados en China estuvo relacionada con el acceso a un clúster de supercomputación A100, poco común en el país. Esta infraestructura habría facilitado el inicio de sus investigaciones y el posterior desarrollo de R1. El reporte en Nature también señaló que una de las características centrales del modelo R1 es su orientación al razonamiento, lo cual lo distingue de otros sistemas que priorizan tareas de generación de texto. (NotiPress)

Notas Relacionadas