Y en el lado del hardware, Deepseek ha encontrado nuevas formas de juzgar chips viejos, lo que permite que el nuevo hardware en el mercado entrene modelos de los mejores llamamientos sin tos. La mitad de su innovación provino de ingeniería directa, el carcelero dice: “Definitivamente tienen algunos buenos ingenieros de GPU en ese grupo”.
NVIDIA ofrece un software llamado CUDA, que se utiliza para ajustar la configuración de sus chips. Pero utilizando este código, este código es más que el cuadro NVIDIA, usando el ensamblaje, que es un lenguaje de programación que habla lenguaje que habla con el hardware. “Este es un hardcore para optimizar estas cosas”, dijo Jeer. “Puedes hacerlo, pero básicamente nadie es difícil de hacer”.
La cadena de innovación de Deepsee en múltiples modelos impresiona. También muestra que el argumento de la compañía que gastó menos de $ 6 millones para entrenar V3 no es toda la historia. R1 y V3 se basan en el stock de la tecnología existente. “Quizás el último clic de la última etapa -baton -a de hacerles millones de 6 millones, pero cuesta 10 veces más para la investigación lo llevó a él”, dijo Friedman. Y en una publicación de blog que recorta la mayoría de las exageraciones, señaló un cofundador y CEO de aliento Dario Amodi De hecho, la compañía ha utilizado 50,000 GPU H100 NVIDIA.
Un nuevo ejemplo
¿Pero por qué ahora? Cientos de nuevas empresas en todo el mundo están tratando de construir la próxima gran cosa. ¿Por qué vimos una cadena de modelos lógicos como O1 y O3 que Google Deepmini’s Gemini 2.0 Flash Pensando, y ahora R1 aparece dentro de una semana?
La respuesta es que los modelos base-GPT-4O, Géminis 2.0, V3- Ahora son suficientes para tener un comportamiento lógico de ellos. “R1 muestra que, con un modelo base sólido, la práctica de refuerzo es suficiente para obtener lógico de un modelo lingüístico sin supervisión humana”, dijo Louis Tunstall, un científico que le abrazó la cara.
En otras palabras, las principales compañías estadounidenses han encontrado cómo hacerlo pero permanecen en silencio. “Su modelo base, su modelo pre -modal y parece ser una forma sabia de convertirlo en una razón más efectiva”, dijo Jeer. “Y hasta este momento, el enfoque requerido para convertir el modelo preexistente en un modelo de razonamiento no es bien conocido. No es público. “
Lo diferente de R1 es que Deepsek ha publicado cómo lo hicieron. “Y resultó que no era un proceso costoso”, dijo Jerille. “La parte difícil es obtener esa pre -modal en primer lugar”. Asparathi reveló en Microsoft Build el año pasado, un modelo representa el 99% del trabajo y el costo.
Si las personas no son tan difíciles como se esperaba, podemos esperar la expansión de modelos libres que son más eficientes de lo que hemos visto. Con el conocimiento público, Friedman piensa, habrá más contribución entre las pequeñas empresas, frenando la ventaja experimentada por las compañías más grandes. “Creo que este es un monumento”, dijo.