Cuán profundamente rasga el libro de jugadas de IA y por qué todos lo seguirán

1 febrero 2025

Y en el lado del hardware, Deepseek ha encontrado nuevas formas de juzgar chips viejos, lo que permite que el nuevo hardware en el mercado entrene modelos de los mejores llamamientos sin tos. La mitad de su innovación provino de ingeniería directa, el carcelero dice: “Definitivamente tienen algunos buenos ingenieros de GPU en ese grupo”.

NVIDIA ofrece un software llamado CUDA, que se utiliza para ajustar la configuración de sus chips. Pero utilizando este código, este código es más que el cuadro NVIDIA, usando el ensamblaje, que es un lenguaje de programación que habla lenguaje que habla con el hardware. “Este es un hardcore para optimizar estas cosas”, dijo Jeer. “Puedes hacerlo, pero básicamente nadie es difícil de hacer”.

La cadena de innovación de Deepsee en múltiples modelos impresiona. También muestra que el argumento de la compañía que gastó menos de $ 6 millones para entrenar V3 no es toda la historia. R1 y V3 se basan en el stock de la tecnología existente. “Quizás el último clic de la última etapa -baton -a de hacerles millones de 6 millones, pero cuesta 10 veces más para la investigación lo llevó a él”, dijo Friedman. Y en una publicación de blog que recorta la mayoría de las exageraciones, señaló un cofundador y CEO de aliento Dario Amodi De hecho, la compañía ha utilizado 50,000 GPU H100 NVIDIA.

Un nuevo ejemplo

¿Pero por qué ahora? Cientos de nuevas empresas en todo el mundo están tratando de construir la próxima gran cosa. ¿Por qué vimos una cadena de modelos lógicos como O1 y O3 que Google Deepmini’s Gemini 2.0 Flash Pensando, y ahora R1 aparece dentro de una semana?

La respuesta es que los modelos base-GPT-4O, Géminis 2.0, V3- Ahora son suficientes para tener un comportamiento lógico de ellos. “R1 muestra que, con un modelo base sólido, la práctica de refuerzo es suficiente para obtener lógico de un modelo lingüístico sin supervisión humana”, dijo Louis Tunstall, un científico que le abrazó la cara.

En otras palabras, las principales compañías estadounidenses han encontrado cómo hacerlo pero permanecen en silencio. “Su modelo base, su modelo pre -modal y parece ser una forma sabia de convertirlo en una razón más efectiva”, dijo Jeer. “Y hasta este momento, el enfoque requerido para convertir el modelo preexistente en un modelo de razonamiento no es bien conocido. No es público. “

Lo diferente de R1 es que Deepsek ha publicado cómo lo hicieron. “Y resultó que no era un proceso costoso”, dijo Jerille. “La parte difícil es obtener esa pre -modal en primer lugar”. Asparathi reveló en Microsoft Build el año pasado, un modelo representa el 99% del trabajo y el costo.

Si las personas no son tan difíciles como se esperaba, podemos esperar la expansión de modelos libres que son más eficientes de lo que hemos visto. Con el conocimiento público, Friedman piensa, habrá más contribución entre las pequeñas empresas, frenando la ventaja experimentada por las compañías más grandes. “Creo que este es un monumento”, dijo.

Source link

Cuán profundamente rasga el libro de jugadas de IA y por qué todos lo seguirán

Un nuevo ejemplo

Noticias de hoy

Programa de animación de Ventures Ridiculoso de Don Houser y juego...

Los mejores teléfonos Android para 2025

Money de estilo de vida y consejos expertos sobre cómo evitarlo

Congo dice que el ejército en Goma mató a 773 personas...

Joe Saldana ‘Emilia Perez’ Coster Carla Sofia Gascon reacciona al debate

Dejar x será una decisión difícil para las empresas

El modelo O3-Mini de OpenAI está saliendo

Según los editores, los mejores anillos inteligentes para la salud

Los agentes reducen el gasto estatal para las elecciones presidenciales 2026

Notas de enlaces de NYT de hoy, respuestas para el 2...

El oficial del Tesoro se retira después de una confrontación con...

Idea fácil de reinicio del hogar de expertos

Nicho principal: evolución del turismo halal en la industria de viajes...

War vecina de la casa de vacaciones de Peter Gav

Categoría