DeepSeek hace lo mismo que los modelos más avanzados de OpenAI con mucho menos recursos. La clave: "reinforcement learning"

El mundo entero está preguntándose cómo es posible que los modelos de IA de DeepSeek se hayan convertido de la noche a la mañana en los grandes protagonistas de la actualidad en el ámbito de la inteligencia artificial. La respuesta es relativamente sencilla. Estos modelos han logrado demostar que se puede hacer más con mucho menos.

Tanto DeepSeek V3 como DeepSeek-R1 son comparables a GPT-4 o o1 de OpenAI respectivamente, pero se estima que su entrenamiento ha sido mucho menos costoso y su inferencia, desde luego, lo es: los precios de la API de DeepSeek son hasta 35 veces inferiores a los de OpenAI, pero eso hace que uno se pregunte cómo es posible.

La respuesta es clara, y lo es porque tenemos a nuestra disposición los informes técnicos de estos modelos de IA. Precismente su estudio nos ha permitido aclarar cuáles son las técnicas que ha usado este laboratorio de I+D chino para llegar a desarrollar estos modelos tan eficientes y capaces.

Muchas técnicas, un solo objetivo: la eficiencia

Hay varias diferencias que hacen que el nuevo modelo de DeepSeek sea especialmente eficiente. Lo explican con detalle sus creadores en el detallado informe técnico que está disponible públicamente. He aquí las más relevantes:

Aprendizaje por refuerzo y «destilación» como claves

Pero es que además de todas esas técnicas los responsables de DeepSeek V3 explican cómo lo preentrenaron con 14,8 billones de tokens, proceso al cual siguió un Ajuste Supervisado (Supervised Fine-Tuning, SFT) y varias etapas de Aprendizaje por Refuerzo (Reinforcement Learning, RL). La fase de SFT –que sí se menciona en el informe de DeepSeek V3– se omitió por completo en el caso de DeepSeek-R1.

{«videoId»:»x9d50pw»,»autoplay»:false,»title»:»Comparativa DeepSeek y modelos de IA», «tag»:»DeepSeek», «duration»:»114″}

Sin embargo el aprendizaje por refuerzo es protagonista absoluto en el desarrollo de ambos modelos, sobre todo en el R1. La técnica es muy conocida en el ámbito de la inteligencia artificial, y es como si entrenáramos a un perro con premios y castigos. El modelo aprende a responder mejor al darle recompensas si lo hace bien. Con el tiempo, el modelo aprende a tomar acciones que maximizan la recompensa a largo plazo. En DeepSeek se utiliza el aprendizaje por refuerzo para descomponer problemas complejos en pasos más pequeños.

En el informe técnico de DeepSeek R1 se indica además cómo este modelo hace uso de las técnicas RL directamente sobre el modelo base, sin necesidad de un entrenamiento supervisado. Eso ahorra recursos de cómputo.

También entra en juego aquí la llamada Cadena de Pensamiento (Chain-of-Thought), también mencionada en el informe técnico. Con ello se refieren a la capacidad de un modelo de lenguaje para mostrar los pasos intermedios de su razonamiento. El modelo no solo proporciona una respuesta: también explica cómo llegó a esa respuesta.

Eso no solo mejora la transparencia (sabemos «qué está pensando la IA»), sino que permite identificar errores y mejorar la precisión. La combinación de ambas técnicas hace que en la etapa de inferencia el comportamiento de DeepSeek sea especialmente notable.

En el caso de DeepSeek R1 hay otras técnicas que permiten también hacerlo especialmente eficiente. Entre ellas destaca la destilación de los modelos. ¿En que consiste ese proceso?

La destilación de modelos es como enseñar a un «modelo alumno» más pequeño a comportarse como un «modelo profesor» más grande y avanzado. Se entrena a un modelo pequeño para que imite las capacidades y comportamiento de un modelo grande, pero con menos recursos computacionales. El objetivo es claro: que el modelo pequeño sea más rápido y eficiente, pero igual de inteligente en tareas específicas.

Los desarrolladores de DeepSeek-R1 destacan cómo usaron modelos pequeños como Qwen (de 1.5B a 32B) o Llama 3.3 (8B y 70B-Instruct) usando 800.000 muestras filtradas con DeepSeek-R1. En esos modelos solo se uso aprendizaje supervisado y no aprendizaje por refuerzo porque querían demostrar la efectividad de la técnica de destilado. Los resultados de ese proceso saltaron a la vista en los benchmarks publicados en ese informe técnico: aun siendo más pequeños que sus competidores, su comportamiento era mejor.

Captura De Pantalla 2025 01 28 A Las 12 46 46

Varios benchmarks parecen dejar claro que el rendimiento de las variantes destiladas de DeepSeek R1 es superior al de sus competidores.

Hay otras mejoras adicionales en este modelo, pero sin duda esas son las más importantes a la hora de lograr esa eficiencia y ese «hacer más con menos». La documentación de DeepSeek es fantástica y seguramente sea muy útil para que otros proyectos en este ámbito sigan evolucionando y mejorando, pero hoy por hoy una cosa está clara: el resultado de esas mejoras es espectacular, y los modelos de DeepSeek se comportan tan bien o mejor que sus competidores, como hemos podido comprobar en nuestra extensa comparativa

En Xataka | Las sanciones han sido clave: DeepSeek ha tenido que tirar de puro ingenio, rompiendo el paradigma de «más = mejor» de la IA

(function() {
window._JS_MODULES = window._JS_MODULES || {};
var headElement = document.getElementsByTagName(‘head’)[0];
if (_JS_MODULES.instagram) {
var instagramScript = document.createElement(‘script’);
instagramScript.src = ‘https://platform.instagram.com/en_US/embeds.js’;
instagramScript.async = true;
instagramScript.defer = true;
headElement.appendChild(instagramScript);
}
})();


La noticia

DeepSeek hace lo mismo que los modelos más avanzados de OpenAI con mucho menos recursos. La clave: «reinforcement learning»

fue publicada originalmente en

Xataka

por
Javier Pastor

.