DeepSeek-R1, l’émergence d’un dialogue interne


Les modèles de raisonnement
Des données de qualité en grande quantité : le nerf de la guerre
On le sait maintenant depuis quelques temps, les données avec lesquelles sont entrainés les modèles sont l’élément crucial pour obtenir d’excellentes performances. Traditionnellement, on opte pour un finetuning supervisé, c’est-à-dire faire apprendre à ces modèles à recopier des données que l’on sait correctes. Ces modèles de raisonnement n’y échappent pas, il faut un grand nombre de données, usuellement élaborées par des experts, qui contiennent une question et un ou plusieurs cheminements possibles pour générer une réponse (une démonstration). Et vous ne serez pas étonné si je vous dis que plus le problème est complexe, plus la réponse est longue, et plus l’annotation, par des experts est coûteuse, en temps et donc en argent. L’idée est de générer automatiquement ces données, non plus par des humains, mais par un modèle de langue, réduisant ainsi drastiquement les coûts et augmentant le nombre potentiel de données annotées. Bien que ce concept ne soit pas nouveau [13], c’est l’utilisation d’un entraînement par Reinforcement Learning qui représente la véritable avancée, en ouvrant la voie à la création autonome de ces données, en quantité potentiellement infinie.Un passage à l’échelle via le Reinforcement Learning
Parfois décrié [5] mais largement adopté [6,7], Le Reinforcement Learning (RL), ou apprentissage par renforcement en français, est une branche de l’intelligence artificielle qui vise à apprendre des stratégies permettant à un agent d’atteindre un objectif dans un environnement donné. Cet apprentissage repose sur un mécanisme d’essai-erreur, où l’agent interagit avec son environnement en prenant une succession d’actions qui lui valent des récompenses positives, négatives ou nulles. Par exemple, une voiture autonome apprend à rester sur la route en ajustant son volant : une bonne trajectoire est récompensée, tandis qu’une sortie de route ou un accident est pénalisé. Le but du RL est d’optimiser ces décisions pour maximiser la récompense cumulée. Un LLM peut être considéré comme un agent dont les actions sont les réponses textuelles qu’il génère et qui est récompensé pendant son entraînement si ces réponses sont correctes, tant sur le fond que sur la forme, et pénalisées sinon. Ce cadre a donné naissance au RLHF (Reinforcement Learning from Human Feedback), qui consiste à aligner les réponses des LLM avec les préférences des utilisateurs. Contrairement au RLHF, qui se contente majoritairement de réordonner des solutions existantes, nous nous intéressons ici au pur apprentissage par renforcement, visant à faire émerger de nouvelles solutions. En effet, il existe un grand nombre de tâches de raisonnement pour lesquelles il est très simple de vérifier si une réponse est bonne ou pas sans pour autant avoir besoin de sa démonstration. Ceci définit notre signal de récompense, qui est observé uniquement à la fin de la génération de la réponse. Exemple en est dans la Figure 2, imaginons que notre LLM après un long raisonnement nous propose comme solutions 0 et 4, on peut facilement vérifier que 0 est une solution à la question et que 4 ne n’est pas une. On peut donc présenter un grand nombre de problèmes de raisonnement au LLM, le faisant donc interagir avec l’environnement textuel et recevant une récompense positive lorsqu’il répond correctement aux questions (lorsqu’il trouve la réponse au problème de maths) et négative sinon. Le modèle apprend ainsi par essai-erreur sans que l’on ait besoin de lui présenter des solutions aux problèmes – coûteuses à produire – comme on le ferait dans un cadre dit ‘supervisé’. Alors bien-sûr, sur le papier c’est très alléchant, un modèle qui apprend tout seul et de fait, une littérature garnie existe déjà sur le sujet [4, 8]. Mais plusieurs problèmes persistent : d’abord, le signal de récompense est rare : l’agent reçoit peu de retours positifs, ce qui ralentit son apprentissage. Ensuite, l’espace d’action est immense ce qui possibles rend impossible l’exploration exhaustive. Enfin, le RL est connu pour son instabilité, rendant l’optimisation encore plus complexe. C’est donc là la prouesse de DeepSeek, réussissant à faire passer à l’échelle cet entrainement en mode RL, faisant émerger, sans supervision aucune, des comportements de raisonnement. Un point notable est que le modèle, pour raisonner toujours mieux, s’autorise à produire des réponses toujours plus longues au cours desquelles il réalise son auto-critique et explore diverses manières d’aborder les problèmes à résoudre (cf. la figure 3 qui montre que la longueur des réponses du modèle ne cesse d’augmenter au cours de l’entrainement)
Le RL : un moyen, pas une fin
L’étape suivante consiste donc à effectuer un tri parmi tous ces raisonnements. En sélectionnant les démonstrations à la fois vraies et lisibles on construit alors un gros jeu de données de raisonnement constitué d’un large corpus d’environ 600 000 exemples générés par ce modèle ayant appris à raisonner tout seul. Ces données constituent le cœur de l’entrainement de DeepSeek-R1, et la ressource cruciale qui lui permet de rivaliser sur tous les benchmarks de raisonnement avec le modèle o1 d’OpenAI, référence en la matière. Mieux encore, des plus petits modèles open-source (comme Llama, Qwen, etc.) ont été finetunés sur ce jeu de données, amenant à une amélioration significative de leurs performances. Cela a donc fait infuser la connaissance des gros modèles DeepSeek (disposant d’environ 700 milliards de paramètres) vers ces modèles plus frugaux, faisant ainsi profiter la communauté open-source et démontrant la qualité de ce jeu de données. Voilà qui conclut les grandes lignes de l’entraînement de R1. Les lecteurs pressés peuvent désormais passer directement à la section Discussion. Pour les plus curieux, entrons maintenant dans le détail des étapes d’entraînement de DeepSeek-R1.La recette de DeepSeek-R1
Pour démontrer l’utilité de l’entrainement en mode RL, le rapport technique [2] commence par proposer une version expérimentale de modèle de raisonnement nommé DeepSeek-R1-Zero. Avant toute chose, il faut savoir que l’on dispose du modèle pré-entrainé DeepSeek-V3-Base, qui est un modèle qui a suivi un pré-entrainement standard sur (presque) toutes les données textuelles du web et qui est déjà très performant sur des tâches classiques.Un “proof of concept” avec DeepSeek-R1-Zero
Partant du modèle DeepSeek-V3-Base, et au lieu de le finetuner sur des démonstrations de raisonnement comme l’usage le préconise, on fait le choix de lui faire suivre un entrainement à base uniquement de RL. Pour se faire, on lui présente un grand nombre de problèmes sous la forme d’un seul et unique prompt (voir Figure 4) (Toutes les figures sont issues de [3].)
DeepSeek-R1
On est rassuré, on a réussi à faire émerger des capacités de raisonnement avec un prompt bien choisi et du RL à large échelle. Mais ce n’est pas parfait : le LLM ne produit pas toujours du contenu lisible. Reprenons tout depuis le début, avec un modèle qui ne sait pas raisonner. a. On commence par lui montrer quelques exemples bien choisis de raisonnements, c’est le « cold start ». Résultat : il a un point de départ, il sait un peu raisonner. b. On le met à l’épreuve avec du RL à grande échelle : il apprend par essai-erreur, cette fois en étant récompensé non seulement pour les bonnes réponses, mais aussi pour la lisibilité de son texte (ne faisons pas deux fois la même erreur). Résultat : un modèle qui raisonne bien et qui écrit correctement. c. Maintenant qu’il raisonne mieux, on lui demande de générer un grand nombre de démonstrations et on sélectionne les meilleures. Résultat : un corpus de raisonnements de haute qualité. d. Forts de ce corpus, on repart de zéro et on le modèle de base avec ces données. Résultat : un modèle qui sait vraiment bien raisonner. e. Dernière étape : on utilise le RL pour injecter des comportements souhaitables, alignés avec les préférences des utilisateurs, comme la helpfulness (réponses utiles) et la non-nocivité. Résultat : un modèle de raisonnement et qui, en plus, se comporte correctement. Détaillons à présent chacune de ces étapes.a. Des données « cold-start »
Pour encourager le modèle à raisonner comme un humain et afin d’augmenter la lisibilité du raisonnement, on va présenter au modèle DeepSeek-V3-Base un certain nombre de démonstrations, avant de lui faire faire un entrainement de RL à grande échelle. Ces quelques milliers de démonstrations sont générées par différentes méthodes de prompting ou sont extraites des quelques réponses lisibles de DeepSeek-R1-Zero. Dans tous les cas, elles sont sélectionnées par des annotateurs humains. On finetune ce modèle avec ces données (voir Figure 4). On nomme DeepSeek-V3-1 le modèle résultant de ce finetuning.
b. RL à grande échelle
Comme pour R1-Zero, on entraîne DeepSeek-V3-1 avec du RL en favorisant les démonstrations menant aux bonnes réponses. Cette fois, on tire les leçons de l’entraînement précédent : au-delà de la justesse des réponses et du format, on veille à ce que le modèle raisonne dans une seule langue pour éviter les dérives observées avec R1-Zero. On s’assure aussi que ses réponses restent lisibles pour un humain. Comme précédemment, une capacité de raisonnement impressionnante émerge. L’évolution de cet entraînement RL est illustrée en Figure 5. Le modèle ainsi finetuné est nommé DeepSeek-V3-2.
c. Curation des données et « Rejection sampling »
A partir de ce modèle entraîné par RL, on cherche à récupérer des démonstrations pour un grand nombre de nouveaux problèmes. Reprenons la métaphore faite plus haut : il faut voir ce modèle comme un savant ayant exploré tout un tas de problème de raisonnement. Lorsqu’on lui présente un nouveau problème, il va raisonner parfois correctement, parfois pas. Grâce à une technique de « rejection sampling » qui consiste à générer plusieurs démonstrations, pour un même problème, et sélectionner des démonstrations qui produisent une bonne réponse. Ici, une « bonne réponse » peut prendre plusieurs formes : soit une réponse qui génère un signal de récompense positif lorsque la solution est facilement vérifiable (comme en mathématiques ou en code), soit, lorsqu’une vérification directe n’est pas possible, une réponse que juge appropriée un autre LLM (en l’occurrence DeepSeek-V3 ici). Cette curation des données nous conduit à obtenir 600 000 démonstrations de raisonnement. En plus de ces données de raisonnement, et pour conserver la capacité du modèle à répondre à des questions qui ne nécessite pas de raisonnement, on récupère 200 000 données supervisées issues de jeu de données précédents [11]. Le processus de sélection des données est visualisé en Figure 6.
d. Entrainement supervisé
Maintenant qu’on a réussi à générer 800 000 exemples de qualité, on va faire ce qu’on sait le mieux faire : un entraînement supervisé. Ce finetuning est représenté en Figure 7.
e. Reinforcement Learning pour tous les scenarios
Comme on ne change pas une équipe qui gagne, on va faire procéder à une étape d’entrainement de RL à ce modèle (qui rappelons-le, n’en a pas encore fait, lui). Cela va être fait de manière un peu différente que les entrainements à grande échelle des précédents modèles car à présent le signal de récompenses va se décomposer à la fois sur la réponse mais aussi sur l’alignement avec les préférences des utilisateurs, ainsi que la maximisation de sa serviabilité (helpfulness en anglais) et la minimisation de sa nocivité (harmfulness en anglais). Là encore, on visualise en Figure 8, cette partie de l’entrainement.
Résultats
Pour les courageux restés jusqu’ici, on montre ici rapidement quelques résultats quantitatifs sur les différents benchmarks de raisonnement usuels.
Discussion
Au vu des performances impressionnantes obtenues grâce au RL, on peut se demander si cette approche est universelle. En d’autres termes, peut-on entraîner directement un plus petit modèle avec du RL pour lui apprendre à raisonner ? Le rapport apporte quelques éléments de réponse en comparant deux approches sur un modèle environ 20 fois plus petit que DeepSeek-R1. D’un côté, il est entraîné à grande échelle avec du RL ; de l’autre, il est simplement finetuné sur les 800 000 démonstrations issues de l’entraînement de R1. Les résultats sont sans appel : la distillation par finetuning donne de bien meilleurs résultats. Pire encore, l’entraînement RL de ce modèle plus petit n’améliore même pas ses performances.
Synthèse
On résume ici quelques points clés à retenir de cet article DeepSeek-R1. On note d’abord qu’un entrainement du LLM avec du RL s’est révélé très pertinent pour effectuer un travail exploratoire, et pour faire émerger des capacités de raisonnement. Ensuite, de cet entrainement, découlent des modèles qui sont capable de produire un grand nombre des démonstrations de haute valeur qui peuvent être utilisées pour finetuner des modèles comme R1 ou d’autres modèles plus petits. DeepSeek-R1 constitue donc un premier modèle de raisonnement open-source compétitif avec des modèles propriétaires. Le détail de sa méthodologie d’entrainement est aussi une ressource d’une grande valeur pour la communauté scientifique à des fins de reproductibilité. Évidemment, la méthode proposée est une méthode parmi d’autres. On peut donc tout à fait s’attendre à voir émerger, dans les prochains mois, des modèles aussi performants que DeepSeek-R1 et s’appuyant sur une pipeline d’entrainement différente.Bibliographie [1] Mondorf, J., & Plank, B. (2024). Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models – A Survey. arxiv:2404.01869 [2] DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arxiv:2501.12948 [3] Grootendorst, M. (2024). A Visual Guide to Reasoning LLMs. Newsletter [4] Havrilla, A., et al. (2024). Teaching Large Language Models to Reason with Reinforcement Learning. arxiv:2403.04642 [5] LeCun, Y. (2022). Twitter post on RL. X (formerly Twitter) [6] Mnih, V., et al. (2013). Playing Atari with Deep Reinforcement Learning. arxiv:1312.5602 [7] Silver, D., et al. (2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. arxiv:1712.01815 [8] Vassoyan, J., et al. (2025). Ignore the KL Penalty! Boosting Exploration on Critical Tokens to Enhance RL Fine-Tuning. arxiv:2502.06533 [9] Shao, Z., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arxiv:2402.03300 [10] Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arxiv:1707.06347 [11] DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arxiv:2412.19437 [12] Alibaba Group. (2024). Qwen2.5-Coder Technical Report. arxiv:2409.12186 [13] Huang, Y., et al. (2023). Large Language Models Can Self-Improve. arxiv:2210.11610