Le Streaming d'Experts : faire tourner des LLM géants sur du matériel limité

Un défi colossal : faire tourner 397 milliards de paramètres

Les grands modèles de langage (LLM) les plus puissants du moment, comme Qwen3.5-397B-A17B, représentent des centaines de milliards de paramètres. En conditions normales, les charger intégralement en mémoire vive (RAM) nécessiterait plusieurs centaines de gigaoctets — un luxe réservé aux data centers et aux laboratoires de recherche bien dotés.

A dramatic visualization of a massive neural network with hundreds of billions of nodes, most of them dimmed and stored

Pourtant, une technique émergente appelée streaming experts change radicalement la donne. Elle permet à des passionnés, des développeurs indépendants et des entreprises de taille modeste de faire tourner ces mastodontes de l'IA sur des machines grand public, avec une fraction de la RAM habituellement requise.

« Dan Woods a réussi à faire tourner Qwen3.5-397B-A17B dans seulement 48 Go de RAM, en streamant les poids des experts nécessaires depuis le SSD pour chaque token traité. »

— Simon Willison, 24 mars 2026

Comprendre l'architecture Mixture-of-Experts (MoE)

Pour saisir l'ingéniosité du streaming experts, il faut d'abord comprendre l'architecture sur laquelle il repose : le Mixture-of-Experts (MoE).

Contrairement aux modèles denses classiques qui activent l'intégralité de leurs paramètres pour chaque calcul, les modèles MoE sont organisés en experts spécialisés. Pour chaque token (unité de texte) traité, seul un sous-ensemble restreint de ces experts est activé.

💡 Point clé : Dans le cas de Qwen3.5-397B-A17B, le suffixe A17B signifie que seulement 17 milliards de paramètres sont activés à chaque étape, malgré un total de 397 milliards. C'est ce qu'on appelle les paramètres « actifs ».

Comparaison : modèle dense vs Mixture-of-Experts
Caractéristique	Modèle Dense	Mixture-of-Experts (MoE)
Paramètres activés par token	100% des paramètres	Seulement quelques experts (~5-15%)
RAM requise	Très élevée (proportionnelle au total)	Potentiellement réduite avec streaming
Coût de calcul par token	Élevé	Réduit (experts partiels)
Exemples de modèles	LLaMA, Mistral 7B	Mixtral, Qwen3.5-397B, DeepSeek-V3

La technique du Streaming Experts : comment ça fonctionne ?

Le streaming experts pousse la logique MoE encore plus loin. Plutôt que de charger l'ensemble des poids du modèle en RAM au démarrage, cette technique ne charge en mémoire vive que les experts réellement nécessaires pour traiter le token courant, en les lisant à la volée depuis le SSD.

A close-up illustration of data flowing like a liquid stream from a glowing NVMe SSD drive into RAM memory chips on a mo

Le flux de traitement étape par étape

Réception du token : Le système reçoit le prochain token à traiter (un mot, une syllabe, un symbole).
Sélection des experts : Un mécanisme de routage (le « gating network ») détermine quels experts sont nécessaires pour ce token spécifique.
Streaming depuis le SSD : Les poids de ces experts sont lus depuis le SSD et chargés en RAM.
Calcul : L'inférence est effectuée avec ces experts en mémoire.
Libération : Les poids peuvent être libérés ou mis en cache pour le token suivant.
Répétition : Le cycle recommence pour chaque nouveau token généré.

🎯 Analogie : Imaginez une immense bibliothèque (le SSD) contenant des milliers de livres spécialisés (les experts). Plutôt que de tout entasser sur votre bureau (la RAM), vous allez chercher uniquement le livre dont vous avez besoin pour répondre à chaque question, puis le reposez.

Les compromis et performances à connaître

Le streaming experts n'est pas une solution magique sans contrepartie. Il implique des compromis importants qu'il faut bien comprendre avant de se lancer.

Avantages

✅ RAM drastiquement réduite : Qwen3.5-397B dans 48 Go au lieu de plusieurs centaines de Go.
✅ Accessibilité matérielle : Fonctionne sur des machines grand public avec un bon SSD NVMe.
✅ Qualité préservée : Le modèle complet est utilisé, sans quantification agressive ni élagage.
✅ Démocratisation : Ouvre la voie à l'IA locale pour un public beaucoup plus large.

Inconvénients et limites

⚠️ Vitesse réduite : La lecture SSD est bien plus lente que la RAM, ce qui ralentit la génération de tokens.
⚠️ Dépendance au SSD : Un SSD NVMe rapide est indispensable ; un disque dur classique serait rédhibitoire.
⚠️ Usure du SSD : Des lectures intensives et répétées peuvent accélérer l'usure du support de stockage.
⚠️ Complexité d'implémentation : La mise en cache intelligente des experts est cruciale pour optimiser les performances.

Configuration matérielle : ce dont vous avez besoin
Composant	Minimum recommandé	Idéal
RAM	48 Go	64-128 Go
Stockage	SSD NVMe PCIe 3.0	SSD NVMe PCIe 4.0 ou 5.0
Espace disque	~200-400 Go pour le modèle	1 To+ (plusieurs modèles)
GPU (optionnel)	Non requis	GPU avec VRAM pour accélérer certains experts

L'exploit de Dan Woods : Qwen3.5-397B dans 48 Go de RAM

C'est le développeur Dan Woods qui a mis en lumière le potentiel concret du streaming experts en réussissant à faire tourner Qwen3.5-397B-A17B — un modèle de 397 milliards de paramètres — sur une machine équipée de seulement 48 Go de RAM.

Cet exploit, relayé et analysé par Simon Willison sur son blog, illustre parfaitement ce que la technique rend possible :

« La technique du streaming experts consiste à faire tourner de grands modèles Mixture-of-Experts sur du matériel insuffisant en RAM en streamant les poids des experts nécessaires depuis le SSD pour chaque token traité. »

— Simon Willison, simonwillison.net

Pour mettre cela en perspective : charger Qwen3.5-397B de manière traditionnelle (en FP16) nécessiterait environ 794 Go de RAM. Le streaming experts réduit ce besoin à 48 Go, soit une réduction de plus de 94%.

📊 Chiffre clé : Réduction de la RAM nécessaire de ~794 Go à 48 Go, soit une diminution de plus de 94% grâce au streaming experts.

Ce que cela signifie pour la démocratisation de l'IA locale

L'impact potentiel du streaming experts sur l'écosystème de l'IA locale est considérable. Voici ce que cette avancée technique pourrait changer concrètement :

A diverse group of people — a student, a small business owner, a researcher — each working on modest laptop computers an

Pour les développeurs indépendants

Un développeur équipé d'un PC gaming moderne (16-64 Go de RAM, SSD NVMe rapide) pourrait désormais expérimenter avec des modèles de classe frontier, sans avoir à louer des instances cloud coûteuses.

Pour les entreprises de taille moyenne

Des PME souhaitant déployer des LLM puissants en interne, pour des raisons de confidentialité des données, pourraient le faire sans investir dans des infrastructures GPU massives.

Pour la recherche et l'éducation

Les universités et laboratoires aux budgets limités pourraient accéder à des modèles de pointe pour leurs travaux, réduisant la fracture entre grandes et petites institutions.

Les implications à long terme

🔒 Confidentialité renforcée : Traitement local des données sensibles sans envoi vers des serveurs tiers.
💰 Réduction des coûts : Moins de dépendance aux API cloud facturées à l'usage.
🌐 Accès hors ligne : Utilisation de modèles puissants sans connexion internet.
🔧 Personnalisation : Fine-tuning et adaptation locale de modèles massifs.
🌍 Inclusion géographique : Accès à l'IA de pointe dans des régions avec une connectivité limitée.

Le streaming experts s'inscrit dans une tendance plus large d'optimisation des LLM pour le matériel grand public, aux côtés de la quantification (GGUF, AWQ, GPTQ) et du déchargement CPU/GPU. Ensemble, ces techniques dessinent un futur où les modèles les plus puissants du monde ne seront plus l'apanage exclusif des géants technologiques.

Pour suivre les dernières avancées sur ce sujet, la veille de Simon Willison reste une référence incontournable dans la communauté.

Conseil & Stratégie

Développement sur-mesure

Formation - Academy

Productivité

Auto-diagnostic

RH & Recrutement