Le Streaming d'Experts : faire tourner des LLM géants sur du matériel limité

Un défi colossal : faire tourner 397 milliards de paramètres
Les grands modèles de langage (LLM) les plus puissants du moment, comme Qwen3.5-397B-A17B, représentent des centaines de milliards de paramètres. En conditions normales, les charger intégralement en mémoire vive (RAM) nécessiterait plusieurs centaines de gigaoctets — un luxe réservé aux data centers et aux laboratoires de recherche bien dotés.

Pourtant, une technique émergente appelée streaming experts change radicalement la donne. Elle permet à des passionnés, des développeurs indépendants et des entreprises de taille modeste de faire tourner ces mastodontes de l'IA sur des machines grand public, avec une fraction de la RAM habituellement requise.
« Dan Woods a réussi à faire tourner Qwen3.5-397B-A17B dans seulement 48 Go de RAM, en streamant les poids des experts nécessaires depuis le SSD pour chaque token traité. »
Comprendre l'architecture Mixture-of-Experts (MoE)
Pour saisir l'ingéniosité du streaming experts, il faut d'abord comprendre l'architecture sur laquelle il repose : le Mixture-of-Experts (MoE).
Contrairement aux modèles denses classiques qui activent l'intégralité de leurs paramètres pour chaque calcul, les modèles MoE sont organisés en experts spécialisés. Pour chaque token (unité de texte) traité, seul un sous-ensemble restreint de ces experts est activé.
A17B signifie que seulement 17 milliards de paramètres sont activés à chaque étape, malgré un total de 397 milliards. C'est ce qu'on appelle les paramètres « actifs ».
| Caractéristique | Modèle Dense | Mixture-of-Experts (MoE) |
|---|---|---|
| Paramètres activés par token | 100% des paramètres | Seulement quelques experts (~5-15%) |
| RAM requise | Très élevée (proportionnelle au total) | Potentiellement réduite avec streaming |
| Coût de calcul par token | Élevé | Réduit (experts partiels) |
| Exemples de modèles | LLaMA, Mistral 7B | Mixtral, Qwen3.5-397B, DeepSeek-V3 |
La technique du Streaming Experts : comment ça fonctionne ?
Le streaming experts pousse la logique MoE encore plus loin. Plutôt que de charger l'ensemble des poids du modèle en RAM au démarrage, cette technique ne charge en mémoire vive que les experts réellement nécessaires pour traiter le token courant, en les lisant à la volée depuis le SSD.

Le flux de traitement étape par étape
- Réception du token : Le système reçoit le prochain token à traiter (un mot, une syllabe, un symbole).
- Sélection des experts : Un mécanisme de routage (le « gating network ») détermine quels experts sont nécessaires pour ce token spécifique.
- Streaming depuis le SSD : Les poids de ces experts sont lus depuis le SSD et chargés en RAM.
- Calcul : L'inférence est effectuée avec ces experts en mémoire.
- Libération : Les poids peuvent être libérés ou mis en cache pour le token suivant.
- Répétition : Le cycle recommence pour chaque nouveau token généré.
Les compromis et performances à connaître
Le streaming experts n'est pas une solution magique sans contrepartie. Il implique des compromis importants qu'il faut bien comprendre avant de se lancer.
Avantages
- ✅ RAM drastiquement réduite : Qwen3.5-397B dans 48 Go au lieu de plusieurs centaines de Go.
- ✅ Accessibilité matérielle : Fonctionne sur des machines grand public avec un bon SSD NVMe.
- ✅ Qualité préservée : Le modèle complet est utilisé, sans quantification agressive ni élagage.
- ✅ Démocratisation : Ouvre la voie à l'IA locale pour un public beaucoup plus large.
Inconvénients et limites
- ⚠️ Vitesse réduite : La lecture SSD est bien plus lente que la RAM, ce qui ralentit la génération de tokens.
- ⚠️ Dépendance au SSD : Un SSD NVMe rapide est indispensable ; un disque dur classique serait rédhibitoire.
- ⚠️ Usure du SSD : Des lectures intensives et répétées peuvent accélérer l'usure du support de stockage.
- ⚠️ Complexité d'implémentation : La mise en cache intelligente des experts est cruciale pour optimiser les performances.
| Composant | Minimum recommandé | Idéal |
|---|---|---|
| RAM | 48 Go | 64-128 Go |
| Stockage | SSD NVMe PCIe 3.0 | SSD NVMe PCIe 4.0 ou 5.0 |
| Espace disque | ~200-400 Go pour le modèle | 1 To+ (plusieurs modèles) |
| GPU (optionnel) | Non requis | GPU avec VRAM pour accélérer certains experts |
L'exploit de Dan Woods : Qwen3.5-397B dans 48 Go de RAM
C'est le développeur Dan Woods qui a mis en lumière le potentiel concret du streaming experts en réussissant à faire tourner Qwen3.5-397B-A17B — un modèle de 397 milliards de paramètres — sur une machine équipée de seulement 48 Go de RAM.
Cet exploit, relayé et analysé par Simon Willison sur son blog, illustre parfaitement ce que la technique rend possible :
« La technique du streaming experts consiste à faire tourner de grands modèles Mixture-of-Experts sur du matériel insuffisant en RAM en streamant les poids des experts nécessaires depuis le SSD pour chaque token traité. »
Pour mettre cela en perspective : charger Qwen3.5-397B de manière traditionnelle (en FP16) nécessiterait environ 794 Go de RAM. Le streaming experts réduit ce besoin à 48 Go, soit une réduction de plus de 94%.
Ce que cela signifie pour la démocratisation de l'IA locale
L'impact potentiel du streaming experts sur l'écosystème de l'IA locale est considérable. Voici ce que cette avancée technique pourrait changer concrètement :

Pour les développeurs indépendants
Un développeur équipé d'un PC gaming moderne (16-64 Go de RAM, SSD NVMe rapide) pourrait désormais expérimenter avec des modèles de classe frontier, sans avoir à louer des instances cloud coûteuses.
Pour les entreprises de taille moyenne
Des PME souhaitant déployer des LLM puissants en interne, pour des raisons de confidentialité des données, pourraient le faire sans investir dans des infrastructures GPU massives.
Pour la recherche et l'éducation
Les universités et laboratoires aux budgets limités pourraient accéder à des modèles de pointe pour leurs travaux, réduisant la fracture entre grandes et petites institutions.
Les implications à long terme
- 🔒 Confidentialité renforcée : Traitement local des données sensibles sans envoi vers des serveurs tiers.
- 💰 Réduction des coûts : Moins de dépendance aux API cloud facturées à l'usage.
- 🌐 Accès hors ligne : Utilisation de modèles puissants sans connexion internet.
- 🔧 Personnalisation : Fine-tuning et adaptation locale de modèles massifs.
- 🌍 Inclusion géographique : Accès à l'IA de pointe dans des régions avec une connectivité limitée.
Le streaming experts s'inscrit dans une tendance plus large d'optimisation des LLM pour le matériel grand public, aux côtés de la quantification (GGUF, AWQ, GPTQ) et du déchargement CPU/GPU. Ensemble, ces techniques dessinent un futur où les modèles les plus puissants du monde ne seront plus l'apanage exclusif des géants technologiques.
Pour suivre les dernières avancées sur ce sujet, la veille de Simon Willison reste une référence incontournable dans la communauté.
Besoin d'accompagnement en IA ?
Nos experts vous aident à identifier et déployer les solutions d'intelligence artificielle adaptées à votre entreprise.
Consultation stratégique offerte

