MetaSlave | il y a 13 jours | Lecture 4 min

Qwen3.5 : Alibaba sort un monstre. Et il est gratuit.

397 milliards de paramètres, open source, et moins cher qu'un café au. OpenAI et Anthropic peuvent s'inquiéter.

Alibaba a lâché quelque chose de dingue hier. Qwen3.5-397B-A17B, c'est le nom officiel du nouveau modèle de la série Qwen, et rien que le nom ressemble à une plaque d'immatriculation de vaisseau spatial. Mais derrière le jargon, l'idée est simple et franchement brutale : un modèle aux performances comparables à GPT-5.2 ou Claude Opus 4.5, il est open source, disponible sur Hugging Face dès maintenant, et qui coûte 0,18 dollar pour 1 million de tokens en version hébergée.

Oui, 18 centimes. Pour un million de Tokens. C'est littéralement moins cher qu'un café chez Starbucks.

La magie technique derrière tout ça, c'est l'architecture MoE (Mixture-of-Experts, ou "mélange d'experts"). Concrètement, le modèle a bien 397 milliards de paramètres en tout, mais il n'en active que 17 milliards à chaque fois qu'il répond. Le reste dort. C'est comme un immense cerveau qui n'utilise que la zone utile selon la tâche demandée, au lieu de tout faire tourner en permanence. Résultat : des performances de modèle géant, avec la facture d'un modèle moyen. Par comparaison, Mixtral 8x7B activait 12 milliards sur 47. Ici on est à 17 milliards sur 397. L'efficacité est brutalement meilleure.

Ce qui rend ça encore plus fort, c'est que cette architecture permet d'être 8 à 19 fois plus rapide que l'ancien Qwen3-Max, selon la longueur du contexte. Et 60 % moins cher. Alibaba n'a pas fait une mise à jour, ils ont refondu le moteur.

La fenêtre de contexte mérite qu'on s'arrête dessus. Le modèle open-source supporte nativement 256 000 tokens. La version hébergée "Plus" monte à 1 million de tokens. Pour se rendre compte : 1 million de tokens, c'est plusieurs heures de vidéo, un codebase entier, ou une pile de documents d'entreprise qui ferait vomir n'importe quel consultant. Avant, pour traiter des données aussi volumineuses, il fallait construire des pipelines RAG compliqués (des systèmes qui découpent les documents, les indexent, et font des recherches dans des bases vectorielles). Là, tu balances tout dans le prompt. C'est pas une amélioration incrémentale. C'est une façon différente de travailler.

Perso je trouve ça dingue qu'on soit déjà là. Il y a deux ans, 100K tokens c'était déjà de la sorcellerie.

Ce modèle a été conçu pour les agents IA, pas pour le chat de base. Et ça se voit dans les choix architecturaux. Il supporte nativement le Model Context Protocol (MCP), le standard qui permet aux agents IA de se connecter à des outils externes comme GitHub ou des navigateurs web. Il gère le "function calling" complexe, autrement dit la capacité à appeler des fonctions et APIs en chaîne dans un seul raisonnement. Sur IFBench (un benchmark qui mesure la capacité à suivre des instructions complexes dans des contextes visuels), il score 76.5 et bat des modèles propriétaires. Sur AIME26 (maths de haut niveau), il atteint 91.3. Sur LiveCodeBench v6 (code en conditions réelles), 83.6. Ces chiffres le placent dans la même conversation que GPT-5.2 et Claude Opus 4.5. Sauf que lui, on peut le télécharger.

Autre chose qui mérite d'être souligné : le modèle supporte 201 langues et dialectes, contre 119 dans la version précédente. C'est pas anodin quand on réalise qu'Alibaba pense ses modèles pour les marchés émergents, l'Asie du Sud-Est, l'Afrique, l'Amérique latine. OpenAI, lui, a longtemps optimisé pour l'anglais d'abord. La guerre de l'IA globale ne se gagne pas qu'en benchmark anglophone. Et la licence est Apache 2.0. Ce qui veut dire que tu peux prendre ce modèle, le modifier, le déployer dans un produit commercial, sans demander la permission à personne. Pas de conditions cachées, pas de "fair use policy" floue, pas de révision de contrat au bout de 12 mois comme Microsoft a l'habitude de faire. Maintenant, les limites réelles. Parce que oui, il y en a.

Le modèle complet en BF16 pèse environ 794 gigaoctets. Pour le faire tourner confortablement, il faut au minimum 8 cartes H100 de 80 Go. C'est réaliste pour une entreprise qui a déjà une infrastructure GPU, mais totalement hors de portée pour un dev solo qui veut bidouiller un week-end. Dans ce cas, les versions quantisées aident : en Q4, on tombe à environ 200 Go, ce qui rentre dans 2 à 3 H100, ou sur une machine avec suffisamment de RAM unifiée comme un Mac M3 Ultra 256 Go. Unsloth, un outil d'optimisation de modèles, a déjà sorti des versions quantisées le jour du lancement.

Il y a aussi un piège spécifique à surveiller si tu déploies ce modèle toi-même : le modèle utilise un "mode thinking", une chaîne de raisonnement interne qui génère des tokens supplémentaires avant de répondre. Ces tokens ne doivent pas rester dans l'historique de conversation en mode multi-tour, sinon le contexte grossit très vite et les performances chutent. Il faut configurer ça manuellement si tu n'utilises pas le template Jinja2 officiel. Les équipes qui bricolent leur propre stack d'inférence sans lire la documentation vont se prendre ça dans la figure.

Autre détail contre-intuitif : l'équipe Qwen recommande de garder une fenêtre de contexte supérieure à 128 000 tokens même quand on n'en a pas besoin. En dessous, la capacité de raisonnement du modèle se dégrade. C'est un comportement inhabituel et ça force à adapter les setups d'inférence.

La vraie question c'est ça : OpenAI et Anthropic ont des modèles fermés, coûteux, et qui restent très bons. Mais Alibaba est en train de démontrer que l'open source peut tenir le même rang, à fraction du coût, avec des licences libres. C'est la même dynamique qu'on a vue avec DeepSeek il y a quelques mois, et avec Llama avant ça. Sauf que là, les performances revendiquées sont encore plus hautes, et l'architecture est franchement innovante, pas juste une copie optimisée.

Le modèle n'est pas parfait. Les benchmarks sont produits par Alibaba eux-mêmes, et la communauté n'a pas encore eu le temps de vraiment tester et casser les chiffres dans des conditions réelles adversariales. Les premières semaines avec DeepSeek avaient montré que certains benchmarks tenaient, d'autres moins. Même exercice à faire ici. Mais la tendance de fond, elle, est claire : les meilleurs modèles du monde ne seront bientôt plus exclusivement derrière des paywalls américains.

Ça change pas mal de choses.

Sources
MarkTechPost | EMSI | Digital Applied | Hugging Face | Unsloth