AI-FirstAI-First
Retour au blog
strategie-ia
9 mai 2026
9 min de lecture

Les LLM moins chers n'arriveront pas à vos clients cette année

SubQ promet des LLM 1000x moins chers grâce à une architecture subquadratique. Mais entre la bêta privée et le scepticisme des chercheurs, vos clients ne verront rien de concret avant longtemps.

Vincent

Vincent

Expert IA — AI-First

SubQ annonce 1000x moins de compute pour les LLM. Analyse des claims, du scepticisme des chercheurs, et de ce que ça change vraiment pour les PME cette année.

Une startup de Miami sort de nulle part, lève 29 millions de dollars et annonce avoir résolu le problème qui plombe l'économie de l'IA depuis 2017. SubQ promet des coûts divisés par 1000 sur les longs contextes, une fenêtre de 12 millions de tokens et une architecture que les grands labos n'auraient jamais réussi à faire fonctionner. Si c'est vrai, c'est la percée de la décennie. Si c'est faux, c'est du vaporware bien emballé. Et dans les deux cas, ça ne changera rien pour vos projets IA cette année.

  • ⚠️ Promesse non vérifiée : aucun rapport technique publié, poids fermés, bêta privée uniquement.
  • 📉 Historique défavorable : Mamba, RWKV, DeepSeek Sparse : toutes les tentatives subquadratiques ont échoué à l'échelle.
  • 💡 Mauvais goulot : pour une PME, le coût du modèle pèse moins que le coût d'intégration.
  • 🎯 Action immédiate : les modèles existants, bien intégrés, créent déjà de la valeur mesurable.

SubQ : la startup qui promet de diviser les coûts par 1000

Le 5 mai 2026, Subquadratic sort du mode furtif. L'entreprise, cofondée par Justin Dangel (CEO) et Alexander Whedon (CTO, ancien Head of Generative AI chez Meta), annonce SubQ 1M-Preview : le premier LLM construit sur une architecture d'attention entièrement subquadratique.

Le pitch tient en une phrase : là où les transformers classiques comparent chaque token à tous les autres (coût quadratique), SubQ sélectionne uniquement les relations pertinentes. Résultat annoncé : un coût qui croît linéairement au lieu de quadratiquement.

Comment fonctionne l'architecture SSA ?

L'attention standard dans un transformer est dense. Chaque token regarde tous les autres. Doublez l'entrée, le calcul est multiplié par quatre. C'est le mur quadratique.

SubQ remplace ça par ce qu'ils appellent Subquadratic Sparse Attention (SSA). Pour chaque token, le modèle choisit dynamiquement un petit sous-ensemble de positions pertinentes, puis calcule l'attention exacte uniquement sur celles-ci. Ce n'est pas de l'attention sparse fixe comme Longformer, ni une approche state-space comme Mamba. SSA conserve le mécanisme d'attention, mais le rend sélectif.

Selon VentureBeat, à 12 millions de tokens, cette architecture réduirait le compute d'attention de presque 1000x par rapport aux modèles frontier actuels. Selon SiliconANGLE, le benchmark RULER 128K afficherait 95% de précision pour 8 dollars, contre 94% et environ 2 600 dollars pour Claude Opus.

Des chiffres qui feraient saliver n'importe quel DSI.

La levée de fonds confirme que des gens sérieux y croient : 29 millions en seed, une valorisation rapportée à 500 millions par The New Stack, et des investisseurs qui incluent le cofondateur de Tinder (Justin Mateen), un ex-partner de SoftBank Vision Fund (Javier Villamizar), ainsi que des early investors d'Anthropic, OpenAI, Stripe et Brex.

Que montrent les benchmarks ?

Benchmark Claude Opus 4.7 GPT-5.5 SubQ 1M-Preview Ce que ça mesure Tendance
SWE-Bench Verified 87.6% n/r 81.8% Ingénierie logicielle réelle ↓ en retrait
RULER 128K 94.8% n/r 95.0% Précision long contexte ↑ +0.2 pts
MRCR v2 (1M, 8 aiguilles) 32.2% 74.0% 65.9% Résolution coréférence long → milieu de peloton

SOURCE : subq.ai benchmarks + VentureBeat · MAJ 05/2026

Les chiffres sont intéressants sur le long contexte, mais SubQ reste en retrait sur SWE-Bench Verified (81.8% contre 87.6% pour Claude Opus 4.7). Un modèle moins cher qui code moins bien n'est pas forcément une bonne affaire pour un agent IA autonome qui doit produire du code fiable.

Pourquoi les chercheurs restent sceptiques

Le problème n'est pas que les claims soient impossibles. C'est qu'elles sont invérifiables.

Quelles preuves manquent encore ?

D'après FelloAI, le rapport technique complet n'a pas été publié. Les poids du modèle restent fermés. Tous les produits (API, SubQ Code, SubQ Search) sont en bêta privée. Et les benchmarks, bien que présentés comme validés par des tiers, n'ont pas fait l'objet d'une reproduction indépendante par la communauté.

Ce n'est pas un détail. L'histoire des architectures subquadratiques est un cimetière de promesses.

Mamba proposait une approche state-space qui devait remplacer l'attention. RWKV tentait de concilier RNN et transformer. DeepSeek a introduit sa propre attention sparse. Chaque fois, les benchmarks sur papier étaient prometteurs et les résultats en production décevants. Aucune de ces architectures n'a réussi à rivaliser avec les transformers dense à l'échelle frontier.

SubQ affirme que SSA est fondamentalement différent parce qu'il conserve l'attention exacte sur les tokens sélectionnés, au lieu de la remplacer par un mécanisme alternatif. C'est un argument technique intéressant. Mais tant que la communauté n'a pas pu reproduire les résultats, le scepticisme reste la position rationnelle.

Comme le résume VentureBeat, la réaction des chercheurs va « de la curiosité sincère aux accusations ouvertes de vaporware ». Pas exactement un consensus.

Le vrai problème : vos clients n'attendent pas un modèle moins cher

Supposons un instant que SubQ tienne toutes ses promesses. Contexte de 12 millions de tokens, coûts linéaires, qualité frontier. Qu'est-ce que ça change concrètement pour une PME de 50 personnes qui veut automatiser son service client ou structurer sa prospection ?

Pas grand-chose cette année.

Pourquoi le coût du modèle n'est pas votre goulot d'étranglement ?

Je le vois chaque semaine en accompagnant des PME sur leurs projets IA : le coût des tokens n'est presque jamais le frein. Ce qui coûte cher, c'est l'intégration. Connecter un LLM au CRM, aux emails, à la base documentaire, former les équipes, gérer les erreurs, itérer sur les prompts. Le vrai coût des LLM n'est pas sur la facture API.

Selon McKinsey, les entreprises qui capturent de la valeur avec l'IA sont celles qui investissent dans l'intégration aux workflows existants, pas celles qui chassent le modèle le moins cher. Le pattern est toujours le même : une démo impressionnante, puis des mois d'intégration avant le premier euro de ROI.

En quoi l'intégration prime sur l'architecture ?

Un modèle 1000x moins cher ne résout pas le fait que votre ERP exporte en CSV, que vos commerciaux n'utilisent pas le CRM correctement, ou que personne dans l'équipe ne sait écrire un prompt structuré. Ces problèmes absorbent 80% du budget d'un projet IA en PME.

Les entreprises que j'accompagne et qui obtiennent des résultats concrets ne sont pas celles qui attendent la prochaine percée architecturale. Ce sont celles qui intègrent l'IA dans leurs départements avec les modèles disponibles, en commençant par un cas d'usage précis et mesurable.

« La vraie valeur n'est pas dans le modèle, elle est dans l'intégration avec vos process métier. SubQ ou pas, cette équation ne change pas. »

Vincent, mai 2026

Ce que vous devriez faire au lieu d'attendre

Le réflexe naturel quand une annonce comme SubQ tombe, c'est de se dire : « attendons, les prix vont baisser ». C'est exactement le mauvais calcul.

Faut-il reporter ses projets IA en attendant SubQ ?

Non. Pour trois raisons.

Premièrement, SubQ est en bêta privée sans date de disponibilité générale annoncée. Même si le modèle fonctionne, vous ne pourrez pas l'utiliser en production avant des mois, probablement pas avant 2027 pour un usage entreprise fiable.

Deuxièmement, les coûts des modèles existants baissent déjà. OpenAI propose du fine-tuning gratuit, Anthropic a divisé les prix de Claude Sonnet par deux en un an, et les modèles open-source comme Llama permettent de faire tourner de l'inférence locale pour certains cas d'usage. Vous n'avez pas besoin d'une rupture architecturale pour obtenir des coûts raisonnables.

Troisièmement, chaque mois d'attente est un mois sans les gains opérationnels que l'IA peut déjà apporter. Un agent IA bien configuré sur votre pipeline commercial génère de la valeur dès la première semaine. Un modèle 1000x moins cher qui n'existe pas encore n'en génère aucune.

Quel signal surveiller pour savoir si SubQ est sérieux ?

Trois indicateurs à guetter :

La publication du rapport technique complet. Sans ça, toute discussion sur l'architecture reste spéculative. La reproduction indépendante des benchmarks par au moins deux équipes de recherche reconnues. Et l'ouverture d'une API publique avec des tarifs vérifiables, pas une bêta privée sur invitation.

Tant que ces trois conditions ne sont pas réunies, SubQ reste une promesse, pas un outil. Et les promesses ne réduisent pas vos coûts opérationnels.

La bonne stratégie n'a pas changé : identifier la tâche qui vous coûte le plus en temps et en argent, brancher un modèle existant dessus, mesurer le ROI en six semaines, itérer. C'est moins spectaculaire qu'une annonce à 29 millions de dollars de levée, mais c'est ce qui fonctionne. Les entreprises qui mettent l'IA au cœur de leurs opérations aujourd'hui, avec les outils d'aujourd'hui, auront un avantage structurel sur celles qui attendent le modèle parfait. Sur GoLive Software, on accompagne exactement ce type de transition : pragmatique, mesurable, sans attendre la prochaine révolution.

Foire aux questions

SubQ est-il vraiment 1000 fois moins cher que Claude ou GPT ?

C'est ce que Subquadratic affirme pour les contextes très longs (12 millions de tokens). À 128K tokens, la réduction annoncée serait plutôt de l'ordre de 300x selon SiliconANGLE. Ces chiffres n'ont pas été reproduits de manière indépendante, et le modèle n'est pas accessible au public. Tant que le rapport technique n'est pas publié, ces claims restent invérifiables.

Peut-on utiliser SubQ en production aujourd'hui ?

Non. Les trois produits (API, SubQ Code, SubQ Search) sont en bêta privée sur demande. Aucune date de disponibilité générale n'a été communiquée. Pour un usage entreprise nécessitant fiabilité et support, il faudra probablement attendre au minimum fin 2026, voire 2027.

Pourquoi les architectures subquadratiques ont-elles toujours échoué ?

Les tentatives précédentes (Mamba, RWKV, DeepSeek Sparse Attention) remplaçaient l'attention par des mécanismes alternatifs ou utilisaient des patterns de sparsité fixes. Elles fonctionnaient bien sur les benchmarks mais perdaient en qualité à l'échelle frontier. SubQ affirme que SSA est différent parce qu'il conserve l'attention exacte, mais cette claim reste à valider.

Une PME devrait-elle attendre la baisse des coûts LLM pour lancer un projet IA ?

Non. Le coût des tokens représente rarement le poste principal d'un projet IA en PME. L'intégration aux outils existants, la formation des équipes et l'itération sur les cas d'usage absorbent la majorité du budget. Attendre un modèle moins cher retarde des gains opérationnels accessibles avec les modèles actuels.

SubQ peut-il remplacer RAG et les pipelines de contexte ?

C'est l'ambition affichée : avec 12 millions de tokens, plus besoin de découper, indexer et retriever les documents, tout tient dans le contexte. En théorie, cela simplifierait drastiquement les architectures. En pratique, personne n'a encore pu vérifier que la qualité se maintient sur des cas d'usage réels à cette échelle.

Vidéos YouTube

Articles & ressources

Passez à l'action avec AI-First

Transformez votre PME avec l'IA. Audit, implémentation et suivi par des experts certifiés.

Demander un audit →

Autres articles

Contactez-nous

Prêt à passer à l'IA ?

Répondez à quelques questions ou réservez directement un appel avec un de nos experts.

Envoyez-nous un message

Réservez un appel découverte

30 minutes avec un expert IA pour identifier vos opportunités d'automatisation. Sans engagement.

Réserver mon créneau

Pourquoi AI-First ?

Approche basée sur l'audit de vos vrais besoins
Implémentation selon les derniers standards
Suivi post-déploiement inclus