SubQ IA: el LLM subcuadrático de 12M tokens, benchmarks, límites y veredicto

SubQ es el primer LLM declarado enteramente subcuadrático: lanzado en mayo de 2026 por la startup Subquadratic (Miami), reivindica, según sus propios benchmarks, aún no reproducidos de forma independiente, una ventana de contexto de 12 millones de tokens a un coste de atención 1 000 veces inferior al de los transformers clásicos, gracias a una arquitectura bautizada Subquadratic Sparse Attention (SSA).

Una startup de Miami aparece de la nada, levanta 29 millones de dólares y anuncia que ha resuelto el problema que lastra la economía de la IA desde 2017. SubQ promete costes divididos por 1000 en contextos largos, una ventana de 12 millones de tokens y una arquitectura que los grandes laboratorios nunca habrían conseguido hacer funcionar. Si es cierto, es el avance de la década. Si es falso, es vaporware bien empaquetado. Y en ambos casos, no cambiará nada en sus proyectos de IA este año.

⚠️ Promesa no verificada: ningún informe técnico publicado, pesos cerrados, solo beta privada.
📉 Historial desfavorable: Mamba, RWKV, DeepSeek Sparse: todos los intentos subcuadráticos han fracasado a escala.
💡 Cuello de botella equivocado: para una pyme, el coste del modelo pesa menos que el coste de integración.
🎯 Acción inmediata: los modelos existentes, bien integrados, ya generan valor medible.

SubQ: la startup que promete dividir los costes por 1000

SubQ es el nombre del modelo de la startup Subquadratic (Miami), fundada por Justin Dangel (CEO) y Alex Whedon (ex-Head of Generative AI en Meta), que levantó 29 millones de dólares en ronda seed en mayo de 2026. Reivindica el primer LLM construido sobre una arquitectura enteramente subcuadrática, con costes de atención divididos por 1 000 en ventanas de contexto largas, afirmaciones aún no verificadas de forma independiente a esta fecha.

El 5 de mayo de 2026, Subquadratic sale del modo sigiloso. La empresa, cofundada por Justin Dangel (CEO) y Alexander Whedon (CTO, antiguo Head of Generative AI en Meta), anuncia SubQ 1M-Preview: el primer LLM construido sobre una arquitectura de atención enteramente subcuadrática.

El pitch cabe en una frase: donde los transformers clásicos comparan cada token con todos los demás (coste cuadrático), SubQ selecciona únicamente las relaciones pertinentes. Resultado anunciado: un coste que crece linealmente en lugar de cuadráticamente.

¿Cómo funciona la arquitectura SSA?

La atención estándar en un transformer es densa. Cada token mira a todos los demás. Si se duplica la entrada, el cálculo se multiplica por cuatro. Es el muro cuadrático.

SubQ lo sustituye por lo que denominan Subquadratic Sparse Attention (SSA). Para cada token, el modelo elige dinámicamente un pequeño subconjunto de posiciones pertinentes y luego calcula la atención exacta únicamente sobre ellas. No es atención sparse fija como Longformer, ni un enfoque state-space como Mamba. SSA conserva el mecanismo de atención, pero lo hace selectivo.

En términos de complejidad algorítmica, SSA pasa de O(n²), donde cada token compara todos los demás, a O(n·k), donde k es el número medio de tokens seleccionados por posición. Según The New Stack, esta arquitectura alcanza una velocidad 52 veces superior a FlashAttention a 1 millón de tokens.

Según VentureBeat, a 12 millones de tokens, esta arquitectura reduciría el compute de atención casi 1000 veces respecto a los modelos frontier actuales. Según SiliconANGLE, el benchmark RULER 128K mostraría un 95 % de precisión por 8 dólares, frente al 94,8 % y aproximadamente 2 600 dólares de Claude Opus 4.6.

Cifras que harían salivar a cualquier director de tecnología.

La ronda de financiación confirma que gente seria cree en el proyecto: 29 millones en seed, una valoración reportada en 500 millones por The New Stack, e inversores que incluyen al cofundador de Tinder (Justin Mateen), un ex-partner de SoftBank Vision Fund (Javier Villamizar), así como early investors de Anthropic, OpenAI, Stripe y Brex.

¿Qué muestran los benchmarks?

Benchmark	Claude Opus *	GPT-5.5	SubQ 1M-Preview	Qué mide	Tendencia
SWE-Bench Verified	87.6% (4.7)	n/r	81.8%	Ingeniería de software real	↓ por detrás
RULER 128K	94.8% (4.6)	n/r	95.0%	Precisión en contexto largo	↑ +0.2 pts
MRCR v2 (1M, 8 agujas)	32.2% (4.7)	74.0%	65.9% (desplegado)	Resolución de correferencia largo	→ mitad de tabla

FUENTE: subq.ai benchmarks + VentureBeat · ACT. 05/2026. * Subquadratic utilizó Claude Opus 4.6 para RULER y Claude Opus 4.7 para SWE-Bench / MRCR. La columna SubQ MRCR indica la puntuación del modelo desplegado (65,9 %); la configuración de investigación reivindica un 83 %.

Las cifras son interesantes en contexto largo, pero SubQ queda por detrás en SWE-Bench Verified (81.8% frente al 87.6% de Claude Opus 4.7). Un modelo más barato que programa peor no es necesariamente un buen negocio para un agente de IA autónomo que debe producir código fiable.

Por qué los investigadores siguen escépticos

El problema no es que las afirmaciones sean imposibles. Es que son inverificables.

¿Qué pruebas faltan todavía?

Según FelloAI, el informe técnico completo no se ha publicado. Los pesos del modelo permanecen cerrados. Todos los productos (API, SubQ Code, SubQ Search) están en beta privada. Y los benchmarks, aunque se presentan como validados por terceros, no han sido objeto de una reproducción independiente por parte de la comunidad.

No es un detalle menor. La historia de las arquitecturas subcuadráticas es un cementerio de promesas.

Mamba proponía un enfoque state-space que debía reemplazar la atención. RWKV intentaba conciliar RNN y transformer. DeepSeek introdujo su propia atención sparse. En cada caso, los benchmarks sobre el papel eran prometedores y los resultados en producción, decepcionantes. Ninguna de estas arquitecturas logró competir con los transformers densos a escala frontier.

Una segunda señal de alerta tiene que ver con los propios benchmarks MRCR. Según DataCamp, la configuración de investigación de SubQ alcanza el 83 % en MRCR v2, pero el modelo desplegado en API solo obtiene el 65,9 %, es decir, una diferencia de 17 puntos entre el laboratorio y la producción. Este tipo de brecha entre benchmark interno y rendimiento real es precisamente lo que la comunidad espera que se explique públicamente.

El precedente de Magic.dev también es instructivo. Según The New Stack y VentureBeat, esta startup anunció en agosto de 2024 un contexto de 100 millones de tokens con una ventaja de eficiencia similar de 1 000x, y levantó alrededor de 500 millones de dólares; a principios de 2026, todavía no existe ninguna prueba pública de que su modelo LTM-2-mini se utilice en producción fuera de la propia empresa. Los grandes anuncios de eficiencia contextual ya tienen historial.

SubQ afirma que SSA es fundamentalmente diferente porque conserva la atención exacta sobre los tokens seleccionados, en lugar de reemplazarla por un mecanismo alternativo. Es un argumento técnico interesante. Pero mientras la comunidad no haya podido reproducir los resultados, el escepticismo sigue siendo la posición racional.

Como resume VentureBeat, la reacción de los investigadores va «de la curiosidad sincera a las acusaciones abiertas de vaporware». No es precisamente un consenso.

El verdadero problema: sus clientes no esperan un modelo más barato

Aunque SubQ cumpliera todas sus promesas mañana por la mañana, el coste del modelo rara vez sería la partida de gasto principal de un proyecto de IA en empresa. Lo que frena concretamente los despliegues es la integración con las herramientas existentes, no la factura de tokens.

Supongamos por un momento que SubQ cumple todas sus promesas. Contexto de 12 millones de tokens, costes lineales, calidad frontier. ¿Qué cambia concretamente para una pyme de 50 personas que quiere automatizar su atención al cliente o estructurar su prospección?

Prácticamente nada este año.

¿Por qué el coste del modelo no es su cuello de botella?

Lo veo cada semana acompañando a pymes en sus proyectos de IA: el coste de los tokens casi nunca es el freno. Lo que sale caro es la integración. Conectar un LLM al CRM, a los correos electrónicos, a la base documental, formar a los equipos, gestionar los errores, iterar sobre los prompts. El verdadero coste de los LLM no está en la factura de la API.

Según McKinsey, las empresas que capturan valor con la IA son las que invierten en la integración con los workflows existentes, no las que persiguen el modelo más barato. El patrón es siempre el mismo: una demo impresionante y luego meses de integración antes del primer euro de ROI.

¿Por qué la integración prima sobre la arquitectura?

Un modelo 1000 veces más barato no resuelve el hecho de que su ERP exporta en CSV, que sus comerciales no usan el CRM correctamente o que nadie en el equipo sabe escribir un prompt estructurado. En mi experiencia con pymes, estos problemas absorben la gran mayoría del presupuesto de un proyecto de IA, rara vez menos del 70 al 80 %.

Las empresas a las que acompaño y que obtienen resultados concretos no son las que esperan la próxima revolución arquitectónica. Son las que integran la IA en sus departamentos con los modelos disponibles, empezando por un caso de uso preciso y medible.

« El verdadero valor no está en el modelo, está en la integración con sus procesos de negocio. Con o sin SubQ, esa ecuación no cambia. »
Vincent, mayo 2026

Lo que debería hacer en lugar de esperar

No aplace sus proyectos de IA esperando a SubQ. Los modelos existentes ya generan valor medible, y SubQ no estará disponible en producción empresarial antes de finales de 2026 como mínimo, probablemente no antes de 2027.

El reflejo natural cuando cae un anuncio como el de SubQ es pensar: «esperemos, los precios van a bajar». Es exactamente el cálculo equivocado.

¿Hay que aplazar los proyectos de IA esperando a SubQ?

No. Por tres razones.

En primer lugar, SubQ está en beta privada sin fecha de disponibilidad general anunciada. Aunque el modelo funcione, no podrá utilizarlo en producción antes de meses, probablemente no antes de 2027 para un uso empresarial fiable.

En segundo lugar, los costes de los modelos existentes ya están bajando. OpenAI ofrece fine-tuning gratuito, Anthropic ha reducido significativamente los precios de sus modelos a lo largo del último año, y los modelos open-source como Llama permiten ejecutar inferencia local para ciertos casos de uso. No necesita una ruptura arquitectónica para obtener costes razonables.

En tercer lugar, cada mes de espera es un mes sin las ganancias operativas que la IA ya puede aportar. Un agente de IA bien configurado en su pipeline comercial genera valor desde la primera semana. Un modelo 1000 veces más barato que todavía no existe no genera ninguno.

¿Qué señales vigilar para saber si SubQ va en serio?

Tres indicadores a seguir:

La publicación del informe técnico completo. Sin eso, toda discusión sobre la arquitectura es especulativa. La reproducción independiente de los benchmarks por al menos dos equipos de investigación reconocidos. Y la apertura de una API pública con tarifas verificables, no una beta privada por invitación.

Mientras estas tres condiciones no se cumplan, SubQ sigue siendo una promesa, no una herramienta. Y las promesas no reducen sus costes operativos.

La buena estrategia no ha cambiado: identificar la tarea que más le cuesta en tiempo y dinero, conectar un modelo existente, medir el ROI en seis semanas e iterar. Es menos espectacular que un anuncio con 29 millones de dólares de ronda, pero es lo que funciona. Las empresas que ponen la IA en el centro de sus operaciones hoy, con las herramientas de hoy, tendrán una ventaja estructural sobre las que esperan el modelo perfecto. En GoLive Software acompañamos exactamente este tipo de transición: pragmática, medible, sin esperar a la próxima revolución.

Preguntas frecuentes

¿SubQ es realmente 1000 veces más barato que Claude o GPT?

Es lo que Subquadratic afirma para contextos muy largos (12 millones de tokens). A 128K tokens, la reducción anunciada sería más bien del orden de 300x según SiliconANGLE. Estas cifras no han sido reproducidas de manera independiente, y el modelo no es accesible al público. Mientras el informe técnico no se publique, estas afirmaciones siguen siendo inverificables.

¿Se puede usar SubQ en producción hoy?

No. Los tres productos (API, SubQ Code, SubQ Search) están en beta privada bajo solicitud. No se ha comunicado ninguna fecha de disponibilidad general. Para un uso empresarial que requiera fiabilidad y soporte, habrá que esperar como mínimo a finales de 2026, posiblemente a 2027.

¿Por qué las arquitecturas subcuadráticas siempre han fracasado?

Los intentos anteriores (Mamba, RWKV, DeepSeek Sparse Attention) reemplazaban la atención por mecanismos alternativos o utilizaban patrones de sparsity fijos. Funcionaban bien en los benchmarks pero perdían calidad a escala frontier. SubQ afirma que SSA es diferente porque conserva la atención exacta, pero esta afirmación queda por validar.

¿Debería una pyme esperar a que bajen los costes de los LLM para lanzar un proyecto de IA?

No. El coste de los tokens rara vez representa la partida principal de un proyecto de IA en una pyme. La integración con las herramientas existentes, la formación de los equipos y la iteración sobre los casos de uso absorben la mayor parte del presupuesto. Esperar un modelo más barato retrasa ganancias operativas accesibles con los modelos actuales.

¿Puede SubQ reemplazar RAG y los pipelines de contexto?

Esa es la ambición declarada: con 12 millones de tokens, ya no haría falta segmentar, indexar ni recuperar documentos, todo cabría en el contexto. En teoría, eso simplificaría drásticamente las arquitecturas. En la práctica, nadie ha podido verificar aún que la calidad se mantenga en casos de uso reales a esa escala.

Vidéos YouTube

A New AI Model Just Dropped With A CRAZY Claim · YouTube

Los LLM más baratos no llegarán a sus clientes este año

SubQ: la startup que promete dividir los costes por 1000

¿Cómo funciona la arquitectura SSA?

¿Qué muestran los benchmarks?

Por qué los investigadores siguen escépticos

¿Qué pruebas faltan todavía?

El verdadero problema: sus clientes no esperan un modelo más barato

¿Por qué el coste del modelo no es su cuello de botella?

¿Por qué la integración prima sobre la arquitectura?

Lo que debería hacer en lugar de esperar

¿Hay que aplazar los proyectos de IA esperando a SubQ?

¿Qué señales vigilar para saber si SubQ va en serio?

Preguntas frecuentes

Vidéos YouTube

Articles & ressources

Pasa a la acción con AI-First

Más artículos

Los LLM más baratos no llegarán a sus clientes este año

SubQ: la startup que promete dividir los costes por 1000

¿Cómo funciona la arquitectura SSA?

¿Qué muestran los benchmarks?

Por qué los investigadores siguen escépticos

¿Qué pruebas faltan todavía?

El verdadero problema: sus clientes no esperan un modelo más barato

¿Por qué el coste del modelo no es su cuello de botella?

¿Por qué la integración prima sobre la arquitectura?

Lo que debería hacer en lugar de esperar

¿Hay que aplazar los proyectos de IA esperando a SubQ?

¿Qué señales vigilar para saber si SubQ va en serio?

Preguntas frecuentes

Vidéos YouTube

Articles & ressources

Pasa a la acción con AI-First

Más artículos

IA en el trabajo en 2026: lo que una pyme puede hacer legalmente (RGPD + AI Act del 2 de agosto)

Project Glasswing: quién tiene realmente acceso a Claude Mythos (y por qué ningún actor francés aparece en la lista)

ROI de la IA en pymes: cómo medirlo de verdad (y dejar de engañarse)