Un setup GPU local para inferencia IA cuesta entre 2 000 y 25 000 euros según la VRAM objetivo, genera de 15 a 60 tokens por segundo en modelos 35-70B cuantizados, y solo se justifica económicamente a partir de 300 a 500 euros mensuales de consumo API, sin contar la electricidad ni el tiempo de administración.
Estás harto de pagar 100, 200, 500 euros al mes en API para tus agentes IA. Un post en Reddit te ha convencido de que un Mac Studio de segunda mano o una pila de RTX 3090 podía sustituirlo todo. El razonamiento parece infalible: compras el hardware una vez, ejecutas tus modelos gratis y la inversión se amortiza en pocos meses.
Solo que ese razonamiento olvida la mitad de la ecuación. Cada semana veo builds de 7 000, 15 000 e incluso 25 000 euros en r/LocalLLaMA, montados por entusiastas que después descubren que sus tokens por segundo no compiten con una inferencia API a 0,002 dólares por mil tokens. Antes de sacar la tarjeta para comprar hardware, aquí va el cálculo completo.
- ⚡ Energía subestimada: un build de 8 GPU consume 900 W en inferencia, 24h/24.
- 📉 Rendimiento decepcionante: 27 tok/s en local donde la API genera 100+ de forma instantánea.
- 🏗️ Inversión elevada: de 2 000 a 25 000 euros según el setup, sin garantía de ROI.
- 🎯 Casos de uso específicos: la confidencialidad y el volumen justifican lo local, no el ahorro bruto.
La fantasía del "cero coste API"
No, el hardware comprado una vez no elimina los costes de explotación. La electricidad, el mantenimiento y la depreciación representan típicamente entre el 30 y el 50 % del coste total de un setup en dos años, tres partidas que los cálculos de foro pasan sistemáticamente por alto.
El argumento es siempre el mismo en los foros: «he sustituido 100 euros al mes de API por un Mac Studio de 2 000 euros, amortizado en 20 meses». Un usuario de r/n8n publicó recientemente un build completo con un Mac Studio M1 Ultra comprado en eBay por 1 800 euros, ejecutando Qwen 3.5 35B a 60 tokens por segundo. Sobre el papel, resulta atractivo.
La comunidad no tardó en desencantarse. « You didn't save anything, you spent 1 800 euros », respondió un comentario con 55 upvotes. El contexto del modelo estaba limitado a 4 096 tokens (frente a 128K+ en API), y la calidad del modelo local no rivaliza con Gemini o Claude en tareas complejas.
¿Por qué el cálculo "hardware una vez, gratis después" es falso?
Ese cálculo ignora tres partidas que se acumulan en silencio. La electricidad, para empezar: un build multi-GPU consume entre 300 y 900 vatios de forma continua. El tiempo de administración, después: configurar llama.cpp, vLLM o SGLang, gestionar las actualizaciones de modelos, depurar problemas CUDA. La depreciación, por último: una RTX 3090 comprada hoy valdrá la mitad en 18 meses.
La API tampoco es gratuita, pero incluye todo eso en su precio. Cuando pagas entre 1 y 15 dólares por millón de tokens de salida según el modelo en Anthropic u OpenAI, estás pagando el datacenter, la refrigeración, la optimización continua del serving y el acceso al último modelo sin cambiar de tarjeta.
Ya he detallado esta economía oculta de los LLM en un artículo dedicado. La conclusión es la misma: el coste visible (la factura API) oculta un coste invisible mucho mayor en local.
Lo que realmente cuesta un setup GPU local
Un setup GPU local para inferencia LLM cuesta entre 2 000 y 25 000 euros en hardware, a los que se suman de 50 a 200 euros mensuales de electricidad según la potencia consumida de forma continua. Los builds documentados en r/LocalLLaMA en mayo de 2026 ofrecen una fotografía precisa de lo que la gente monta realmente.
¿Cuánto hay que invertir según el nivel de rendimiento buscado?
| Configuración | VRAM total | Coste estimado | Tokens/s (generación) | Tendencia |
|---|---|---|---|---|
| Mac Studio M1 Ultra 64 GB (eBay) | 64 GB unificada | ~2 000 € | 50-60 tok/s (35B) | → estancado |
| 2x RTX 3090 + Epyc Zen2 | 48 GB + 256 GB RAM | ~3 500 € | 15-30 tok/s (70B) | ↑ buena relación precio/VRAM |
| 8x Radeon 7900 XTX | 192 GB | ~6 500 € | 27 tok/s (GLM 4.5 Air) | ↑ VRAM masiva a bajo coste |
| 2x RTX Pro 6000 Blackwell | 192 GB | ~25 000 € | 40-70 tok/s (70B FP16) | ↓ precio prohibitivo |
FUENTE: builds documentados r/LocalLLaMA y r/ollama · ACT. 05/2026
El build más espectacular de las últimas semanas procede de un usuario que montó 8 Radeon 7900 XTX en una placa base de consumo, con un switch PCIe Gen4 x16 a 500 dólares encontrado en AliExpress. Resultado: 192 GB de VRAM por unos 6 500 euros, 437 tokens por segundo en procesamiento de prompt y 27 en generación sobre GLM 4.5 Air cuantizado en Q6.
Son resultados impresionantes para el precio. Pero 27 tokens por segundo en generación es lento. Un usuario lo señaló en los comentarios: « That is not a great speed for 1 TB/s GPUs. You're missing an optimization somewhere. That model runs at 50 tok/s on a Mac laptop. »
En el otro extremo, una agencia de diseño de 60 personas invirtió en dos RTX Pro 6000 Blackwell (96 GB de VRAM cada una) por unos 25 000 euros. La comunidad de r/ollama reaccionó con dureza: « $25K thrown out the gate with very little research done prior is wild. » El consenso: usar vLLM en lugar de Ollama, pasarse a Linux y olvidarse de Llama 3.1 en favor de Qwen 3.5/3.6.
Rendimiento local vs API cloud: la brecha se amplía
En producción, los mejores builds locales alcanzan de 27 a 60 tok/s en generación sobre modelos 35-70B, mientras que las API cloud ofrecen generalmente de 80 a 150 tok/s con 30 a 50 veces más contexto disponible. La diferencia de calidad se suma: los modelos frontera (Claude Opus 4.6, GPT-5) no pueden ejecutarse en local.
Las cifras brutas no bastan. Lo que importa para un uso profesional es la combinación de velocidad de generación, tamaño de contexto y calidad del modelo.
¿Cuáles son los verdaderos límites de la inferencia local?
El contexto es el punto débil estructural de lo local. El build Mac Studio mencionado antes se limitaba a 4 096 tokens de contexto, mientras que las API ofrecen 128K, incluso 200K. « I'm out on reducing the tokens to 4 096 », comentó un usuario de r/n8n. Para agentes IA que deben procesar documentos largos o mantener una conversación compleja, es eliminatorio.
Están surgiendo soluciones para superar este límite. El proyecto kvcached (open source, compatible con SGLang y vLLM) permite liberar la memoria GPU ocupada por el KV cache entre peticiones, autorizando varios modelos en una misma GPU. TurboQuant promete una compresión 6x del KV cache sin pérdida de calidad, lo que equivale a multiplicar por 6 la ventana de contexto con el mismo presupuesto de memoria.
Estas optimizaciones son prometedoras. Pero un comentario en r/OpenSourceeAI matiza: « TurboQuant doesn't lower the max VRAM need at all, it actually increases it. It only lowers KV cache size for decode phase, not pre-fill. » Es decir, la promesa de marketing supera la realidad técnica.
El verdadero problema sigue siendo la calidad del modelo. Los mejores modelos open-weight (Qwen 3.5, DeepSeek R1, GLM 4.5) son excelentes. Pero solo rinden a plena capacidad en FP16 sin cuantizar, lo que exige una VRAM colosal. DeepSeek R1 671B en Q4_K_M pesa 404 GB solo en pesos: se necesitarían 17 RTX 3090 para cargarlo íntegramente en GPU. Un usuario de r/LocalLLaMA resume bien la situación: los modelos MoE (Mixture of Experts) avanzan rápido, pero las soluciones hardware para ejecutarlos « none of them seem particularly appealing ».
Según el World Economic Forum, la infraestructura IA sigue siendo uno de los principales cuellos de botella para la adopción empresarial, y esta constatación se aplica tanto a la inferencia local como al cloud.
Cuándo la inferencia GPU local tiene verdadero sentido
No digo que lo local sea siempre mala idea. Existen tres casos en los que el cálculo se inclina claramente a favor del hardware dedicado.
¿En qué situaciones se vuelve rentable la GPU local?
La confidencialidad absoluta. Si tus datos no deben salir nunca de tu red (salud, jurídico, defensa), lo local no es una elección económica: es una restricción regulatoria. El usuario que montó su sistema « Trinity » en Mac Studio lo dice él mismo: « For a system I wanted to deploy to privacy-conscious clients, that's a dealbreaker. »
El volumen masivo y predecible. Una agencia que procesa 500 000 tokens al día con el mismo modelo, todos los días, acabará rentabilizando un build de 7 000 euros. El umbral de rentabilidad se sitúa en torno a los 300 a 500 euros de consumo API mensual, es decir, en la práctica, varias decenas de millones de tokens al mes en flujo casi continuo, según el build elegido y el coste eléctrico local. Cálculo orientativo: a 0,20 €/kWh, un build de 300 W funcionando en continuo 24h/24 supone unos 44 € de electricidad al mes; el ahorro en API debe superar ampliamente esa cifra para amortizar el hardware en menos de 24 meses.
La trampa del workload variable. Si tu carga es alta durante el día y casi nula por la noche y el fin de semana, la GPU funciona al ralentí aproximadamente el 60 a 70 % del tiempo, pero la electricidad y la depreciación siguen corriendo. Una API no cuesta nada cuando no la usas. Es el cálculo que los foros olvidan sistemáticamente.
La experimentación y el fine-tuning. Los investigadores y desarrolladores que prueban arquitecturas, cuantizan modelos o entrenan adaptadores LoRA necesitan acceso directo a la GPU. Las API no permiten ese nivel de control.
Para una pyme que usa la IA para automatizar emails, alimentar un CRM o generar contenido, ninguno de estos tres casos aplica. He acompañado a decenas de pymes en su integración IA: ni una sola necesitaba montar un servidor GPU. Todas necesitaban un workflow bien conectado a sus herramientas existentes.
Mi veredicto: la API sigue siendo la mejor opción para el 95 % de las pymes
« El verdadero valor no está en el modelo ni en la GPU. Está en la integración con tus procesos de negocio. »
Vincent, mayo 2026
Veo demasiados directivos fascinados por la idea de «poseer» su IA. Es comprensible: la dependencia de un proveedor cloud genera incomodidad. Pero poseer una GPU no te da ventaja competitiva. Lo que te da ventaja es un agente IA que lee tus emails, actualiza tu CRM y prepara tus presupuestos mientras duermes.
¿Hay que ignorar por completo la inferencia local?
No. El movimiento open-weight es una noticia excelente para todo el ecosistema. Proyectos como OpenClaw con Ollama demuestran que se pueden construir stacks locales funcionales. Pero funcional no significa óptimo para tu negocio.
Un build GPU local de 7 000 euros que genera 27 tokens por segundo con un contexto limitado no sustituye a una llamada API de unos pocos dólares por millón de tokens que te da 100+ tokens por segundo, 200K de contexto y el último modelo sin cambiar nada en tu código. El cálculo se hace solo.
Mi recomendación concreta: reserva tus presupuestos para la integración, no para el hardware. Es lo que también observamos en el lado del desarrollo de software en GoLive Software: las empresas que avanzan más rápido invierten en workflows, no en infraestructura.
Si tu factura API supera los 500 euros al mes, empieza a considerar una arquitectura híbrida: GPU local para las tareas recurrentes de alto volumen (resumen de documentos, embeddings, clasificación), API cloud para las tareas complejas y los modelos frontera. Este modelo mixto captura los ahorros de la inferencia local conservando la elasticidad y la calidad de los modelos propietarios, sin el todo o nada que venden los foros.
Preguntas frecuentes
¿Cuánto cuesta un setup GPU local para ejecutar un LLM?
Los precios van de 2 000 euros (Mac Studio M1 Ultra de segunda mano) a 25 000 euros (dos RTX Pro 6000). El punto óptimo se sitúa en torno a los 3 500 a 7 000 euros para un build multi-GPU capaz de ejecutar modelos 70B cuantizados. Hay que sumar la electricidad (de 50 a 200 euros al mes según el consumo) y el tiempo de administración.
¿Es la inferencia local tan rápida como las API cloud?
No, en la gran mayoría de los casos. Un build de 6 500 euros con 8 Radeon 7900 XTX genera unos 27 tokens por segundo en un modelo de tamaño medio. Las API cloud como Claude o GPT ofrecen de 80 a 150 tokens por segundo con un contexto mucho más amplio. La brecha se reduce con modelos pequeños (35B), pero la calidad baja proporcionalmente.
¿Cuáles son las mejores GPU para inferencia local en 2026?
Las RTX 3090 siguen siendo imbatibles en relación precio/VRAM (24 GB por unos 600 euros de segunda mano). Las Radeon 7900 XTX ofrecen el mejor compromiso para builds masivos (24 GB, ancho de banda elevado). Las RTX Pro 6000 Blackwell (96 GB) son las más capaces, pero cuestan más de 12 000 euros por unidad. El Mac Studio con chip M es adecuado para modelos MoE gracias a su memoria unificada.
¿Protege mejor los datos la inferencia local?
Sí, es su principal ventaja. Ningún dato sale de tu red, lo que responde a las exigencias de confidencialidad en sectores como la salud, el jurídico o la defensa. Si el cumplimiento del RGPD o el secreto profesional son tu prioridad, lo local se convierte en una elección estructural, no económica.
¿Se puede ejecutar DeepSeek R1 o modelos de 600B+ en local?
Técnicamente sí, pero los compromisos son severos. DeepSeek R1 671B cuantizado en Q4_K_M pesa 404 GB, lo que requiere como mínimo 17 RTX 3090 (o de 8 a 10 GPU de gama alta) o una configuración híbrida CPU/GPU con RAM masiva. El rendimiento en generación cae por debajo de 10 tokens por segundo en la mayoría de builds accesibles. Para un uso profesional, los modelos 70B bien cuantizados ofrecen una relación calidad/velocidad mucho mejor.
Mi uso es variable (alto de día, nulo de noche): ¿API o local?
Para un workload variable, la API gana casi siempre. Una GPU local cuesta lo mismo funcione o no: electricidad y depreciación corren de forma continua. En un uso profesional típico, la máquina está realmente solicitada entre el 30 y el 40 % del tiempo: pagas el equivalente a tarifa completa por un tercio de uso. La inferencia local solo se vuelve rentable a partir de un flujo predecible y casi continuo, varias decenas de millones de tokens al día todos los días. Por debajo, la facturación por uso de la API gana matemáticamente.
Vidéos YouTube
Discussions Reddit
- Local Inference for Very Large Models · r/LocalLLaMA
- Free GPU memory during local LLM inference without KV cache hogging VRAM · r/LocalLLaMA
- 8x Radeon 7900 XTX Build for Longer Context Local Inference · r/LocalLLaMA
- I Replaced $100+/month in GEMINI API Costs with a €2000 eBay Mac Studio · r/n8n
- I Replaced $100+/month in GEMINI API Costs with a €2000 eBay Mac Studio · r/MacStudio
- There is no need to purchase a high-end GPU machine to run local LLMs · r/VibeCodeDevs
- No need to purchase a high-end GPU machine to run local LLMs · r/OpenSourceeAI
- Setting up Ollama on dual RTX PRO 6000 Blackwells · r/ollama
