Documento técnico
abdatabase.com
Documento técnico · Inteligencia Artificial

Comparativa LLM Local — Hardware

Mac Mini M4 Pro · Mac Studio M4 Max · PC NVIDIA · Clusters · Modelos cloud vs local
📅 Junio 2026 ✍️ abDatabase
Guía de lectura — cómo entender los modelos y la cuantización
¿Qué significa 7B, 32B, 70B, 405B?
Los parámetros son la "memoria aprendida" del modelo — más parámetros, más conocimiento y razonamiento, más RAM necesaria

Un modelo de lenguaje aprende a entender y generar texto ajustando millones de pequeños valores numéricos llamados parámetros. Cuando ves "70B" significa 70.000 millones de parámetros. Cuantos más parámetros tiene un modelo, más patrones del lenguaje ha podido aprender durante su entrenamiento: más matices, más idiomas, más contexto, mejor razonamiento. La contrapartida es que ocupa más memoria RAM para poder funcionar.

Tamaño Ejemplos de modelos RAM mínima Qué puede y qué no puede hacer
3B – 8B Llama 3.2 3B/8B
Gemma 3 4B/7B
Qwen2.5 7B
3–8 GB
Respuestas cortas y rápidas · clasificación simple · resúmenes de textos breves · autocompletado básico de código. Se pierde con preguntas de varios pasos, contexto largo o lógica compleja. Equivale aproximadamente a un asistente muy ágil pero con memoria corta.
14B – 32B Qwen2.5 14B/32B
Gemma 3 27B
Mistral 24B
10–22 GB
Redacción de documentos · generación de código funcional · consultas con contexto moderado · análisis de datos estructurados. Ya da respuestas útiles en tareas profesionales cotidianas. Es el punto de entrada práctico para automatizaciones reales.
70B – 72B Llama 3.3 70B
Qwen2.5 72B
DeepSeek R1 70B
38–50 GB
Razonamiento complejo de varios pasos · código de calidad profesional · análisis de contexto largo · instrucciones sofisticadas en varios idiomas · calidad comparable a GPT-4o mini. Es el punto dulce actual: muy capaz y todavía cabe en un solo equipo de gama alta.
405B – 671B Llama 3.1 405B
DeepSeek V3 671B
Kimi K2 1T
80–200+ GB
Calidad de nivel frontier: razonamiento avanzado, instrucciones ambiguas, código de arquitectura compleja, múltiples idiomas con matices culturales. Comparable a GPT-4o o Claude Sonnet. Requiere cluster de varias máquinas o hardware de datacenter para correr localmente.
¿Qué es la cuantización? — Q2, Q3, Q4, Q5, Q6, Q8
La cuantización es la técnica que permite comprimir un modelo para que quepa en menos RAM, a cambio de una pequeña pérdida de precisión

Cada parámetro de un modelo es originalmente un número con mucha precisión (32 bits, como un decimal muy exacto). La cuantización redondea esos números a menos bits, igual que si en lugar de medir algo con una regla milimetrada usaras solo centímetros: pierdes algo de exactitud, pero el dato ocupa mucho menos espacio. El número después de la Q indica cuántos bits se usan por parámetro: Q8 = 8 bits (muy preciso), Q2 = 2 bits (muy comprimido). Esto permite correr modelos grandes en equipos con menos RAM de la que normalmente necesitarían.

Nivel Tamaño aprox. Pérdida calidad Cuándo usarlo y qué esperar
Q2 ~25% del original Alta
Solo cuando el modelo simplemente no cabe de otra manera. Notarás errores en instrucciones largas, respuestas inconsistentes y menor coherencia. Útil para tener acceso básico a un modelo muy grande en hardware limitado, pero no para uso profesional exigente.
Q3 ~35% del original Moderada
Funciona para tareas simples y respuestas cortas. En tareas de razonamiento largo o código complejo empieza a cometer errores que no cometería en Q4 o superior. Úsalo solo si la RAM no da para más.
Q4 ~50% del original Pequeña
El punto de equilibrio más usado en la práctica. Para la mayoría de tareas profesionales la diferencia respecto al modelo original es imperceptible. Es el estándar recomendado cuando quieres maximizar el tamaño del modelo dentro de tu RAM disponible.
Q5 ~60% del original Muy pequeña
Casi indistinguible del original en tareas cotidianas. Mejora perceptible frente a Q4 en razonamiento complejo y código de muchos pasos. El equilibrio ideal cuando tienes RAM suficiente y quieres la mejor calidad posible sin llegar al tamaño completo.
Q6 – Q8 ~75–100% Mínima / Nula
Calidad prácticamente idéntica al modelo original. Solo tiene sentido en modelos pequeños (7B–14B) donde la RAM lo permite sin sacrificar nada. En modelos de 70B no suele ser viable porque el tamaño resultante no cabe en un solo equipo de escritorio.

Ejemplo práctico: Un modelo Llama 3.3 70B en su versión original ocupa ~140 GB. En Q4 ocupa ~38 GB y en Q5 ocupa ~48 GB. La pérdida de calidad entre Q4 y el original en tareas de escritura o código es habitualmente menor del 5%. En las tablas siguientes, la columna "Cuant." indica qué nivel de cuantización se está usando en cada configuración.

Mac Mini M4 Pro — modelos y qué puedes hacer según la RAM
Mac Mini M4 Pro · Thunderbolt 5 · desde 1.699 €
Servidor de inferencia headless en rack · TB5 con RDMA disponible en modelo Pro
Modelo LLM Cuant. RAM Vel. aprox Para qué sirve en la práctica
Llama 3.2 8B / Qwen2.5 14B
Modelos compactos
Q6–Q89–11 GB45–70 t/s
Respuestas cortas rápidas · clasificación de tickets de soporte · extracción de datos de texto plano · autocompletado de código sencillo · resúmenes breves. Velocidad excelente, pero se pierde en razonamiento complejo o instrucciones largas.
Qwen2.5 32B
Modelo mediano capaz
Q315 GB25–35 t/s
Generación de scripts FileMaker sencillos · borrador de emails y newsletter · consultas OData básicas vía MCP. Cuantización baja Q3: comete errores en tareas largas y de lógica compleja.
Llama 3.3 70B
Gran modelo generalista
No cabe
Imposible en 24 GB. Requiere al menos 30 GB libres en cuantización Q3.
Modelo LLM Cuant. RAM Vel. aprox Para qué sirve en la práctica
Qwen2.5 32B
Modelo mediano capaz
Q522 GB30–42 t/s
Generación de cálculos FileMaker complejos · scripts Python de automatización · redacción de documentación técnica · newsletter SuperOrto con buena calidad · análisis de logs · consultas OData vía MCP con contexto clínico.
Llama 3.3 70B
Gran modelo generalista
Q438 GB16–22 t/s
Claude Code local para sesiones de desarrollo · ticket_agent con comprensión de contexto clínico · generación de informes KPI narrativos · diagnóstico de problemas de infraestructura. Equivalente aproximado a GPT-4o mini en calidad.
DeepSeek R1 70B
Razonamiento paso a paso
Q440 GB14–20 t/s
Depuración de código compleja · análisis de errores de infraestructura con razonamiento explícito · planificación de arquitecturas · problemas que necesitan pensar antes de responder. Más lento que Llama pero más preciso en lógica.
Modelo LLM Cuant. RAM Vel. aprox Para qué sirve en la práctica
Qwen2.5 72B
Modelo 70B de Alibaba
Q443 GB18–26 t/s
Todo lo del 70B Llama más: mejor rendimiento en español · mejor razonamiento sobre datos tabulares FileMaker · código Python más fiable · análisis de facturas y documentos estructurados.
DeepSeek R1 70B
Razonamiento tipo o1
Q550 GB13–18 t/s
En Q5 mejora precisión: migraciones de datos complejas · revisión de lógica en scripts FileMaker largos · detección de errores sutiles · planificación de arquitecturas de microservicios.
Mac Studio M4 Max · 64 GB · 3.204 €
Mac Studio M4 Max · 4× Thunderbolt 5 traseros + RDMA · escalable a cluster
Servidor de inferencia headless en rack · más puertos TB5, más GPU cores, mejor rendimiento sostenido
Modelo LLM Cuant. RAM Vel. aprox Para qué sirve en la práctica
Qwen2.5 32B
Modelo mediano capaz
Q522 GB40–55 t/s
El modelo "de guardia" siempre listo para respuestas rápidas mientras el 70B hace tareas pesadas en paralelo. Velocidad excelente para automatizaciones ligeras y consultas rápidas de MCP SuperOrto.
Llama 3.3 70B / Qwen2.5 72B
Gran modelo generalista
Q4–Q538–50 GB18–32 t/s
Claude Code local con calidad equivalente a GPT-4o mini · ticket_agent con comprensión clínica profunda · MCP SuperOrto con consultas OData complejas · documentación técnica completa · análisis de infraestructura con contexto muy largo.
DeepSeek R1 70B
Razonamiento tipo o1
Q550 GB16–22 t/s
Auditorías de código · migraciones de bases de datos complejas · detección de errores lógicos en scripts FileMaker · planificación de arquitecturas · razonamiento paso a paso explícito y auditable.
Qwen2-VL 72B
Visión + texto · multimodal
Q442 GB15–20 t/s
Análisis de radiografías dentales · descripción automática de fotos intraorales · lectura de documentos escaneados (facturas, informes) · base del LLM clínico multimodal para las clínicas. Datos de pacientes nunca salen de tu red.
PC con GPU NVIDIA — referencia comparativa (precio equipo completo montado)
PC Linux completo con GPU NVIDIA
Precios de equipo completo montado · no solo la tarjeta gráfica · Linux Ubuntu para inferencia LLM
GPU Config completa del equipo VRAM Coste aprox Modelo máximo · qué puedes hacer
RTX 4090
24 GB GDDR6X
i9-14900K · 64 GB DDR5 · 2 TB NVMe · 850W PSU · Linux Ubuntu 24 GB 3.500–4.500 €
Qwen2.5 32B Q5 cómodo · Llama 70B Q2 muy justo. Inferencia rápida por token. Limitado por VRAM: no escala sin cambiar GPU.
2× RTX 4090
NVLink · 48 GB efectivos
i9-14900K · 128 GB DDR5 · 4 TB NVMe · 1200W PSU · Linux Ubuntu 48 GB 7.000–9.000 €
Llama 3.3 70B Q4 cómodo. Setup complejo: NVLink, drivers, refrigeración dual. Más rápido que Apple en inferencia pura, pero el coste casi triplica al Mac Studio.
RTX 6000 Ada
GPU profesional NVIDIA
Ryzen 9 7950X · 128 GB DDR5 · 4 TB NVMe · 1000W PSU · Linux Ubuntu 48 GB 9.000–11.000 €
70B Q4–Q5 a alta velocidad con soporte ECC. Precio difícilmente justificable frente al Mac Studio para inferencia local.
H100 SXM
GPU datacenter
Servidor rack Xeon · 512 GB RAM ECC · 10 TB NVMe · infraestructura datacenter 80 GB 30.000–40.000 €
Llama 3.1 405B Q4 completo · DeepSeek 671B · velocidad muy superior. Es lo que hay detrás de la API de Anthropic. Territorio datacenter, no home lab.
Modelos cloud vs local — equivalencias aproximadas
Qué modelo local se parece más a cada modelo cloud
Ningún modelo local iguala exactamente a los mejores cloud, pero las distancias se han reducido mucho en 2025–2026
Modelo cloud Calidad Coste Equivalente local más cercano Diferencia real en la práctica
Claude Sonnet 4
Anthropic · tope actual
⭑⭑⭑⭑⭑ API pago
Llama 3.1 405B Q3
Requiere 2× Mac Studio Ultra (~200 GB RAM total)
El 405B se acerca en benchmarks de código y razonamiento pero no llega. La diferencia más notable es en instrucciones complejas de varios pasos y en seguimiento de contexto muy largo.
GPT-4o
OpenAI · multimodal
⭑⭑⭑⭑⭑ API pago
Llama 3.1 405B Q3
Requiere 2× Mac Studio Ultra
El 405B y GPT-4o compiten en muchos benchmarks. El 405B es open source y corre local. Sin visión nativa (necesitas Qwen2-VL para eso). GPT-4o sigue siendo superior en razonamiento y multimodalidad.
Claude Haiku 4
Anthropic · rápido y económico
⭑⭑⭑⭑ API barata
Qwen2.5 72B Q4–Q5
Mac Studio 64 GB o Mini 64 GB
Calidad comparable en tareas de desarrollo y redacción. El 72B local es algo más lento que Haiku en la API, pero sin coste por token y con privacidad total.
GPT-4o mini
OpenAI · económico
⭑⭑⭑⭑ API barata
Llama 3.3 70B Q4
Mac Mini 48 GB o Mac Studio
Equivalencia bastante ajustada en benchmarks de código y razonamiento. El 70B local gana en privacidad y coste cero por uso; pierde en velocidad de respuesta inicial y en contexto muy largo.
GPT-3.5 / modelos rápidos básicos
Modelos económicos de 2023
⭑⭑⭑ API muy barata
Qwen2.5 32B Q5 / Llama 8B Q8
Mac Mini 24–48 GB
Para tareas simples y automatizaciones de bajo nivel, el 32B local supera a estos modelos en muchas métricas. Ideal para ticket_agent con clasificación sencilla o generación de plantillas.
Casos de uso reales según el hardware
Qué puedes hacer con cada configuración
Ejemplos concretos para tu stack: FileMaker · Python · MCP SuperOrto · clínicas dentales
Tarea Mac Mini 24 GB (1.699 €) Mac Mini 48 GB (~2.099 €) Mac Studio 64 GB (3.204 €)
MCP SuperOrto
FileMaker OData en lenguaje natural
Consultas simples: "pacientes de esta semana", filtros básicos. Se pierde con joins complejos.
Consultas con contexto clínico, joins multi-tabla, generación de OData con condiciones complejas y contexto largo.
Todo lo anterior más análisis cruzado de clínicas, informes narrativos automáticos, contexto histórico completo.
Claude Code local
Desarrollo FileMaker y Python sin coste API
Autocompletado y funciones cortas. No recomendado para sesiones largas de refactoring.
Sesiones completas de desarrollo, refactoring de scripts FileMaker, depuración de microservicios Python.
Sesiones muy largas con contexto completo del proyecto, análisis del DDR de SuperOrto, diseño de arquitecturas.
ticket_agent
Soporte clínicas WhatsApp / email / Telegram
Clasificación y respuestas plantilla. Comprensión limitada de contexto clínico específico.
Comprensión de contexto clínico, respuestas personalizadas, escalado inteligente a técnico humano.
Alta precisión con contexto clínico profundo. Puede manejar más conversaciones en paralelo sin degradar calidad.
Imágenes dentales
Radiografías y fotos intraorales
No viable. Sin espacio para modelos multimodales de calidad.
Qwen2-VL 7B viable: descripción básica de imágenes, no diagnóstico clínico real.
Qwen2-VL 72B Q4: análisis detallado de radiografías, descripción estructurada de hallazgos. Base real del LLM clínico multimodal.
KPIs y reporting
Informes semanales clínicas
Resúmenes simples de datos. Sin interpretación profunda ni comparativa.
Narrativa de KPIs con contexto, detección de anomalías, comparativa entre clínicas.
Análisis completo con contexto histórico, recomendaciones accionables, texto listo para informes ejecutivos.
Cluster Mac Mini M4 Pro — 1 a 4 nodos · Mac Mini 48 GB (medio)
Cluster de Mac Mini M4 Pro · configuración media 48 GB cada uno
Conectados vía Thunderbolt 5 con RDMA · framework Exo Labs o MLX Distributed · precio de unidad: ~2.099 €
Importante: El Mac Mini M4 Pro tiene 3 puertos Thunderbolt 5 traseros con soporte RDMA (confirmado en specs de Apple). Esto significa que, a diferencia del Mini M4 base, el cluster entre varios Mini M4 Pro sí tiene acceso a la latencia baja (~3 µs vs ~300 µs). La limitación es que el Mini Pro solo tiene 3 puertos TB5 frente a los 4 del Mac Studio, lo que limita la topología en clusters grandes.
Nodos RAM total Coste total + Switch TB5 Modelo LLM máximo viable Qué puedes hacer
M
1 nodo
48 GB
2.099 €
1 unidad
No necesario
Llama 3.3 70B Q4
38 GB · 16–22 t/s
Claude Code local · MCP SuperOrto complejo · ticket_agent clínico · KPI narrativos. El punto de entrada óptimo.
M
M
2 nodos
96 GB
4.198 €
2 unidades
Cable TB5 directo entre ellos (~30 €)
Llama 3.1 405B Q2
~80 GB · ~8–12 t/s
Primer salto real de calidad: modelos frontier locales. Calidad cercana a GPT-4o / Claude Haiku. Datos nunca salen de tu red. Velocidad lenta pero viable para uso asíncrono.
M
M
M
3 nodos
144 GB
6.297 €
3 unidades
Switch TB5 recomendado (~500–800 €)
Llama 3.1 405B Q3
~120 GB · ~10–15 t/s
405B en Q3 con calidad notablemente superior al Q2. Equivalente aproximado a Claude Haiku / GPT-4o mini en muchas tareas. Análisis de DDR completo, generación de código complejo.
M
M
M
M
4 nodos
192 GB
8.396 €
4 unidades
Switch TB5 necesario (~500–800 €)
Llama 3.1 405B Q4 / DeepSeek 671B Q2
~160 GB · ~12–18 t/s
Máxima calidad open source local. 405B en Q4: calidad muy cercana a GPT-4o. DeepSeek 671B: razonamiento excepcional. LLM clínico multimodal con Qwen2-VL 72B + modelo de texto en paralelo.
Cluster Mac Studio M4 Max — 1 a 4 nodos · 64 GB cada uno
Cluster de Mac Studio M4 Max · 64 GB cada uno
4× puertos TB5 traseros por nodo · RDMA nativo · máximo rendimiento por unidad · precio de unidad: 3.204 €
Ventaja sobre el Mac Mini: El Mac Studio M4 Max tiene 4 puertos TB5 traseros (frente a 3 del Mini Pro), mayor ancho de banda de memoria (400 GB/s vs 273 GB/s) y 40 GPU cores frente a 20. Esto se traduce en mayor velocidad por token, mejor gestión de contexto largo y más flexibilidad en la topología del cluster.
Nodos RAM total Coste total + Switch TB5 Modelo LLM máximo viable Qué puedes hacer
S
1 nodo
64 GB
3.204 €
1 unidad
No necesario
Qwen2.5 72B Q5 / DeepSeek R1 70B Q5
50 GB · 16–26 t/s
Claude Code local · MCP SuperOrto · imágenes dentales (Qwen2-VL) · ticket_agent clínico · KPIs · LLM multimodal básico. El punto de entrada óptimo para uso profesional.
S
S
2 nodos
128 GB
6.408 €
2 unidades
Cable TB5 directo (~30 €)
Llama 3.1 405B Q3
~120 GB · ~15–20 t/s
Frontier model local: calidad muy cercana a GPT-4o. Velocidad útil para uso interactivo. Análisis profundo de bases de datos, generación de código complejo, razonamiento avanzado. El salto cualitativo más importante.
S
S
S
3 nodos
192 GB
9.612 €
3 unidades
Switch TB5 recomendado (~500–800 €)
Llama 3.1 405B Q4 / DeepSeek 671B Q2
~160 GB · ~18–25 t/s
405B en Q4 a velocidad interactiva real. DeepSeek 671B: razonamiento tipo o1 de clase mundial. Modelos de código de nivel profesional. Entrenamiento fino (fine-tuning) de modelos 7B–13B con datos propios de las clínicas.
S
S
S
S
4 nodos
256 GB
12.816 €
4 unidades
Switch TB5 necesario (~500–800 €)
DeepSeek 671B Q3 / Kimi K2 1T Q1
~220–250 GB · ~20–28 t/s
Territorio NetworkChuck: modelos de 1 billón de parámetros locales. Calidad comparable o superior a Claude Sonnet en tareas especializadas. Fine-tuning de modelos medianos. LLM clínico multimodal de clase profesional.
Resumen de coste vs capacidad — todos los clusters
Inversión total por nivel de capacidad
Comparativa rápida para decidir el punto de entrada según presupuesto disponible
Configuración RAM total Inversión Mejor modelo viable Valoración
1× Mac Mini M4 Pro 48 GB
Punto de entrada
48 GB 2.099 €
70B Q4 · ~16–22 t/s
✓ Mejor relación coste/utilidad. Cubre el 90% de casos de uso diarios con calidad equivalente a GPT-4o mini.
1× Mac Studio M4 Max 64 GB
Profesional
64 GB 3.204 €
72B Q5 + multimodal
✓ Añade multimodalidad (imágenes dentales), más velocidad, 4 puertos TB5 para cluster futuro. Inversión justificada para uso intensivo.
2× Mac Mini M4 Pro 48 GB
Cluster básico
96 GB 4.198 €
405B Q2 · ~8–12 t/s
Primera vez que accedes a modelos frontier locales. Velocidad lenta, calidad alta. Adquisición progresiva posible.
2× Mac Studio M4 Max 64 GB
Cluster profesional
128 GB 6.408 €
405B Q3 · ~15–20 t/s
✓ El salto más impactante: frontier model a velocidad interactiva real. Equivalente a lo que usas cuando llamas a GPT-4o.
4× Mac Mini M4 Pro 48 GB
Cluster medio
192 GB 8.396 €
405B Q4 / DeepSeek 671B Q2
Máxima calidad open source con Mac Mini. Requiere switch TB5. Adquisición posible de 1 en 1 a lo largo del tiempo.
4× Mac Studio M4 Max 64 GB
Supercomputador de escritorio
256 GB 12.816 €
DeepSeek 671B Q3 / Kimi K2 1T
Territorio NetworkChuck. Modelos de 1 billón de parámetros. Equivalente a ~780.000 € en H100. Fine-tuning profesional. LLM clínico de clase mundial.

Documento generado en junio 2026 · Precios orientativos Apple España · Velocidades de inferencia estimadas con MLX/Exo Labs · Las equivalencias cloud/local son aproximadas