Comparativa LLM Local — Hardware Apple vs PC

¿Qué significa 7B, 32B, 70B, 405B?

Los parámetros son la "memoria aprendida" del modelo — más parámetros, más conocimiento y razonamiento, más RAM necesaria

Un modelo de lenguaje aprende a entender y generar texto ajustando millones de pequeños valores numéricos llamados parámetros. Cuando ves "70B" significa 70.000 millones de parámetros. Cuantos más parámetros tiene un modelo, más patrones del lenguaje ha podido aprender durante su entrenamiento: más matices, más idiomas, más contexto, mejor razonamiento. La contrapartida es que ocupa más memoria RAM para poder funcionar.

Tamaño	Ejemplos de modelos	RAM mínima	Qué puede y qué no puede hacer
3B – 8B	Llama 3.2 3B/8B Gemma 3 4B/7B Qwen2.5 7B	3–8 GB	Respuestas cortas y rápidas · clasificación simple · resúmenes de textos breves · autocompletado básico de código. Se pierde con preguntas de varios pasos, contexto largo o lógica compleja. Equivale aproximadamente a un asistente muy ágil pero con memoria corta.
14B – 32B	Qwen2.5 14B/32B Gemma 3 27B Mistral 24B	10–22 GB	Redacción de documentos · generación de código funcional · consultas con contexto moderado · análisis de datos estructurados. Ya da respuestas útiles en tareas profesionales cotidianas. Es el punto de entrada práctico para automatizaciones reales.
70B – 72B	Llama 3.3 70B Qwen2.5 72B DeepSeek R1 70B	38–50 GB	Razonamiento complejo de varios pasos · código de calidad profesional · análisis de contexto largo · instrucciones sofisticadas en varios idiomas · calidad comparable a GPT-4o mini. Es el punto dulce actual: muy capaz y todavía cabe en un solo equipo de gama alta.
405B – 671B	Llama 3.1 405B DeepSeek V3 671B Kimi K2 1T	80–200+ GB	Calidad de nivel frontier: razonamiento avanzado, instrucciones ambiguas, código de arquitectura compleja, múltiples idiomas con matices culturales. Comparable a GPT-4o o Claude Sonnet. Requiere cluster de varias máquinas o hardware de datacenter para correr localmente.

¿Qué es la cuantización? — Q2, Q3, Q4, Q5, Q6, Q8

La cuantización es la técnica que permite comprimir un modelo para que quepa en menos RAM, a cambio de una pequeña pérdida de precisión

Cada parámetro de un modelo es originalmente un número con mucha precisión (32 bits, como un decimal muy exacto). La cuantización redondea esos números a menos bits, igual que si en lugar de medir algo con una regla milimetrada usaras solo centímetros: pierdes algo de exactitud, pero el dato ocupa mucho menos espacio. El número después de la Q indica cuántos bits se usan por parámetro: Q8 = 8 bits (muy preciso), Q2 = 2 bits (muy comprimido). Esto permite correr modelos grandes en equipos con menos RAM de la que normalmente necesitarían.

Nivel	Tamaño aprox.	Pérdida calidad	Cuándo usarlo y qué esperar
Q2	~25% del original	Alta	Solo cuando el modelo simplemente no cabe de otra manera. Notarás errores en instrucciones largas, respuestas inconsistentes y menor coherencia. Útil para tener acceso básico a un modelo muy grande en hardware limitado, pero no para uso profesional exigente.
Q3	~35% del original	Moderada	Funciona para tareas simples y respuestas cortas. En tareas de razonamiento largo o código complejo empieza a cometer errores que no cometería en Q4 o superior. Úsalo solo si la RAM no da para más.
Q4	~50% del original	Pequeña	El punto de equilibrio más usado en la práctica. Para la mayoría de tareas profesionales la diferencia respecto al modelo original es imperceptible. Es el estándar recomendado cuando quieres maximizar el tamaño del modelo dentro de tu RAM disponible.
Q5	~60% del original	Muy pequeña	Casi indistinguible del original en tareas cotidianas. Mejora perceptible frente a Q4 en razonamiento complejo y código de muchos pasos. El equilibrio ideal cuando tienes RAM suficiente y quieres la mejor calidad posible sin llegar al tamaño completo.
Q6 – Q8	~75–100%	Mínima / Nula	Calidad prácticamente idéntica al modelo original. Solo tiene sentido en modelos pequeños (7B–14B) donde la RAM lo permite sin sacrificar nada. En modelos de 70B no suele ser viable porque el tamaño resultante no cabe en un solo equipo de escritorio.

Ejemplo práctico: Un modelo Llama 3.3 70B en su versión original ocupa ~140 GB. En Q4 ocupa ~38 GB y en Q5 ocupa ~48 GB. La pérdida de calidad entre Q4 y el original en tareas de escritura o código es habitualmente menor del 5%. En las tablas siguientes, la columna "Cuant." indica qué nivel de cuantización se está usando en cada configuración.

Mac Mini M4 Pro · Thunderbolt 5 · desde 1.699 €

Servidor de inferencia headless en rack · TB5 con RDMA disponible en modelo Pro

Modelo LLM	Cuant.	RAM	Vel. aprox	Para qué sirve en la práctica
Llama 3.2 8B / Qwen2.5 14B Modelos compactos	Q6–Q8	9–11 GB	45–70 t/s	Respuestas cortas rápidas · clasificación de tickets de soporte · extracción de datos de texto plano · autocompletado de código sencillo · resúmenes breves. Velocidad excelente, pero se pierde en razonamiento complejo o instrucciones largas.
Qwen2.5 32B Modelo mediano capaz	Q3	15 GB	25–35 t/s	Generación de scripts FileMaker sencillos · borrador de emails y newsletter · consultas OData básicas vía MCP. Cuantización baja Q3: comete errores en tareas largas y de lógica compleja.
Llama 3.3 70B Gran modelo generalista	No cabe	—	—	Imposible en 24 GB. Requiere al menos 30 GB libres en cuantización Q3.

Modelo LLM	Cuant.	RAM	Vel. aprox	Para qué sirve en la práctica
Qwen2.5 32B Modelo mediano capaz	Q5	22 GB	30–42 t/s	Generación de cálculos FileMaker complejos · scripts Python de automatización · redacción de documentación técnica · newsletter SuperOrto con buena calidad · análisis de logs · consultas OData vía MCP con contexto clínico.
Llama 3.3 70B Gran modelo generalista	Q4	38 GB	16–22 t/s	Claude Code local para sesiones de desarrollo · ticket_agent con comprensión de contexto clínico · generación de informes KPI narrativos · diagnóstico de problemas de infraestructura. Equivalente aproximado a GPT-4o mini en calidad.
DeepSeek R1 70B Razonamiento paso a paso	Q4	40 GB	14–20 t/s	Depuración de código compleja · análisis de errores de infraestructura con razonamiento explícito · planificación de arquitecturas · problemas que necesitan pensar antes de responder. Más lento que Llama pero más preciso en lógica.

Modelo LLM	Cuant.	RAM	Vel. aprox	Para qué sirve en la práctica
Qwen2.5 72B Modelo 70B de Alibaba	Q4	43 GB	18–26 t/s	Todo lo del 70B Llama más: mejor rendimiento en español · mejor razonamiento sobre datos tabulares FileMaker · código Python más fiable · análisis de facturas y documentos estructurados.
DeepSeek R1 70B Razonamiento tipo o1	Q5	50 GB	13–18 t/s	En Q5 mejora precisión: migraciones de datos complejas · revisión de lógica en scripts FileMaker largos · detección de errores sutiles · planificación de arquitecturas de microservicios.

Mac Studio M4 Max · 4× Thunderbolt 5 traseros + RDMA · escalable a cluster

Servidor de inferencia headless en rack · más puertos TB5, más GPU cores, mejor rendimiento sostenido

Modelo LLM	Cuant.	RAM	Vel. aprox	Para qué sirve en la práctica
Qwen2.5 32B Modelo mediano capaz	Q5	22 GB	40–55 t/s	El modelo "de guardia" siempre listo para respuestas rápidas mientras el 70B hace tareas pesadas en paralelo. Velocidad excelente para automatizaciones ligeras y consultas rápidas de MCP SuperOrto.
Llama 3.3 70B / Qwen2.5 72B Gran modelo generalista	Q4–Q5	38–50 GB	18–32 t/s	Claude Code local con calidad equivalente a GPT-4o mini · ticket_agent con comprensión clínica profunda · MCP SuperOrto con consultas OData complejas · documentación técnica completa · análisis de infraestructura con contexto muy largo.
DeepSeek R1 70B Razonamiento tipo o1	Q5	50 GB	16–22 t/s	Auditorías de código · migraciones de bases de datos complejas · detección de errores lógicos en scripts FileMaker · planificación de arquitecturas · razonamiento paso a paso explícito y auditable.
Qwen2-VL 72B Visión + texto · multimodal	Q4	42 GB	15–20 t/s	Análisis de radiografías dentales · descripción automática de fotos intraorales · lectura de documentos escaneados (facturas, informes) · base del LLM clínico multimodal para las clínicas. Datos de pacientes nunca salen de tu red.

PC Linux completo con GPU NVIDIA

Precios de equipo completo montado · no solo la tarjeta gráfica · Linux Ubuntu para inferencia LLM

GPU	Config completa del equipo	VRAM	Coste aprox	Modelo máximo · qué puedes hacer
RTX 4090 24 GB GDDR6X	i9-14900K · 64 GB DDR5 · 2 TB NVMe · 850W PSU · Linux Ubuntu	24 GB	3.500–4.500 €	Qwen2.5 32B Q5 cómodo · Llama 70B Q2 muy justo. Inferencia rápida por token. Limitado por VRAM: no escala sin cambiar GPU.
2× RTX 4090 NVLink · 48 GB efectivos	i9-14900K · 128 GB DDR5 · 4 TB NVMe · 1200W PSU · Linux Ubuntu	48 GB	7.000–9.000 €	Llama 3.3 70B Q4 cómodo. Setup complejo: NVLink, drivers, refrigeración dual. Más rápido que Apple en inferencia pura, pero el coste casi triplica al Mac Studio.
RTX 6000 Ada GPU profesional NVIDIA	Ryzen 9 7950X · 128 GB DDR5 · 4 TB NVMe · 1000W PSU · Linux Ubuntu	48 GB	9.000–11.000 €	70B Q4–Q5 a alta velocidad con soporte ECC. Precio difícilmente justificable frente al Mac Studio para inferencia local.
H100 SXM GPU datacenter	Servidor rack Xeon · 512 GB RAM ECC · 10 TB NVMe · infraestructura datacenter	80 GB	30.000–40.000 €	Llama 3.1 405B Q4 completo · DeepSeek 671B · velocidad muy superior. Es lo que hay detrás de la API de Anthropic. Territorio datacenter, no home lab.

Qué modelo local se parece más a cada modelo cloud

Ningún modelo local iguala exactamente a los mejores cloud, pero las distancias se han reducido mucho en 2025–2026

Modelo cloud	Calidad	Coste	Equivalente local más cercano	Diferencia real en la práctica
Claude Sonnet 4 Anthropic · tope actual	⭑⭑⭑⭑⭑	API pago	Llama 3.1 405B Q3 Requiere 2× Mac Studio Ultra (~200 GB RAM total)	El 405B se acerca en benchmarks de código y razonamiento pero no llega. La diferencia más notable es en instrucciones complejas de varios pasos y en seguimiento de contexto muy largo.
GPT-4o OpenAI · multimodal	⭑⭑⭑⭑⭑	API pago	Llama 3.1 405B Q3 Requiere 2× Mac Studio Ultra	El 405B y GPT-4o compiten en muchos benchmarks. El 405B es open source y corre local. Sin visión nativa (necesitas Qwen2-VL para eso). GPT-4o sigue siendo superior en razonamiento y multimodalidad.
Claude Haiku 4 Anthropic · rápido y económico	⭑⭑⭑⭑	API barata	Qwen2.5 72B Q4–Q5 Mac Studio 64 GB o Mini 64 GB	Calidad comparable en tareas de desarrollo y redacción. El 72B local es algo más lento que Haiku en la API, pero sin coste por token y con privacidad total.
GPT-4o mini OpenAI · económico	⭑⭑⭑⭑	API barata	Llama 3.3 70B Q4 Mac Mini 48 GB o Mac Studio	Equivalencia bastante ajustada en benchmarks de código y razonamiento. El 70B local gana en privacidad y coste cero por uso; pierde en velocidad de respuesta inicial y en contexto muy largo.
GPT-3.5 / modelos rápidos básicos Modelos económicos de 2023	⭑⭑⭑	API muy barata	Qwen2.5 32B Q5 / Llama 8B Q8 Mac Mini 24–48 GB	Para tareas simples y automatizaciones de bajo nivel, el 32B local supera a estos modelos en muchas métricas. Ideal para ticket_agent con clasificación sencilla o generación de plantillas.

Qué puedes hacer con cada configuración

Ejemplos concretos para tu stack: FileMaker · Python · MCP SuperOrto · clínicas dentales

Tarea	Mac Mini 24 GB (1.699 €)	Mac Mini 48 GB (~2.099 €)	Mac Studio 64 GB (3.204 €)
MCP SuperOrto FileMaker OData en lenguaje natural	Consultas simples: "pacientes de esta semana", filtros básicos. Se pierde con joins complejos.	Consultas con contexto clínico, joins multi-tabla, generación de OData con condiciones complejas y contexto largo.	Todo lo anterior más análisis cruzado de clínicas, informes narrativos automáticos, contexto histórico completo.
Claude Code local Desarrollo FileMaker y Python sin coste API	Autocompletado y funciones cortas. No recomendado para sesiones largas de refactoring.	Sesiones completas de desarrollo, refactoring de scripts FileMaker, depuración de microservicios Python.	Sesiones muy largas con contexto completo del proyecto, análisis del DDR de SuperOrto, diseño de arquitecturas.
ticket_agent Soporte clínicas WhatsApp / email / Telegram	Clasificación y respuestas plantilla. Comprensión limitada de contexto clínico específico.	Comprensión de contexto clínico, respuestas personalizadas, escalado inteligente a técnico humano.	Alta precisión con contexto clínico profundo. Puede manejar más conversaciones en paralelo sin degradar calidad.
Imágenes dentales Radiografías y fotos intraorales	No viable. Sin espacio para modelos multimodales de calidad.	Qwen2-VL 7B viable: descripción básica de imágenes, no diagnóstico clínico real.	Qwen2-VL 72B Q4: análisis detallado de radiografías, descripción estructurada de hallazgos. Base real del LLM clínico multimodal.
KPIs y reporting Informes semanales clínicas	Resúmenes simples de datos. Sin interpretación profunda ni comparativa.	Narrativa de KPIs con contexto, detección de anomalías, comparativa entre clínicas.	Análisis completo con contexto histórico, recomendaciones accionables, texto listo para informes ejecutivos.

Cluster de Mac Mini M4 Pro · configuración media 48 GB cada uno

Conectados vía Thunderbolt 5 con RDMA · framework Exo Labs o MLX Distributed · precio de unidad: ~2.099 €

Importante: El Mac Mini M4 Pro tiene 3 puertos Thunderbolt 5 traseros con soporte RDMA (confirmado en specs de Apple). Esto significa que, a diferencia del Mini M4 base, el cluster entre varios Mini M4 Pro sí tiene acceso a la latencia baja (~3 µs vs ~300 µs). La limitación es que el Mini Pro solo tiene 3 puertos TB5 frente a los 4 del Mac Studio, lo que limita la topología en clusters grandes.

Nodos	RAM total	Coste total	+ Switch TB5	Modelo LLM máximo viable	Qué puedes hacer
M 1 nodo	48 GB	2.099 € 1 unidad	No necesario	Llama 3.3 70B Q4 38 GB · 16–22 t/s	Claude Code local · MCP SuperOrto complejo · ticket_agent clínico · KPI narrativos. El punto de entrada óptimo.
M M 2 nodos	96 GB	4.198 € 2 unidades	Cable TB5 directo entre ellos (~30 €)	Llama 3.1 405B Q2 ~80 GB · ~8–12 t/s	Primer salto real de calidad: modelos frontier locales. Calidad cercana a GPT-4o / Claude Haiku. Datos nunca salen de tu red. Velocidad lenta pero viable para uso asíncrono.
M M M 3 nodos	144 GB	6.297 € 3 unidades	Switch TB5 recomendado (~500–800 €)	Llama 3.1 405B Q3 ~120 GB · ~10–15 t/s	405B en Q3 con calidad notablemente superior al Q2. Equivalente aproximado a Claude Haiku / GPT-4o mini en muchas tareas. Análisis de DDR completo, generación de código complejo.
M M M M 4 nodos	192 GB	8.396 € 4 unidades	Switch TB5 necesario (~500–800 €)	Llama 3.1 405B Q4 / DeepSeek 671B Q2 ~160 GB · ~12–18 t/s	Máxima calidad open source local. 405B en Q4: calidad muy cercana a GPT-4o. DeepSeek 671B: razonamiento excepcional. LLM clínico multimodal con Qwen2-VL 72B + modelo de texto en paralelo.

Cluster de Mac Studio M4 Max · 64 GB cada uno

4× puertos TB5 traseros por nodo · RDMA nativo · máximo rendimiento por unidad · precio de unidad: 3.204 €

Ventaja sobre el Mac Mini: El Mac Studio M4 Max tiene 4 puertos TB5 traseros (frente a 3 del Mini Pro), mayor ancho de banda de memoria (400 GB/s vs 273 GB/s) y 40 GPU cores frente a 20. Esto se traduce en mayor velocidad por token, mejor gestión de contexto largo y más flexibilidad en la topología del cluster.

Nodos	RAM total	Coste total	+ Switch TB5	Modelo LLM máximo viable	Qué puedes hacer
S 1 nodo	64 GB	3.204 € 1 unidad	No necesario	Qwen2.5 72B Q5 / DeepSeek R1 70B Q5 50 GB · 16–26 t/s	Claude Code local · MCP SuperOrto · imágenes dentales (Qwen2-VL) · ticket_agent clínico · KPIs · LLM multimodal básico. El punto de entrada óptimo para uso profesional.
S S 2 nodos	128 GB	6.408 € 2 unidades	Cable TB5 directo (~30 €)	Llama 3.1 405B Q3 ~120 GB · ~15–20 t/s	Frontier model local: calidad muy cercana a GPT-4o. Velocidad útil para uso interactivo. Análisis profundo de bases de datos, generación de código complejo, razonamiento avanzado. El salto cualitativo más importante.
S S S 3 nodos	192 GB	9.612 € 3 unidades	Switch TB5 recomendado (~500–800 €)	Llama 3.1 405B Q4 / DeepSeek 671B Q2 ~160 GB · ~18–25 t/s	405B en Q4 a velocidad interactiva real. DeepSeek 671B: razonamiento tipo o1 de clase mundial. Modelos de código de nivel profesional. Entrenamiento fino (fine-tuning) de modelos 7B–13B con datos propios de las clínicas.
S S S S 4 nodos	256 GB	12.816 € 4 unidades	Switch TB5 necesario (~500–800 €)	DeepSeek 671B Q3 / Kimi K2 1T Q1 ~220–250 GB · ~20–28 t/s	Territorio NetworkChuck: modelos de 1 billón de parámetros locales. Calidad comparable o superior a Claude Sonnet en tareas especializadas. Fine-tuning de modelos medianos. LLM clínico multimodal de clase profesional.

Inversión total por nivel de capacidad

Comparativa rápida para decidir el punto de entrada según presupuesto disponible

Configuración	RAM total	Inversión	Mejor modelo viable	Valoración
1× Mac Mini M4 Pro 48 GB Punto de entrada	48 GB	2.099 €	70B Q4 · ~16–22 t/s	✓ Mejor relación coste/utilidad. Cubre el 90% de casos de uso diarios con calidad equivalente a GPT-4o mini.
1× Mac Studio M4 Max 64 GB Profesional	64 GB	3.204 €	72B Q5 + multimodal	✓ Añade multimodalidad (imágenes dentales), más velocidad, 4 puertos TB5 para cluster futuro. Inversión justificada para uso intensivo.
2× Mac Mini M4 Pro 48 GB Cluster básico	96 GB	4.198 €	405B Q2 · ~8–12 t/s	Primera vez que accedes a modelos frontier locales. Velocidad lenta, calidad alta. Adquisición progresiva posible.
2× Mac Studio M4 Max 64 GB Cluster profesional	128 GB	6.408 €	405B Q3 · ~15–20 t/s	✓ El salto más impactante: frontier model a velocidad interactiva real. Equivalente a lo que usas cuando llamas a GPT-4o.
4× Mac Mini M4 Pro 48 GB Cluster medio	192 GB	8.396 €	405B Q4 / DeepSeek 671B Q2	Máxima calidad open source con Mac Mini. Requiere switch TB5. Adquisición posible de 1 en 1 a lo largo del tiempo.
4× Mac Studio M4 Max 64 GB Supercomputador de escritorio	256 GB	12.816 €	DeepSeek 671B Q3 / Kimi K2 1T	Territorio NetworkChuck. Modelos de 1 billón de parámetros. Equivalente a ~780.000 € en H100. Fine-tuning profesional. LLM clínico de clase mundial.