Un modelo de lenguaje aprende a entender y generar texto ajustando millones de pequeños valores numéricos llamados parámetros. Cuando ves "70B" significa 70.000 millones de parámetros. Cuantos más parámetros tiene un modelo, más patrones del lenguaje ha podido aprender durante su entrenamiento: más matices, más idiomas, más contexto, mejor razonamiento. La contrapartida es que ocupa más memoria RAM para poder funcionar.
| Tamaño | Ejemplos de modelos | RAM mínima | Qué puede y qué no puede hacer |
|---|---|---|---|
| 3B – 8B | Llama 3.2 3B/8B Gemma 3 4B/7B Qwen2.5 7B |
3–8 GB | Respuestas cortas y rápidas · clasificación simple · resúmenes de textos breves · autocompletado básico de código. Se pierde con preguntas de varios pasos, contexto largo o lógica compleja. Equivale aproximadamente a un asistente muy ágil pero con memoria corta. |
| 14B – 32B | Qwen2.5 14B/32B Gemma 3 27B Mistral 24B |
10–22 GB | Redacción de documentos · generación de código funcional · consultas con contexto moderado · análisis de datos estructurados. Ya da respuestas útiles en tareas profesionales cotidianas. Es el punto de entrada práctico para automatizaciones reales. |
| 70B – 72B | Llama 3.3 70B Qwen2.5 72B DeepSeek R1 70B |
38–50 GB | Razonamiento complejo de varios pasos · código de calidad profesional · análisis de contexto largo · instrucciones sofisticadas en varios idiomas · calidad comparable a GPT-4o mini. Es el punto dulce actual: muy capaz y todavía cabe en un solo equipo de gama alta. |
| 405B – 671B | Llama 3.1 405B DeepSeek V3 671B Kimi K2 1T |
80–200+ GB | Calidad de nivel frontier: razonamiento avanzado, instrucciones ambiguas, código de arquitectura compleja, múltiples idiomas con matices culturales. Comparable a GPT-4o o Claude Sonnet. Requiere cluster de varias máquinas o hardware de datacenter para correr localmente. |
Cada parámetro de un modelo es originalmente un número con mucha precisión (32 bits, como un decimal muy exacto). La cuantización redondea esos números a menos bits, igual que si en lugar de medir algo con una regla milimetrada usaras solo centímetros: pierdes algo de exactitud, pero el dato ocupa mucho menos espacio. El número después de la Q indica cuántos bits se usan por parámetro: Q8 = 8 bits (muy preciso), Q2 = 2 bits (muy comprimido). Esto permite correr modelos grandes en equipos con menos RAM de la que normalmente necesitarían.
| Nivel | Tamaño aprox. | Pérdida calidad | Cuándo usarlo y qué esperar |
|---|---|---|---|
| Q2 | ~25% del original | Alta | Solo cuando el modelo simplemente no cabe de otra manera. Notarás errores en instrucciones largas, respuestas inconsistentes y menor coherencia. Útil para tener acceso básico a un modelo muy grande en hardware limitado, pero no para uso profesional exigente. |
| Q3 | ~35% del original | Moderada | Funciona para tareas simples y respuestas cortas. En tareas de razonamiento largo o código complejo empieza a cometer errores que no cometería en Q4 o superior. Úsalo solo si la RAM no da para más. |
| Q4 | ~50% del original | Pequeña | El punto de equilibrio más usado en la práctica. Para la mayoría de tareas profesionales la diferencia respecto al modelo original es imperceptible. Es el estándar recomendado cuando quieres maximizar el tamaño del modelo dentro de tu RAM disponible. |
| Q5 | ~60% del original | Muy pequeña | Casi indistinguible del original en tareas cotidianas. Mejora perceptible frente a Q4 en razonamiento complejo y código de muchos pasos. El equilibrio ideal cuando tienes RAM suficiente y quieres la mejor calidad posible sin llegar al tamaño completo. |
| Q6 – Q8 | ~75–100% | Mínima / Nula | Calidad prácticamente idéntica al modelo original. Solo tiene sentido en modelos pequeños (7B–14B) donde la RAM lo permite sin sacrificar nada. En modelos de 70B no suele ser viable porque el tamaño resultante no cabe en un solo equipo de escritorio. |
Ejemplo práctico: Un modelo Llama 3.3 70B en su versión original ocupa ~140 GB. En Q4 ocupa ~38 GB y en Q5 ocupa ~48 GB. La pérdida de calidad entre Q4 y el original en tareas de escritura o código es habitualmente menor del 5%. En las tablas siguientes, la columna "Cuant." indica qué nivel de cuantización se está usando en cada configuración.
| Modelo LLM | Cuant. | RAM | Vel. aprox | Para qué sirve en la práctica |
|---|---|---|---|---|
Llama 3.2 8B / Qwen2.5 14B Modelos compactos |
Q6–Q8 | 9–11 GB | 45–70 t/s | Respuestas cortas rápidas · clasificación de tickets de soporte · extracción de datos de texto plano · autocompletado de código sencillo · resúmenes breves. Velocidad excelente, pero se pierde en razonamiento complejo o instrucciones largas. |
Qwen2.5 32B Modelo mediano capaz |
Q3 | 15 GB | 25–35 t/s | Generación de scripts FileMaker sencillos · borrador de emails y newsletter · consultas OData básicas vía MCP. Cuantización baja Q3: comete errores en tareas largas y de lógica compleja. |
Llama 3.3 70B Gran modelo generalista |
No cabe | — | — | Imposible en 24 GB. Requiere al menos 30 GB libres en cuantización Q3. |
| Modelo LLM | Cuant. | RAM | Vel. aprox | Para qué sirve en la práctica |
|---|---|---|---|---|
Qwen2.5 32B Modelo mediano capaz |
Q5 | 22 GB | 30–42 t/s | Generación de cálculos FileMaker complejos · scripts Python de automatización · redacción de documentación técnica · newsletter SuperOrto con buena calidad · análisis de logs · consultas OData vía MCP con contexto clínico. |
Llama 3.3 70B Gran modelo generalista |
Q4 | 38 GB | 16–22 t/s | Claude Code local para sesiones de desarrollo · ticket_agent con comprensión de contexto clínico · generación de informes KPI narrativos · diagnóstico de problemas de infraestructura. Equivalente aproximado a GPT-4o mini en calidad. |
DeepSeek R1 70B Razonamiento paso a paso |
Q4 | 40 GB | 14–20 t/s | Depuración de código compleja · análisis de errores de infraestructura con razonamiento explícito · planificación de arquitecturas · problemas que necesitan pensar antes de responder. Más lento que Llama pero más preciso en lógica. |
| Modelo LLM | Cuant. | RAM | Vel. aprox | Para qué sirve en la práctica |
|---|---|---|---|---|
Qwen2.5 72B Modelo 70B de Alibaba |
Q4 | 43 GB | 18–26 t/s | Todo lo del 70B Llama más: mejor rendimiento en español · mejor razonamiento sobre datos tabulares FileMaker · código Python más fiable · análisis de facturas y documentos estructurados. |
DeepSeek R1 70B Razonamiento tipo o1 |
Q5 | 50 GB | 13–18 t/s | En Q5 mejora precisión: migraciones de datos complejas · revisión de lógica en scripts FileMaker largos · detección de errores sutiles · planificación de arquitecturas de microservicios. |
| Modelo LLM | Cuant. | RAM | Vel. aprox | Para qué sirve en la práctica |
|---|---|---|---|---|
Qwen2.5 32B Modelo mediano capaz |
Q5 | 22 GB | 40–55 t/s | El modelo "de guardia" siempre listo para respuestas rápidas mientras el 70B hace tareas pesadas en paralelo. Velocidad excelente para automatizaciones ligeras y consultas rápidas de MCP SuperOrto. |
Llama 3.3 70B / Qwen2.5 72B Gran modelo generalista |
Q4–Q5 | 38–50 GB | 18–32 t/s | Claude Code local con calidad equivalente a GPT-4o mini · ticket_agent con comprensión clínica profunda · MCP SuperOrto con consultas OData complejas · documentación técnica completa · análisis de infraestructura con contexto muy largo. |
DeepSeek R1 70B Razonamiento tipo o1 |
Q5 | 50 GB | 16–22 t/s | Auditorías de código · migraciones de bases de datos complejas · detección de errores lógicos en scripts FileMaker · planificación de arquitecturas · razonamiento paso a paso explícito y auditable. |
Qwen2-VL 72B Visión + texto · multimodal |
Q4 | 42 GB | 15–20 t/s | Análisis de radiografías dentales · descripción automática de fotos intraorales · lectura de documentos escaneados (facturas, informes) · base del LLM clínico multimodal para las clínicas. Datos de pacientes nunca salen de tu red. |
| GPU | Config completa del equipo | VRAM | Coste aprox | Modelo máximo · qué puedes hacer |
|---|---|---|---|---|
RTX 4090 24 GB GDDR6X |
i9-14900K · 64 GB DDR5 · 2 TB NVMe · 850W PSU · Linux Ubuntu | 24 GB | 3.500–4.500 € | Qwen2.5 32B Q5 cómodo · Llama 70B Q2 muy justo. Inferencia rápida por token. Limitado por VRAM: no escala sin cambiar GPU. |
2× RTX 4090 NVLink · 48 GB efectivos |
i9-14900K · 128 GB DDR5 · 4 TB NVMe · 1200W PSU · Linux Ubuntu | 48 GB | 7.000–9.000 € | Llama 3.3 70B Q4 cómodo. Setup complejo: NVLink, drivers, refrigeración dual. Más rápido que Apple en inferencia pura, pero el coste casi triplica al Mac Studio. |
RTX 6000 Ada GPU profesional NVIDIA |
Ryzen 9 7950X · 128 GB DDR5 · 4 TB NVMe · 1000W PSU · Linux Ubuntu | 48 GB | 9.000–11.000 € | 70B Q4–Q5 a alta velocidad con soporte ECC. Precio difícilmente justificable frente al Mac Studio para inferencia local. |
H100 SXM GPU datacenter |
Servidor rack Xeon · 512 GB RAM ECC · 10 TB NVMe · infraestructura datacenter | 80 GB | 30.000–40.000 € | Llama 3.1 405B Q4 completo · DeepSeek 671B · velocidad muy superior. Es lo que hay detrás de la API de Anthropic. Territorio datacenter, no home lab. |
| Modelo cloud | Calidad | Coste | Equivalente local más cercano | Diferencia real en la práctica |
|---|---|---|---|---|
Claude Sonnet 4 Anthropic · tope actual |
⭑⭑⭑⭑⭑ | API pago | Llama 3.1 405B Q3 Requiere 2× Mac Studio Ultra (~200 GB RAM total) |
El 405B se acerca en benchmarks de código y razonamiento pero no llega. La diferencia más notable es en instrucciones complejas de varios pasos y en seguimiento de contexto muy largo. |
GPT-4o OpenAI · multimodal |
⭑⭑⭑⭑⭑ | API pago | Llama 3.1 405B Q3 Requiere 2× Mac Studio Ultra |
El 405B y GPT-4o compiten en muchos benchmarks. El 405B es open source y corre local. Sin visión nativa (necesitas Qwen2-VL para eso). GPT-4o sigue siendo superior en razonamiento y multimodalidad. |
Claude Haiku 4 Anthropic · rápido y económico |
⭑⭑⭑⭑ | API barata | Qwen2.5 72B Q4–Q5 Mac Studio 64 GB o Mini 64 GB |
Calidad comparable en tareas de desarrollo y redacción. El 72B local es algo más lento que Haiku en la API, pero sin coste por token y con privacidad total. |
GPT-4o mini OpenAI · económico |
⭑⭑⭑⭑ | API barata | Llama 3.3 70B Q4 Mac Mini 48 GB o Mac Studio |
Equivalencia bastante ajustada en benchmarks de código y razonamiento. El 70B local gana en privacidad y coste cero por uso; pierde en velocidad de respuesta inicial y en contexto muy largo. |
GPT-3.5 / modelos rápidos básicos Modelos económicos de 2023 |
⭑⭑⭑ | API muy barata | Qwen2.5 32B Q5 / Llama 8B Q8 Mac Mini 24–48 GB |
Para tareas simples y automatizaciones de bajo nivel, el 32B local supera a estos modelos en muchas métricas. Ideal para ticket_agent con clasificación sencilla o generación de plantillas. |
| Tarea | Mac Mini 24 GB (1.699 €) | Mac Mini 48 GB (~2.099 €) | Mac Studio 64 GB (3.204 €) |
|---|---|---|---|
MCP SuperOrto FileMaker OData en lenguaje natural |
Consultas simples: "pacientes de esta semana", filtros básicos. Se pierde con joins complejos. |
Consultas con contexto clínico, joins multi-tabla, generación de OData con condiciones complejas y contexto largo. |
Todo lo anterior más análisis cruzado de clínicas, informes narrativos automáticos, contexto histórico completo. |
Claude Code local Desarrollo FileMaker y Python sin coste API |
Autocompletado y funciones cortas. No recomendado para sesiones largas de refactoring. |
Sesiones completas de desarrollo, refactoring de scripts FileMaker, depuración de microservicios Python. |
Sesiones muy largas con contexto completo del proyecto, análisis del DDR de SuperOrto, diseño de arquitecturas. |
ticket_agent Soporte clínicas WhatsApp / email / Telegram |
Clasificación y respuestas plantilla. Comprensión limitada de contexto clínico específico. |
Comprensión de contexto clínico, respuestas personalizadas, escalado inteligente a técnico humano. |
Alta precisión con contexto clínico profundo. Puede manejar más conversaciones en paralelo sin degradar calidad. |
Imágenes dentales Radiografías y fotos intraorales |
No viable. Sin espacio para modelos multimodales de calidad. |
Qwen2-VL 7B viable: descripción básica de imágenes, no diagnóstico clínico real. |
Qwen2-VL 72B Q4: análisis detallado de radiografías, descripción estructurada de hallazgos. Base real del LLM clínico multimodal. |
KPIs y reporting Informes semanales clínicas |
Resúmenes simples de datos. Sin interpretación profunda ni comparativa. |
Narrativa de KPIs con contexto, detección de anomalías, comparativa entre clínicas. |
Análisis completo con contexto histórico, recomendaciones accionables, texto listo para informes ejecutivos. |
| Nodos | RAM total | Coste total | + Switch TB5 | Modelo LLM máximo viable | Qué puedes hacer |
|---|---|---|---|---|---|
|
M
1 nodo
|
48 GB | 2.099 € 1 unidad |
No necesario | Llama 3.3 70B Q4 38 GB · 16–22 t/s |
Claude Code local · MCP SuperOrto complejo · ticket_agent clínico · KPI narrativos. El punto de entrada óptimo. |
|
M
M
2 nodos
|
96 GB | 4.198 € 2 unidades |
Cable TB5 directo entre ellos (~30 €) | Llama 3.1 405B Q2 ~80 GB · ~8–12 t/s |
Primer salto real de calidad: modelos frontier locales. Calidad cercana a GPT-4o / Claude Haiku. Datos nunca salen de tu red. Velocidad lenta pero viable para uso asíncrono. |
|
M
M
M
3 nodos
|
144 GB | 6.297 € 3 unidades |
Switch TB5 recomendado (~500–800 €) | Llama 3.1 405B Q3 ~120 GB · ~10–15 t/s |
405B en Q3 con calidad notablemente superior al Q2. Equivalente aproximado a Claude Haiku / GPT-4o mini en muchas tareas. Análisis de DDR completo, generación de código complejo. |
|
M
M
M
M
4 nodos
|
192 GB | 8.396 € 4 unidades |
Switch TB5 necesario (~500–800 €) | Llama 3.1 405B Q4 / DeepSeek 671B Q2 ~160 GB · ~12–18 t/s |
Máxima calidad open source local. 405B en Q4: calidad muy cercana a GPT-4o. DeepSeek 671B: razonamiento excepcional. LLM clínico multimodal con Qwen2-VL 72B + modelo de texto en paralelo. |
| Nodos | RAM total | Coste total | + Switch TB5 | Modelo LLM máximo viable | Qué puedes hacer |
|---|---|---|---|---|---|
|
S
1 nodo
|
64 GB | 3.204 € 1 unidad |
No necesario | Qwen2.5 72B Q5 / DeepSeek R1 70B Q5 50 GB · 16–26 t/s |
Claude Code local · MCP SuperOrto · imágenes dentales (Qwen2-VL) · ticket_agent clínico · KPIs · LLM multimodal básico. El punto de entrada óptimo para uso profesional. |
|
S
S
2 nodos
|
128 GB | 6.408 € 2 unidades |
Cable TB5 directo (~30 €) | Llama 3.1 405B Q3 ~120 GB · ~15–20 t/s |
Frontier model local: calidad muy cercana a GPT-4o. Velocidad útil para uso interactivo. Análisis profundo de bases de datos, generación de código complejo, razonamiento avanzado. El salto cualitativo más importante. |
|
S
S
S
3 nodos
|
192 GB | 9.612 € 3 unidades |
Switch TB5 recomendado (~500–800 €) | Llama 3.1 405B Q4 / DeepSeek 671B Q2 ~160 GB · ~18–25 t/s |
405B en Q4 a velocidad interactiva real. DeepSeek 671B: razonamiento tipo o1 de clase mundial. Modelos de código de nivel profesional. Entrenamiento fino (fine-tuning) de modelos 7B–13B con datos propios de las clínicas. |
|
S
S
S
S
4 nodos
|
256 GB | 12.816 € 4 unidades |
Switch TB5 necesario (~500–800 €) | DeepSeek 671B Q3 / Kimi K2 1T Q1 ~220–250 GB · ~20–28 t/s |
Territorio NetworkChuck: modelos de 1 billón de parámetros locales. Calidad comparable o superior a Claude Sonnet en tareas especializadas. Fine-tuning de modelos medianos. LLM clínico multimodal de clase profesional. |
| Configuración | RAM total | Inversión | Mejor modelo viable | Valoración |
|---|---|---|---|---|
1× Mac Mini M4 Pro 48 GB Punto de entrada |
48 GB | 2.099 € | 70B Q4 · ~16–22 t/s |
✓ Mejor relación coste/utilidad. Cubre el 90% de casos de uso diarios con calidad equivalente a GPT-4o mini. |
1× Mac Studio M4 Max 64 GB Profesional |
64 GB | 3.204 € | 72B Q5 + multimodal |
✓ Añade multimodalidad (imágenes dentales), más velocidad, 4 puertos TB5 para cluster futuro. Inversión justificada para uso intensivo. |
2× Mac Mini M4 Pro 48 GB Cluster básico |
96 GB | 4.198 € | 405B Q2 · ~8–12 t/s |
Primera vez que accedes a modelos frontier locales. Velocidad lenta, calidad alta. Adquisición progresiva posible. |
2× Mac Studio M4 Max 64 GB Cluster profesional |
128 GB | 6.408 € | 405B Q3 · ~15–20 t/s |
✓ El salto más impactante: frontier model a velocidad interactiva real. Equivalente a lo que usas cuando llamas a GPT-4o. |
4× Mac Mini M4 Pro 48 GB Cluster medio |
192 GB | 8.396 € | 405B Q4 / DeepSeek 671B Q2 |
Máxima calidad open source con Mac Mini. Requiere switch TB5. Adquisición posible de 1 en 1 a lo largo del tiempo. |
4× Mac Studio M4 Max 64 GB Supercomputador de escritorio |
256 GB | 12.816 € | DeepSeek 671B Q3 / Kimi K2 1T |
Territorio NetworkChuck. Modelos de 1 billón de parámetros. Equivalente a ~780.000 € en H100. Fine-tuning profesional. LLM clínico de clase mundial. |
Documento generado en junio 2026 · Precios orientativos Apple España · Velocidades de inferencia estimadas con MLX/Exo Labs · Las equivalencias cloud/local son aproximadas