Documento técnico
abdatabase.com
Documento técnico · Inteligencia Artificial

Modelos LLM en local — guía de referencia

Familias, tamaños, hardware y herramientas para correr modelos de lenguaje en local
📅 2025–2026 ✍️ abDatabase
1 Tamaño y capacidad — ¿qué hardware necesitas?
Tamaño Parámetros RAM mínima Perfil típico
Micro
1B–3B
1 000–3 000 M 4 GB Raspberry Pi, Macs viejos. Útil para tareas muy concretas: clasificar, resumir frases cortas.
Pequeño
7B
7 000 M 8 GB El punto dulce para uso doméstico. Corre fluido en Mac M1/M2 con 8 GB. Conversación general, código básico.
Mediano
13B–14B
13 000–14 000 M 16 GB Notablemente mejor en razonamiento. Mac M1/M2 con 16 GB, o PC con GPU de 16 GB VRAM.
Grande
34B–70B
34 000–70 000 M 32–64 GB Mac Studio / Mac Pro, o servidor con GPU. Calidad cercana a GPT-3.5. Ideal para Mac Mini M4 si tiene 32+ GB.
Muy grande
+70B
>70 000 M 64–128 GB Solo para hardware muy potente. No práctico para un solo ordenador en local.

* Con cuantización (Q4/Q8) los modelos pesan aproximadamente la mitad y caben en menos RAM con poca pérdida de calidad.


2 Familias principales — ¿quién hace qué?
Meta
Llama 3.x
La familia más usada en local. Open source real. Muy buen equilibrio calidad/tamaño. Base de muchos modelos derivados. Tamaños: 8B, 70B, 405B.
Mistral AI
Mistral / Mixtral
Franceses. Muy eficientes: el 7B rinde como un 13B de otras familias. Mixtral usa arquitectura MoE (mezcla de expertos), muy rápido en inferencia.
Alibaba
Qwen 2.5
Excelente en código y chino/inglés/español. Tamaños desde 0.5B hasta 72B. Uno de los mejores modelos pequeños disponibles ahora mismo.
Google
Gemma 2
Modelos ligeros de Google (2B, 9B, 27B). Optimizados para hardware consumer. Buenas instrucciones en español.
Microsoft
Phi-3 / Phi-4
Sorprendentemente capaces para su tamaño. El Phi-3 mini (3.8B) compite con modelos de 7B. Ideal para hardware muy limitado.
DeepSeek
DeepSeek R2 / V3
Chinos. Destacan en razonamiento y matemáticas. Versiones destiladas (8B, 14B) corren en local con buenos resultados. Muy populares en 2025.

3 Mejores modelos para Apple Silicon (tu caso)
Recomendado — 8B
Llama 3.2 8B / Qwen2.5 7B
Para Mac con 8–16 GB. Fluido, rápido. Buena comprensión del español. El Qwen2.5 7B es especialmente bueno en código.
Recomendado — 14B
Qwen2.5 14B / DeepSeek-R1 14B
Para Mac con 16–24 GB. Calidad muy notable. El DeepSeek 14B destilado es excelente para razonamiento clínico y técnico.
Si tienes 32+ GB
Llama 3.3 70B (Q4)
Con cuantización Q4 cabe en ~35 GB de RAM unificada. Calidad equivalente a GPT-3.5. Mac Studio M2 Ultra o Mac Mini M4 Max.
Para tu proyecto dental
LLaVA / BakLLaVA / Qwen2-VL
Modelos multimodales (texto + imagen). Qwen2-VL 7B es el más capaz en local. Base para el modelo especializado en ortodoncia que tienes en mente.

4 Herramientas para instalarlos
Ollama
Lo más sencillo. Un comando y corre. ollama run llama3. API local compatible con OpenAI. Ideal para integrarlo en tus microservicios Python.
LM Studio
Interfaz gráfica. Descarga modelos desde HuggingFace, los prueba, y expone una API local. Perfecto para explorar sin tocar la terminal.
MLX (Apple)
Framework de Apple optimizado para Silicon. Máximo rendimiento en Mac. Más técnico que Ollama, pero usa la GPU unificada a fondo. Ideal para tu Mac Mini.
Jan — alternativa visual a LM Studio
llama.cpp — motor de bajo nivel, máximo control
Open WebUI — interfaz tipo ChatGPT sobre Ollama
AnythingLLM — Ollama + RAG integrado