Guía LLM en local

1 Tamaño y capacidad — ¿qué hardware necesitas?

Tamaño	Parámetros	RAM mínima	Perfil típico
Micro 1B–3B	1 000–3 000 M	4 GB	Raspberry Pi, Macs viejos. Útil para tareas muy concretas: clasificar, resumir frases cortas.
Pequeño 7B	7 000 M	8 GB	El punto dulce para uso doméstico. Corre fluido en Mac M1/M2 con 8 GB. Conversación general, código básico.
Mediano 13B–14B	13 000–14 000 M	16 GB	Notablemente mejor en razonamiento. Mac M1/M2 con 16 GB, o PC con GPU de 16 GB VRAM.
Grande 34B–70B	34 000–70 000 M	32–64 GB	Mac Studio / Mac Pro, o servidor con GPU. Calidad cercana a GPT-3.5. Ideal para Mac Mini M4 si tiene 32+ GB.
Muy grande +70B	>70 000 M	64–128 GB	Solo para hardware muy potente. No práctico para un solo ordenador en local.

* Con cuantización (Q4/Q8) los modelos pesan aproximadamente la mitad y caben en menos RAM con poca pérdida de calidad.

2 Familias principales — ¿quién hace qué?

Meta

Llama 3.x

La familia más usada en local. Open source real. Muy buen equilibrio calidad/tamaño. Base de muchos modelos derivados. Tamaños: 8B, 70B, 405B.

Mistral AI

Mistral / Mixtral

Franceses. Muy eficientes: el 7B rinde como un 13B de otras familias. Mixtral usa arquitectura MoE (mezcla de expertos), muy rápido en inferencia.

Alibaba

Qwen 2.5

Excelente en código y chino/inglés/español. Tamaños desde 0.5B hasta 72B. Uno de los mejores modelos pequeños disponibles ahora mismo.

Google

Gemma 2

Modelos ligeros de Google (2B, 9B, 27B). Optimizados para hardware consumer. Buenas instrucciones en español.

Microsoft

Phi-3 / Phi-4

Sorprendentemente capaces para su tamaño. El Phi-3 mini (3.8B) compite con modelos de 7B. Ideal para hardware muy limitado.

DeepSeek

DeepSeek R2 / V3

Chinos. Destacan en razonamiento y matemáticas. Versiones destiladas (8B, 14B) corren en local con buenos resultados. Muy populares en 2025.

3 Mejores modelos para Apple Silicon (tu caso)

Recomendado — 8BLlama 3.2 8B / Qwen2.5 7B
Para Mac con 8–16 GB. Fluido, rápido. Buena comprensión del español. El Qwen2.5 7B es especialmente bueno en código.

Recomendado — 14BQwen2.5 14B / DeepSeek-R1 14B
Para Mac con 16–24 GB. Calidad muy notable. El DeepSeek 14B destilado es excelente para razonamiento clínico y técnico.

Si tienes 32+ GB

Llama 3.3 70B (Q4)

Con cuantización Q4 cabe en ~35 GB de RAM unificada. Calidad equivalente a GPT-3.5. Mac Studio M2 Ultra o Mac Mini M4 Max.

Para tu proyecto dental

LLaVA / BakLLaVA / Qwen2-VL

Modelos multimodales (texto + imagen). Qwen2-VL 7B es el más capaz en local. Base para el modelo especializado en ortodoncia que tienes en mente.

4 Herramientas para instalarlos

Ollama

Lo más sencillo. Un comando y corre. ollama run llama3. API local compatible con OpenAI. Ideal para integrarlo en tus microservicios Python.

LM Studio

Interfaz gráfica. Descarga modelos desde HuggingFace, los prueba, y expone una API local. Perfecto para explorar sin tocar la terminal.

MLX (Apple)

Framework de Apple optimizado para Silicon. Máximo rendimiento en Mac. Más técnico que Ollama, pero usa la GPU unificada a fondo. Ideal para tu Mac Mini.

Jan — alternativa visual a LM Studio

llama.cpp — motor de bajo nivel, máximo control

Open WebUI — interfaz tipo ChatGPT sobre Ollama

AnythingLLM — Ollama + RAG integrado

Modelos LLM en local — guía de referencia