Lokale LLMs mit Ollama — Lohnt sich das 2026?
Ich hab zwei Wochen lang alle meine API-Calls durch Ollama ersetzt. Kein DeepSeek, kein GPT-4 — nur lokale Modelle auf meiner RTX 4090. Das Ergebnis: Es funktioniert... meistens.
Hardware: Was brauchst du wirklich?
Kurzantwort: Nvidia-GPU mit mindestens 16GB VRAM. Punkt. Mit 24GB (RTX 4090) kannst du 13B-Modelle mit Q4 komfortabel betreiben, 34B mit Q3. Für 70B brauchst du 48GB+.
Modelle die tatsächlich brauchbar sind
- qwen2.5-coder:14b: Mein Daily-Driver für Coding. Etwa 80% von GPT-4-Niveau.
- deepseek-coder-v2:16b: Bester lokaler Coder aber langsam auf Consumer-Hardware.
- phi-4:14b: Überraschend gut für Reasoning.
Kostenvergleich: Lokal vs Cloud
Cloud (DeepSeek API): ~$150-240/Monat bei 10K Calls/TagLokal (RTX 4090): ~$88/Monat Strom + $1800 Hardware einmaligAmortisiert in ca. 12 MonatenWo lokale Modelle versagen
- Lang-Kontext (>32K Tokens)
- Komplexes Reasoning
- Function-Calling
- Mehrsprachigkeit (Deutsch schlechter als Englisch)
Hybrid-Strategie: Lokal für Coding und einfache Q&A, Cloud für komplexe Orchestrierung und Lang-Kontext. Beste aus beiden Welten.
Setup in 5 Minuten
ollama pull qwen2.5-coder:14b# In Python:from openai import OpenAIclient = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")