AI Agents selbst hosten vs. Cloud – Der Vergleich
Die Entscheidung zwischen lokalem Hosting und Cloud-APIs ist vermutlich die wichtigste, die ihr für euer AI-Automation-Setup trefft. Ich habe beide Varianten über Monate parallel betrieben und dabei penibel Kosten, Latenz und Qualität getrackt. Dieser Artikel ist ehrlich – es gibt kein pauschales "Self-Hosting ist besser". Aber es gibt klare Indikatoren, wann sich was lohnt.
Meine Test-Setups
Self-Hosting (lokal)
- Hardware: Eigenbau-Server, AMD Ryzen 9 5950X, 64 GB DDR4, RTX 4070 12 GB
- Software: Ubuntu 24.04, Ollama 0.6+, Hermes Agent
- Modelle: Llama 3 70B (Q4_K_M), Mistral Large (Q5_K_M), Qwen 2.5 32B
- Stromkosten: ~28 €/Monat (Server läuft 24/7, ~130W idle, ~300W unter Last)
Cloud-APIs
- DeepSeek V3/V4: ~0,14 €/M Input-Tokens, ~0,28 €/M Output-Tokens
- OpenAI GPT-4o: ~2,50 €/M Input, ~10 €/M Output
- Anthropic Claude 3.5: ~3 €/M Input, ~15 €/M Output
Kostenvergleich: 1 Monat Praxis
Ich habe einen typischen Monat getrackt: Hermes Agent mit täglichen Coding-Tasks, Browser-Automation, Recherchen und Cron-Reports. Etwa 400 API-Calls pro Tag, durchschnittlich 8.000 Input- und 2.000 Output-Tokens pro Call.
| Variante | Monatliche Kosten | Jährliche Kosten | Break-Even |
|---|---|---|---|
| Cloud: DeepSeek V4 | ~35 € | ~420 € | — |
| Cloud: GPT-4o | ~380 € | ~4.560 € | — |
| Self-Hosting (RTX 4070) | ~28 € Strom | ~340 € + Hardware | ~10 Monate vs. DeepSeek |
| Self-Hosting (RTX 4090) | ~35 € Strom | ~420 € + Hardware | ~20 Monate vs. DeepSeek |
Die Überraschung: DeepSeek ist so günstig, dass sich Self-Hosting rein finanziell kaum lohnt. Bei GPT-4o-Preisen sähe die Rechnung anders aus – da amortisiert sich die Hardware in unter 3 Monaten.
Latenz & Performance
Hier liegt der entscheidende Unterschied:
| Metrik | Lokal (Llama 3 70B) | DeepSeek API | GPT-4o API |
|---|---|---|---|
| Time-to-First-Token | 0,8 – 2,1 s | 0,3 – 0,8 s | 0,4 – 1,2 s |
| Tokens/Sekunde | 18 – 25 | 40 – 80 | 25 – 55 |
| Coding-Qualität | 7/10 | 9/10 | 8.5/10 |
| Tool-Use-Zuverlässigkeit | 82% | 94% | 91% |
Für interaktive Nutzung sind Cloud-APIs schneller. Für Batch-Jobs, bei denen Latenz egal ist, kann das lokale Modell mithalten. Die Coding-Qualität von DeepSeek V4 ist beeindruckend – dazu habe ich einen separaten Artikel.
Wann Self-Hosting Sinn macht
1. Datenschutz und Compliance
Wenn ihr mit sensiblen Daten arbeitet – Kundendaten, interne Dokumente, Geschäftsgeheimnisse – führt kein Weg am Self-Hosting vorbei. Kein Cloud-Anbieter gibt euch die Garantie, dass eure Prompts nicht für Training oder Analyse verwendet werden. Selbst wenn es in den AGB steht: Vertrauen ist gut, Kontrolle ist besser.
2. Offline-Fähigkeit
Mein Server läuft in einem abgelegenen Ferienhaus ohne stabiles Internet. Mit Ollama und lokalen Modellen funktioniert Hermes Agent dort problemlos. Für Field-Work, Embedded-Systeme oder einfach als Fallback ist lokale Inferenz Gold wert.
3. Experimentieren ohne Kostenangst
Bei Cloud-APIs zählt jeder Token. Das führt – zumindest bei mir – zu einer psychologischen Hürde. "Soll ich den Agenten wirklich diese 50-Seiten-PDF analysieren lassen? Das kostet ja..." Mit lokalen Modellen fällt diese Hürde weg. Ich experimentiere freier, teste mehr und finde bessere Workflows.
4. Vorhersehbare Kosten
Stromkosten sind planbar. API-Kosten können explodieren, wenn ein Cron-Job in einer Schleife hängt oder ein Agent plötzlich 10x mehr Tokens verbraucht als erwartet. Ich hatte einen Bug, der 80 € in 2 Stunden verbraten hat – mit DeepSeek. Mit GPT-4o wären es 800 € gewesen.
Wann Cloud-APIs besser sind
1. Maximale Modell-Qualität
Die besten lokalen Modelle (Llama 3 70B, Mistral Large) sind gut – aber DeepSeek V4 und GPT-4o sind in anspruchsvollen Reasoning-Tasks eine Klasse darüber. Für kritische Code-Reviews oder komplexe Architekturentscheidungen greife ich zur Cloud.
2. Keine Hardware-Investition
Eine RTX 4090 kostet ~1.800 €. Dafür könnt ihr 5 Jahre DeepSeek nutzen – und bekommt trotzdem schnellere Inferenz. Wenn ihr den Rechner nicht anderweitig nutzt (Gaming, Rendering), ist die Cloud die wirtschaftlichere Wahl.
3. Skalierbarkeit
Wenn ein Workflow plötzlich 100 parallele Requests braucht, skaliert die Cloud sofort. Mein lokaler Server ist bei 3–4 parallelen Requests am Limit. Für Batch-Verarbeitung mit hohem Durchsatz sind Cloud-APIs unschlagbar.
Mein Hybrid-Setup
Nach Monaten des Experimentierens bin ich bei einem Hybrid-Ansatz gelandet, den ich jedem empfehle:
# ~/.hermes/config.yaml
provider: deepseek # Primär Cloud für interaktive Nutzung
fallback_provider: ollama # Fallback für Offline/Datenschutz
fallback_model: llama3:70b
routing_rules:
- pattern: "*.pdf|*.docx" # Dokument-Analyse
provider: ollama # Lokal, wegen Datenschutz
- pattern: "code review"
provider: deepseek # Cloud, bessere Qualität
- pattern: "summarize|extract"
provider: ollama # Lokal, kostengünstig
- pattern: "refactor|optimize"
provider: deepseek # Cloud, präziser
Mit diesem Setup zahle ich etwa 15–20 €/Monat für die Cloud und habe trotzdem die Vorteile lokaler Inferenz für datenschutzkritische Tasks.
Fazit
Self-Hosting lohnt sich primär für Datenschutz, Offline-Fähigkeit und Experimentierfreiheit. Cloud-APIs – speziell DeepSeek – sind für die meisten Use Cases kostengünstiger und liefern bessere Qualität. Der Sweet Spot ist das Hybrid-Modell: Cloud für anspruchsvolle Tasks, lokal für alles, was sensibel oder repetitiv ist.
In meinem Fall: 80% der täglichen Calls laufen über DeepSeek, 20% lokal. Gesamtkosten unter 45 €/Monat – inklusive Strom. Dafür bekomme ich Produktivität im Wert von locker 500+ €.