AI Agents selbst hosten vs. Cloud – Der Vergleich

Die Entscheidung zwischen lokalem Hosting und Cloud-APIs ist vermutlich die wichtigste, die ihr für euer AI-Automation-Setup trefft. Ich habe beide Varianten über Monate parallel betrieben und dabei penibel Kosten, Latenz und Qualität getrackt. Dieser Artikel ist ehrlich – es gibt kein pauschales "Self-Hosting ist besser". Aber es gibt klare Indikatoren, wann sich was lohnt.

Meine Test-Setups

Self-Hosting (lokal)

Hardware: Eigenbau-Server, AMD Ryzen 9 5950X, 64 GB DDR4, RTX 4070 12 GB
Software: Ubuntu 24.04, Ollama 0.6+, Hermes Agent
Modelle: Llama 3 70B (Q4_K_M), Mistral Large (Q5_K_M), Qwen 2.5 32B
Stromkosten: ~28 €/Monat (Server läuft 24/7, ~130W idle, ~300W unter Last)

Cloud-APIs

DeepSeek V3/V4: ~0,14 €/M Input-Tokens, ~0,28 €/M Output-Tokens
OpenAI GPT-4o: ~2,50 €/M Input, ~10 €/M Output
Anthropic Claude 3.5: ~3 €/M Input, ~15 €/M Output

Kostenvergleich: 1 Monat Praxis

Ich habe einen typischen Monat getrackt: Hermes Agent mit täglichen Coding-Tasks, Browser-Automation, Recherchen und Cron-Reports. Etwa 400 API-Calls pro Tag, durchschnittlich 8.000 Input- und 2.000 Output-Tokens pro Call.

Variante	Monatliche Kosten	Jährliche Kosten	Break-Even
Cloud: DeepSeek V4	~35 €	~420 €	—
Cloud: GPT-4o	~380 €	~4.560 €	—
Self-Hosting (RTX 4070)	~28 € Strom	~340 € + Hardware	~10 Monate vs. DeepSeek
Self-Hosting (RTX 4090)	~35 € Strom	~420 € + Hardware	~20 Monate vs. DeepSeek

Die Überraschung: DeepSeek ist so günstig, dass sich Self-Hosting rein finanziell kaum lohnt. Bei GPT-4o-Preisen sähe die Rechnung anders aus – da amortisiert sich die Hardware in unter 3 Monaten.

Latenz & Performance

Hier liegt der entscheidende Unterschied:

Metrik	Lokal (Llama 3 70B)	DeepSeek API	GPT-4o API
Time-to-First-Token	0,8 – 2,1 s	0,3 – 0,8 s	0,4 – 1,2 s
Tokens/Sekunde	18 – 25	40 – 80	25 – 55
Coding-Qualität	7/10	9/10	8.5/10
Tool-Use-Zuverlässigkeit	82%	94%	91%

Für interaktive Nutzung sind Cloud-APIs schneller. Für Batch-Jobs, bei denen Latenz egal ist, kann das lokale Modell mithalten. Die Coding-Qualität von DeepSeek V4 ist beeindruckend – dazu habe ich einen separaten Artikel.

Wann Self-Hosting Sinn macht

1. Datenschutz und Compliance

Wenn ihr mit sensiblen Daten arbeitet – Kundendaten, interne Dokumente, Geschäftsgeheimnisse – führt kein Weg am Self-Hosting vorbei. Kein Cloud-Anbieter gibt euch die Garantie, dass eure Prompts nicht für Training oder Analyse verwendet werden. Selbst wenn es in den AGB steht: Vertrauen ist gut, Kontrolle ist besser.

2. Offline-Fähigkeit

Mein Server läuft in einem abgelegenen Ferienhaus ohne stabiles Internet. Mit Ollama und lokalen Modellen funktioniert Hermes Agent dort problemlos. Für Field-Work, Embedded-Systeme oder einfach als Fallback ist lokale Inferenz Gold wert.

3. Experimentieren ohne Kostenangst

Bei Cloud-APIs zählt jeder Token. Das führt – zumindest bei mir – zu einer psychologischen Hürde. "Soll ich den Agenten wirklich diese 50-Seiten-PDF analysieren lassen? Das kostet ja..." Mit lokalen Modellen fällt diese Hürde weg. Ich experimentiere freier, teste mehr und finde bessere Workflows.

4. Vorhersehbare Kosten

Stromkosten sind planbar. API-Kosten können explodieren, wenn ein Cron-Job in einer Schleife hängt oder ein Agent plötzlich 10x mehr Tokens verbraucht als erwartet. Ich hatte einen Bug, der 80 € in 2 Stunden verbraten hat – mit DeepSeek. Mit GPT-4o wären es 800 € gewesen.

Wann Cloud-APIs besser sind

1. Maximale Modell-Qualität

Die besten lokalen Modelle (Llama 3 70B, Mistral Large) sind gut – aber DeepSeek V4 und GPT-4o sind in anspruchsvollen Reasoning-Tasks eine Klasse darüber. Für kritische Code-Reviews oder komplexe Architekturentscheidungen greife ich zur Cloud.

2. Keine Hardware-Investition

Eine RTX 4090 kostet ~1.800 €. Dafür könnt ihr 5 Jahre DeepSeek nutzen – und bekommt trotzdem schnellere Inferenz. Wenn ihr den Rechner nicht anderweitig nutzt (Gaming, Rendering), ist die Cloud die wirtschaftlichere Wahl.

3. Skalierbarkeit

Wenn ein Workflow plötzlich 100 parallele Requests braucht, skaliert die Cloud sofort. Mein lokaler Server ist bei 3–4 parallelen Requests am Limit. Für Batch-Verarbeitung mit hohem Durchsatz sind Cloud-APIs unschlagbar.

Mein Hybrid-Setup

Nach Monaten des Experimentierens bin ich bei einem Hybrid-Ansatz gelandet, den ich jedem empfehle:

# ~/.hermes/config.yaml
provider: deepseek          # Primär Cloud für interaktive Nutzung
fallback_provider: ollama   # Fallback für Offline/Datenschutz
fallback_model: llama3:70b

routing_rules:
  - pattern: "*.pdf|*.docx"     # Dokument-Analyse
    provider: ollama             # Lokal, wegen Datenschutz
  - pattern: "code review"
    provider: deepseek           # Cloud, bessere Qualität
  - pattern: "summarize|extract"
    provider: ollama             # Lokal, kostengünstig
  - pattern: "refactor|optimize"
    provider: deepseek           # Cloud, präziser

Mit diesem Setup zahle ich etwa 15–20 €/Monat für die Cloud und habe trotzdem die Vorteile lokaler Inferenz für datenschutzkritische Tasks.

Fazit

Self-Hosting lohnt sich primär für Datenschutz, Offline-Fähigkeit und Experimentierfreiheit. Cloud-APIs – speziell DeepSeek – sind für die meisten Use Cases kostengünstiger und liefern bessere Qualität. Der Sweet Spot ist das Hybrid-Modell: Cloud für anspruchsvolle Tasks, lokal für alles, was sensibel oder repetitiv ist.

In meinem Fall: 80% der täglichen Calls laufen über DeepSeek, 20% lokal. Gesamtkosten unter 45 €/Monat – inklusive Strom. Dafür bekomme ich Produktivität im Wert von locker 500+ €.