Local LLM Setup 2026: Eigenen KI-Assistenten im Homelab betreiben

Wer KI nutzen möchte, ohne Daten in fremde Clouds zu schicken, braucht ein Local LLM Setup im eigenen Homelab. In diesem Guide erfährst du, welche Hardware du brauchst, welche Software sich bewährt hat und wie du in wenigen Schritten deinen eigenen KI-Assistenten unter Vollkontrolle betreibst — offline, ohne Abonnement, ohne Datenweitergabe.

Local LLM Setup im Homelab 2026 – eigener KI-Server auf Consumer-Hardware

Warum ein Local LLM Setup 2026 sinnvoll ist

Die Nachfrage nach self-hosted AI ist in den letzten Jahren stark gestiegen. Cloud-Dienste wie ChatGPT oder Claude sind leistungsstark, aber mit Kosten und Datenschutzrisiken verbunden. Ein lokales Setup gibt dir:

Datenschutz: Kein Datentransfer zu Drittanbietern
Kostenersparnis: Einmalige Hardware-Investition statt monatlicher Abos
Offline-Fähigkeit: Kein Internet nötig
Anpassbarkeit: Modelle individuell konfigurierbar

Große Modelle werden 2026 effizienter und laufen auf Consumer-Hardware, die früher nicht ausreichte. Die Open-Source-Community treibt diese Entwicklung mit Modellen wie Llama, Mistral oder Qwen rasant voran.

Hardware-Anforderungen für dein Local LLM Setup

GPU-Vergleich für Local LLM: RTX 4090, A6000 und AMD RX 7900 XTX im Überblick

GPU: Das Herzstück

Hardware	VRAM	Geeignet für
RTX 4090	24 GB	Modelle bis 70B (4-Bit)
RTX 3090 / 3080 Ti	24 / 12 GB	Modelle bis 30B
NVIDIA A6000 (gebraucht)	48 GB	Große Modelle, Top-Preis-Leistung
AMD RX 7900 XTX	24 GB	NVIDIA-Alternative mit ROCm

Gebrauchte Enterprise-GPUs wie die A6000 oder A100 aus Rechenzentrumsbeständen sind auf dem Second-Hand-Markt oft das beste Preis-Leistungs-Verhältnis. Wer lieber schlüsselfertige Edge-KI-Hardware kauft: Das NVIDIA Jetson Orin Nano (Amazon-Partnerlink) bietet dedizierte GPU-Einheiten bei unter 15 Watt — ideal für stromsparenden Dauerbetrieb.

RAM

32 GB RAM reichen für Modelle bis 13B. Bei größeren Modellen oder Parallelbetrieb mehrerer Dienste sind 64 GB empfehlenswert. Der RAM ist beim Laden des Modells kritisch — während der GPU-VRAM die Berechnung übernimmt.

CPU, Storage und Stromverbrauch

Aktuelle Intel i7/i9 oder AMD Ryzen 7/9 mit ausreichend PCIe-Lanes. Schnelle NVMe-SSDs sind Pflicht — Modelle mit 30–70 GB Größe brauchen Ladebandbreite. Für die Modell-Storage empfiehlt sich eine schnelle 1TB-SSD, z. B. die Samsung 870 EVO 1TB (Amazon-Partnerlink). Unter Volllast verbraucht ein KI-Server 300–500 Watt, das sollte in die Betriebskostenkalkulation einfließen.

Die beste Software für dein Local LLM Setup

Ollama: Einstieg für Anfänger

Ollama ist der einfachste Weg, lokale LLMs zu betreiben. Als dedizierter Ollama-Server eignet sich z. B. der Beelink Mini S12 Pro (N100) (Amazon-Partnerlink) — kompakt, lautlos und dauerhaft in Betrieb zu halten. Ein Befehl installiert, ein Befehl startet:

curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3.2

Ollama bietet eine REST-API, läuft auf Linux, macOS und Windows und hat eine breite Modell-Bibliothek. Ideal als Backend für Open WebUI.

llama.cpp: Maximale Performance

Wer das letzte bisschen aus seiner Hardware herausholen will, greift zu llama.cpp. Das C++-Framework bietet die beste Inference-Performance auf Consumer-Hardware, unterstützt verschiedene Quantisierungsmethoden und lässt sich als API-Server betreiben — besonders interessant für Entwickler.

Open WebUI: Browser-Interface für deine Modelle

Open WebUI kombiniert sich ideal mit Ollama und bietet eine ChatGPT-ähnliche Oberfläche direkt im Browser:

Mehrere Modelle parallel nutzbar
Dokumenten-Upload für RAG
Benutzerverwaltung für Team-Einsatz
Einfache Docker-Installation

KoboldCPP vs. Ollama vs. Text Generation WebUI

Tool	Stärke	Zielgruppe
Ollama	Einfachheit, API	Einsteiger, Entwickler
llama.cpp	Maximale Performance	Power-User
Open WebUI	Browser-Interface	Alle
KoboldCPP	Storytelling, Rollenspiel	Kreativnutzer
Text Generation WebUI	Maximale Kontrolle	Fortgeschrittene

Schritt-für-Schritt: Local LLM Setup mit Ollama und Open WebUI

Schritt 1: System vorbereiten

sudo apt update && sudo apt upgrade -y
sudo apt install -y curl docker.io docker-compose

Für NVIDIA-GPUs: aktuelle Treiber und CUDA-Toolkit installieren. AMD-Nutzer brauchen die ROCm-Treiber.

Schritt 2: Ollama installieren

curl -fsSL https://ollama.com/install.sh | sh

Schritt 3: Open WebUI per Docker Compose starten

version: '3.8'

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    volumes:
      - ./ollama:/root/.ollama
    ports:
      - "11434:11434"
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - ./open-webui:/app/backend/data
    depends_on:
      - ollama

docker-compose up -d

Open WebUI ist anschließend unter http://deine-ip:3000 erreichbar.

Schritt 4: Modelle herunterladen

ollama pull llama3.2        # Allzweck
ollama pull codellama:34b   # Coding
ollama pull mixtral:8x7b    # Mehrsprachig

Anwendungsfälle für deinen privaten KI-Assistenten

Open WebUI Interface: Lokaler KI-Assistent im Browser mit Ollama im Hintergrund

Self-Hosted Coding Assistant

CodeLlama oder DeepSeek-Coder laufen lokal und analysieren Quellcode, ohne dass er das eigene Netzwerk verlässt. Integration in VS Code via Continue-Extension ist nahtlos. Ideal für Freelancer und Unternehmen mit IP-Schutzbedarf.

Lokales RAG-System

Mit einem Local RAG Setup beziehst du eigene Dokumente in KI-Gespräche ein. Open WebUI bringt diese Funktion mit — PDFs oder Textdateien hochladen, das Modell antwortet basierend auf diesen Inhalten. Anwendungsfälle: Vertragsanalyse, interne Wissensdatenbanken, vertrauliche Recherchen.

Lokale ChatGPT-Alternative für den Alltag

Llama 3.2 oder Mistral beherrschen Deutsch, fassen Texte zusammen, formulieren E-Mails und helfen bei Recherchen — komplett offline und ohne Datenweitergabe.

Sicherheit: Zugriff absichern

Reverse Proxy mit SSL

Für externen Zugriff empfiehlt sich Traefik oder Nginx mit Let’s Encrypt:

labels:
  - "traefik.enable=true"
  - "traefik.http.routers.openwebui.rule=Host(`ai.deine-domain.de`)"
  - "traefik.http.routers.openwebui.tls.certresolver=letsencrypt"
  - "traefik.http.services.openwebui.loadbalancer.server.port=8080"

VPN für Fernzugriff

WireGuard ist die empfohlene Lösung: leichtgewichtig, schnell, einfach einzurichten. Der KI-Server bleibt hinter der Firewall, ist aber über den VPN-Tunnel von unterwegs erreichbar.

Authentifizierung

Benutzerverwaltung in Open WebUI aktivieren, starke Passwörter setzen, IP-Beschränkungen für sensible Instanzen konfigurieren.

Modellempfehlungen 2026

Einsteiger (7B–9B Parameter, ab 8 GB VRAM)

Llama 3.2 8B — ausgewogen, schnell, gut auf Deutsch
Mistral 7B — hervorragende Performance für die Größe
Gemma 2 9B — gute deutsche Sprachunterstützung

Anspruchsvolle Aufgaben (30B–70B, 24+ GB VRAM)

Llama 3.1 70B — State-of-the-Art Open Source
Mixtral 8x7B — MoE-Architektur, effizient
Qwen 2.5 72B — stark mehrsprachig, auch auf Deutsch

Spezialisiert

CodeLlama 34B / DeepSeek-Coder 33B — Coding
Neural Chat 7B — Konversation

Troubleshooting

Out of Memory: Niedrigere Quantisierung (Q4 statt Q8), CPU-Offloading aktivieren, Kontextlänge reduzieren.

Langsame Generierung: nvidia-smi prüfen, andere GPU-Prozesse beenden, Flash Attention aktivieren.

Open WebUI verbindet sich nicht:

systemctl status ollama
docker logs open-webui

OLLAMA_BASE_URL in der Docker-Compose kontrollieren.

FAQ: Local LLM Setup

Welche GPU brauche ich für ein Local LLM Setup? Für Einsteigermodelle (7B) reicht eine GPU mit 8 GB VRAM. Für Modelle bis 70B brauchst du mindestens 24 GB VRAM, z. B. RTX 4090 oder eine gebrauchte A6000.

Kann ich ein Local LLM ohne GPU betreiben? Ja, aber deutlich langsamer. llama.cpp unterstützt CPU-only-Betrieb. Für produktive Nutzung ist eine GPU jedoch empfehlenswert.

Welches Modell eignet sich als lokale ChatGPT-Alternative auf Deutsch? Llama 3.2 8B und Qwen 2.5 72B bieten die beste deutsche Sprachqualität. Für Einsteiger ist Llama 3.2 die einfachste Wahl.

Ist Ollama oder llama.cpp besser? Ollama ist einfacher zu bedienen und ideal für Einsteiger. llama.cpp bietet mehr Performance und Kontrolle für erfahrene Nutzer. Beides lässt sich kombinieren.

Was kostet ein Local LLM Setup im Betrieb? Hauptkosten sind Strom: 300–500 Watt unter Last. Bei 10 Stunden/Tag und 0,30 €/kWh ergibt das ca. 30–45 € im Monat — deutlich weniger als Cloud-Abos für intensive Nutzung.

Fazit

Ein Local LLM Setup ist 2026 für jeden Technik-Enthusiasten realistisch umsetzbar. Ollama und Open WebUI senken die Einstiegshürde auf ein Minimum, während llama.cpp für Power-User das Maximum aus der Hardware holt. Die Kombination aus Datenschutz, Kostenersparnis und Flexibilität macht self-hosted AI zur überzeugenden Alternative zu Cloud-Diensten.

Starte mit einem 7B-Modell auf vorhandener Hardware, taste dich vor und skaliere, wenn der Bedarf wächst. Die Grundlagen aus diesem Guide reichen, um heute loszulegen.