Ein eigener KI-Assistent auf dem Raspberry Pi – offline, privat und kostenlos. Die Idee klingt verlockend: Ein persönlicher AI-Assistent, der auf deinem Schreibtisch steht, deine Daten niemals verlässt und dennoch leistungsstarke Sprachmodelle wie Llama 3.2 oder Phi-4 nutzt. Mit dem Raspberry Pi 5 und modernen, quantisierten LLMs ist dieser Traum heute Realität geworden.
Diese Schritt-für-Schritt Anleitung zeigt dir, wie du mit Ollama deinen eigenen lokalen KI-Assistenten baust – ganz ohne Cloud-Abhängigkeit, monatliche Kosten oder Datenschutzbedenken.
Warum lokale KI wichtig wird: Datenschutz & Unabhängigkeit
In Zeiten, in denen Tech-Giganten wie OpenAI milliardenschwere Regierungsverträge abschließen (Stichwort: Stargate Project mit 500 Milliarden Dollar) und Sicherheitsbedenken bei Cloud-KI wachsen, wird Datensouveränität zum entscheidenden Faktor. Der aktuelle HackerNews-Trend zeigt es deutlich: Tausende Nutzer suchen nach Alternativen, um ihre ChatGPT-Abos zu kündigen und wieder die volle Kontrolle über ihre Daten zu haben.
Die Vorteile einer lokalen KI-Lösung auf dem Raspberry Pi:
- Absolute Privatsphäre: Deine Gespräche und Daten bleiben zu 100% auf deinem Gerät – keine Datenweitergabe an externe Server
- Keine Abo-Kosten: Einmalige Hardware-Investition ab 80€, keine monatlichen Gebühren wie bei ChatGPT Plus
- Offline-Betrieb: Keine Internetverbindung nötig – dein KI-Assistent funktioniert auch bei Netzausfall
- Volle Anpassbarkeit: Wähle zwischen Llama 3.2, Phi-4, Mistral oder Gemma – du entscheidest, welches Modell läuft
- Smart Home Integration: Verbinde deinen lokalen LLM mit Home Assistant für intelligente Automation
Was du brauchst: Hardware & Software für deinen DIY KI-Assistenten
Für einen performanten lokalen KI-Assistenten empfehlen sich folgende Komponenten:
Hardware-Empfehlungen für Raspberry Pi AI:
| Komponente | Empfehlung | Preis ca. |
|---|---|---|
| Raspberry Pi 5 | 8 GB RAM (Minimum: 4 GB) | 80-95€ |
| Speicher | Externe SSD 256GB (statt SD-Karte) | 25-35€ |
| Kühlung | Aktiver Kühlkörper mit Lüfter | 15-25€ |
| Stromversorgung | Offizielles 27W USB-C Netzteil | 15€ |
Software-Stack für lokale LLMs:
- Raspberry Pi OS (64-bit): Unbedingt die 64-Bit Version wählen für beste LLM-Performance
- Ollama: Die führende Open-Source LLM-Runtime für lokale KI
- Open WebUI: Optionale aber empfohlene Web-Oberfläche für Chat-Interaktion
- Kompatibles Sprachmodell: Llama 3.2 3B (schnell), Phi-4 Mini (präzise), oder Mistral 7B (leistungsstark)
💡 Pro-Tipp aus der LocalLLaMA Community: Selbst kleinere 3B-Parameter-Modelle liefern auf dem Pi 5 überraschend gute Ergebnisse für Coding-Hilfe, Textzusammenfassungen und alltägliche Fragen.
Schritt 1: Raspberry Pi OS installieren & System vorbereiten
Beginne mit einer frischen Installation des Raspberry Pi OS (64-bit). Das 32-bit-System wird explizit nicht empfohlen, da moderne KI-Frameworks wie Ollama und PyTorch native 64-bit-Unterstützung benötigen.
Installationsschritte:
- Lade das Raspberry Pi Imager Tool herunter
- Wähle “Raspberry Pi OS (64-bit)” als Betriebssystem
- Aktiviere SSH und konfiguriere Wi-Fi vor dem ersten Boot
- Verwende nach Möglichkeit eine externe SSD statt MicroSD für bessere Performance
# Nach dem ersten Boot: System aktualisieren
sudo apt update && sudo apt upgrade -y
Schritt 2: Ollama installieren – Die LLM-Runtime für Raspberry Pi
Ollama hat sich als eine der beliebtesten und am weitesten verbreiteten Runtimes für lokale Large Language Models etabliert. Die Installation auf dem Raspberry Pi 5 ist denkbar einfach und dauert nur wenige Minuten.

Ollama Installation auf Raspberry Pi:
# Ollama installieren (offizielles Install-Script)
curl -fsSL https://ollama.com/install.sh | sh
# Installation überprüfen
ollama --version
# Ollama Service starten (falls nicht automatisch gestartet)
sudo systemctl enable ollama
sudo systemctl start ollama
Wichtige Ollama Befehle für den Einstieg:
| Befehl | Beschreibung |
|---|---|
ollama list | Zeigt installierte Modelle |
ollama pull [modell] | Lädt ein Modell herunter |
ollama run [modell] | Startet interaktiven Chat |
ollama rm [modell] | Entfernt ein Modell |
Schritt 3: Das richtige KI-Modell für Raspberry Pi wählen
Die Modellauswahl ist entscheidend für Performance und Qualität deines lokalen KI-Assistenten. Für den Raspberry Pi 5 mit 8GB RAM eignen sich besonders folgende Open Source LLMs:
Empfohlene Modelle für Raspberry Pi 5:
| Modell | Parameter | RAM-Bedarf | Stärken | Tokens/Sek |
|---|---|---|---|---|
| Llama 3.2 3B | 3 Milliarden | ~2.5 GB | Allrounder, schnell | 8-12 |
| Phi-4 Mini | 3.8 Milliarden | ~3 GB | Coding, Logik | 6-10 |
| Gemma 2 2B | 2 Milliarden | ~1.8 GB | Effizient, Google | 10-15 |
| Mistral 7B (Q4) | 7 Milliarden | ~5 GB | Hochwertige Antworten | 3-5 |
⚠️ Hinweis: Kleinere Modelle (2B-3B) sind für den Pi 5 optimal. 7B-Modelle laufen, erfordern aber mehr RAM und sind langsamer.
Schritt 4: LLM-Modell herunterladen mit Ollama
Mit Ollama ist das Herunterladen und Verwalten von Sprachmodellen trivial. Das System lädt automatisch die optimierte GGUF-Version für deine Hardware.
Modell-Download und erste Tests:
# Llama 3.2 3B herunterladen (empfohlen für Einsteiger)
ollama pull llama3.2:3b
# Alternative: Phi-4 Mini für bessere Coding-Fähigkeiten
ollama pull phi4-mini
# Oder Gemma 2 2B für maximale Geschwindigkeit
ollama pull gemma2:2b
Der erste Download kann je nach Internetverbindung 10-30 Minuten dauern. Das Modell wird im ~/.ollama/models-Verzeichnis gespeichert.
Schritt 5: Erste Interaktion mit deinem lokalen KI-Assistenten testen
Nach dem Download kannst du sofort mit deinem lokalen LLM interagieren. Die Antwortgeschwindigkeit auf dem Raspberry Pi 5 liegt je nach Modell und Quantisierung bei etwa 5-15 Tokens pro Sekunde — kleinere 3B-Modelle tend am oberen Ende, 7B-Modelle eher am unteren.
Interaktiver Chat starten:
# Llama 3.2 im Terminal starten
ollama run llama3.2:3b
# Du siehst nun den Prompt:
>>>
# Beispiel-Abfragen zum Testen:
>>> Erkläre mir Quantencomputing einfach
>>> Schreibe ein Python-Skript für einen Taschenrechner
>>> Fasse den Begriff "Edge Computing" zusammen
# Beenden mit Ctrl+D oder /bye
Performance-Erwartungen:
- Llama 3.2 3B: ~8-12 Tokens/Sekunde, flüssige Konversation
- Phi-4 Mini: ~6-10 Tokens/Sekunde, präzisere Antworten
- Mistral 7B: ~3-5 Tokens/Sekunde, höchste Qualität aber langsamer
Schritt 6: Web-Interface mit Open WebUI einrichten
Für eine benutzerfreundliche Chat-Oberfläche ähnlich wie ChatGPT empfehlt sich Open WebUI. Diese Open-Source Web-App bietet eine moderne UI für deinen lokalen Ollama-Server.
Open WebUI Installation auf Raspberry Pi:
# Docker installieren (falls nicht vorhanden)
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER
# Neu einloggen erforderlich!
# Open WebUI mit Docker starten
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Zugriff auf das Web-Interface:
- Öffne im Browser:
http://[IP-deines-Pi]:3000 - Erstelle ein Admin-Konto beim ersten Start
- Wähle dein installiertes Ollama-Modell aus der Dropdown-Liste
- Starte deinen ersten Chat!
Features von Open WebUI:
- Chat-Verlauf speichern
- Mehrere Modelle gleichzeitig nutzbar
- RAG (Dokumenten-Upload) möglich
- Mobile-optimierte Oberfläche
Schritt 7: Integration in deinen Workflow & Smart Home
Ein lokaler KI-Assistent auf dem Raspberry Pi kann weit mehr als nur Chat. Nutze ihn für Dokumentenanalyse, als Coding-Assistent oder für Smart-Home-Integration.

Praktische Anwendungsfälle:
1. Dokumentenanalyse mit RAG
Open WebUI unterstützt das Hochladen von PDFs und Textdateien. Dein lokaler LLM kann dann:
- Verträge zusammenfassen
- Lange Dokumente analysieren
- Spezifische Informationen extrahieren
2. Coding-Assistent ohne Internet
- Code-Reviews durchführen
- Funktionen erklären
- Bugs finden und korrigieren
- In verschiedenen Sprachen übersetzen
3. Smart Home Integration mit Home Assistant
# configuration.yaml Beispiel für Home Assistant
rest_command:
local_llm_query:
url: "http://[PI-IP]:11434/api/generate"
method: POST
content_type: "application/json"
payload: '{"model": "llama3.2:3b", "prompt": "{{ prompt }}", "stream": false}'
Damit kannst du:
- Automatisierungen mit KI-Logik erweitern
- Natürliche Sprachbefehle für Geräte
- Intelligente Benachrichtigungen generieren
Performance-Optimierung für Raspberry Pi KI
Maximiere die Geschwindigkeit deines lokalen LLM mit diesen Performance-Tweaks:
Hardware-Optimierungen:
Aktive Kühlung ist Pflicht
- Der Pi 5 drosselt bei Überhitzung
- Aktiver Kühlkörper + Lüfter halten Temperaturen unter 70°C
- Stabile Performance ohne Thermal Throttling
Externe SSD statt MicroSD
- 5-10x schnellere Ladezeiten
- Längere Lebensdauer bei intensiver Nutzung
- USB 3.0 SSD empfohlen
GGUF-Quantisierung verstehen
- Q4_K_M: Bestes Verhältnis aus Qualität und Geschwindigkeit
- Q5_K_M: Höhere Qualität, etwas langsamer
- Q8_0: Nahezu verlustfrei, aber mehr RAM nötig
Software-Optimierungen:
# GPU-Beschleunigung aktivieren (experimentell)
# In /boot/firmware/config.txt:
# gpu_mem=256
# Ollama für Pi 5 optimieren
export OLLAMA_NUM_PARALLEL=1
export OLLAMA_MAX_LOADED_MODELS=1
Erwartbare Performance:
| Setup | Tokens/Sek | Empfehlung |
|---|---|---|
| Pi 5 + SD + Passiv | 4-6 | Nur für Tests |
| Pi 5 + SSD + Aktiv | 8-12 | ✅ Produktiv |
| Pi 5 + SSD + Overclock | 10-15 | Für Enthusiasten |
Fazit: Dein eigener KI-Assistent ist Realität
Die Kombination aus Raspberry Pi 5 und modernen, optimierten Sprachmodellen macht lokale KI für jeden zugänglich. Für unter 150€ Hardware-Kosten erhältst du einen vollständig privaten KI-Assistenten ohne Abo-Gebühren, Datenschutzbedenken oder Cloud-Abhängigkeit.
Was du erreicht hast:
✅ 100% Datenschutz – Deine Daten verlassen niemals dein Zuhause
✅ Keine monatlichen Kosten – Einmalige Investition, lebenslange Nutzung
✅ Offline-fähig – Funktioniert auch ohne Internetverbindung
✅ Flexibel erweiterbar – Neue Modelle einfach via Ollama testen
✅ Smart Home ready – Integration mit Home Assistant möglich
Nächste Schritte:
- Experimentiere mit verschiedenen Modellen (Llama 3.2, Phi-4, Mistral)
- Richte RAG für Dokumentenanalyse ein
- Integriere den Assistenten in deinen Smart Home Workflow
- Teile deine Erfahrungen in der r/LocalLLaMA Community
Willkommen in der Welt der lokalen KI! 🚀
Hast du Fragen oder Feedback? Die Open-Source-Community rund um Ollama und LocalLLaMA ist aktiv und hilfsbereit bei Problemen.
