Lokale KI auf Raspberry Pi: DIY AI-Assistent ohne Cloud

Ein eigener KI-Assistent auf dem Raspberry Pi – offline, privat und kostenlos. Die Idee klingt verlockend: Ein persönlicher AI-Assistent, der auf deinem Schreibtisch steht, deine Daten niemals verlässt und dennoch leistungsstarke Sprachmodelle wie Llama 3.2 oder Phi-4 nutzt. Mit dem Raspberry Pi 5 und modernen, quantisierten LLMs ist dieser Traum heute Realität geworden.

Diese Schritt-für-Schritt Anleitung zeigt dir, wie du mit Ollama deinen eigenen lokalen KI-Assistenten baust – ganz ohne Cloud-Abhängigkeit, monatliche Kosten oder Datenschutzbedenken.

Warum lokale KI wichtig wird: Datenschutz & Unabhängigkeit

In Zeiten, in denen Tech-Giganten wie OpenAI milliardenschwere Regierungsverträge abschließen (Stichwort: Stargate Project mit 500 Milliarden Dollar) und Sicherheitsbedenken bei Cloud-KI wachsen, wird Datensouveränität zum entscheidenden Faktor. Der aktuelle HackerNews-Trend zeigt es deutlich: Tausende Nutzer suchen nach Alternativen, um ihre ChatGPT-Abos zu kündigen und wieder die volle Kontrolle über ihre Daten zu haben.

Die Vorteile einer lokalen KI-Lösung auf dem Raspberry Pi:

Absolute Privatsphäre: Deine Gespräche und Daten bleiben zu 100% auf deinem Gerät – keine Datenweitergabe an externe Server
Keine Abo-Kosten: Einmalige Hardware-Investition ab 80€, keine monatlichen Gebühren wie bei ChatGPT Plus
Offline-Betrieb: Keine Internetverbindung nötig – dein KI-Assistent funktioniert auch bei Netzausfall
Volle Anpassbarkeit: Wähle zwischen Llama 3.2, Phi-4, Mistral oder Gemma – du entscheidest, welches Modell läuft
Smart Home Integration: Verbinde deinen lokalen LLM mit Home Assistant für intelligente Automation

Was du brauchst: Hardware & Software für deinen DIY KI-Assistenten

Für einen performanten lokalen KI-Assistenten empfehlen sich folgende Komponenten:

Hardware-Empfehlungen für Raspberry Pi AI:

Komponente	Empfehlung	Preis ca.
Raspberry Pi 5	8 GB RAM (Minimum: 4 GB)	80-95€
Speicher	Externe SSD 256GB (statt SD-Karte)	25-35€
Kühlung	Aktiver Kühlkörper mit Lüfter	15-25€
Stromversorgung	Offizielles 27W USB-C Netzteil	15€

Software-Stack für lokale LLMs:

Raspberry Pi OS (64-bit): Unbedingt die 64-Bit Version wählen für beste LLM-Performance
Ollama: Die führende Open-Source LLM-Runtime für lokale KI
Open WebUI: Optionale aber empfohlene Web-Oberfläche für Chat-Interaktion
Kompatibles Sprachmodell: Llama 3.2 3B (schnell), Phi-4 Mini (präzise), oder Mistral 7B (leistungsstark)

💡 Pro-Tipp aus der LocalLLaMA Community: Selbst kleinere 3B-Parameter-Modelle liefern auf dem Pi 5 überraschend gute Ergebnisse für Coding-Hilfe, Textzusammenfassungen und alltägliche Fragen.

Schritt 1: Raspberry Pi OS installieren & System vorbereiten

Beginne mit einer frischen Installation des Raspberry Pi OS (64-bit). Das 32-bit-System wird explizit nicht empfohlen, da moderne KI-Frameworks wie Ollama und PyTorch native 64-bit-Unterstützung benötigen.

Installationsschritte:

Lade das Raspberry Pi Imager Tool herunter
Wähle “Raspberry Pi OS (64-bit)” als Betriebssystem
Aktiviere SSH und konfiguriere Wi-Fi vor dem ersten Boot
Verwende nach Möglichkeit eine externe SSD statt MicroSD für bessere Performance

# Nach dem ersten Boot: System aktualisieren
sudo apt update && sudo apt upgrade -y

Schritt 2: Ollama installieren – Die LLM-Runtime für Raspberry Pi

Ollama hat sich als eine der beliebtesten und am weitesten verbreiteten Runtimes für lokale Large Language Models etabliert. Die Installation auf dem Raspberry Pi 5 ist denkbar einfach und dauert nur wenige Minuten.

Ollama lokal auf dem Raspberry Pi – Terminal mit LLM-Chat

Ollama Installation auf Raspberry Pi:

# Ollama installieren (offizielles Install-Script)
curl -fsSL https://ollama.com/install.sh | sh

# Installation überprüfen
ollama --version

# Ollama Service starten (falls nicht automatisch gestartet)
sudo systemctl enable ollama
sudo systemctl start ollama

Wichtige Ollama Befehle für den Einstieg:

Befehl	Beschreibung
`ollama list`	Zeigt installierte Modelle
`ollama pull [modell]`	Lädt ein Modell herunter
`ollama run [modell]`	Startet interaktiven Chat
`ollama rm [modell]`	Entfernt ein Modell

Schritt 3: Das richtige KI-Modell für Raspberry Pi wählen

Die Modellauswahl ist entscheidend für Performance und Qualität deines lokalen KI-Assistenten. Für den Raspberry Pi 5 mit 8GB RAM eignen sich besonders folgende Open Source LLMs:

Empfohlene Modelle für Raspberry Pi 5:

Modell	Parameter	RAM-Bedarf	Stärken	Tokens/Sek
Llama 3.2 3B	3 Milliarden	~2.5 GB	Allrounder, schnell	8-12
Phi-4 Mini	3.8 Milliarden	~3 GB	Coding, Logik	6-10
Gemma 2 2B	2 Milliarden	~1.8 GB	Effizient, Google	10-15
Mistral 7B (Q4)	7 Milliarden	~5 GB	Hochwertige Antworten	3-5

⚠️ Hinweis: Kleinere Modelle (2B-3B) sind für den Pi 5 optimal. 7B-Modelle laufen, erfordern aber mehr RAM und sind langsamer.

Schritt 4: LLM-Modell herunterladen mit Ollama

Mit Ollama ist das Herunterladen und Verwalten von Sprachmodellen trivial. Das System lädt automatisch die optimierte GGUF-Version für deine Hardware.

Modell-Download und erste Tests:

# Llama 3.2 3B herunterladen (empfohlen für Einsteiger)
ollama pull llama3.2:3b

# Alternative: Phi-4 Mini für bessere Coding-Fähigkeiten
ollama pull phi4-mini

# Oder Gemma 2 2B für maximale Geschwindigkeit
ollama pull gemma2:2b

Der erste Download kann je nach Internetverbindung 10-30 Minuten dauern. Das Modell wird im ~/.ollama/models-Verzeichnis gespeichert.

Schritt 5: Erste Interaktion mit deinem lokalen KI-Assistenten testen

Nach dem Download kannst du sofort mit deinem lokalen LLM interagieren. Die Antwortgeschwindigkeit auf dem Raspberry Pi 5 liegt je nach Modell und Quantisierung bei etwa 5-15 Tokens pro Sekunde — kleinere 3B-Modelle tend am oberen Ende, 7B-Modelle eher am unteren.

Interaktiver Chat starten:

# Llama 3.2 im Terminal starten
ollama run llama3.2:3b

# Du siehst nun den Prompt:
>>> 

# Beispiel-Abfragen zum Testen:
>>> Erkläre mir Quantencomputing einfach
>>> Schreibe ein Python-Skript für einen Taschenrechner
>>> Fasse den Begriff "Edge Computing" zusammen

# Beenden mit Ctrl+D oder /bye

Performance-Erwartungen:

Llama 3.2 3B: ~8-12 Tokens/Sekunde, flüssige Konversation
Phi-4 Mini: ~6-10 Tokens/Sekunde, präzisere Antworten
Mistral 7B: ~3-5 Tokens/Sekunde, höchste Qualität aber langsamer

Schritt 6: Web-Interface mit Open WebUI einrichten

Für eine benutzerfreundliche Chat-Oberfläche ähnlich wie ChatGPT empfehlt sich Open WebUI. Diese Open-Source Web-App bietet eine moderne UI für deinen lokalen Ollama-Server.

Open WebUI Installation auf Raspberry Pi:

# Docker installieren (falls nicht vorhanden)
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER
# Neu einloggen erforderlich!

# Open WebUI mit Docker starten
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Zugriff auf das Web-Interface:

Öffne im Browser: http://[IP-deines-Pi]:3000
Erstelle ein Admin-Konto beim ersten Start
Wähle dein installiertes Ollama-Modell aus der Dropdown-Liste
Starte deinen ersten Chat!

Features von Open WebUI:

Chat-Verlauf speichern
Mehrere Modelle gleichzeitig nutzbar
RAG (Dokumenten-Upload) möglich
Mobile-optimierte Oberfläche

Schritt 7: Integration in deinen Workflow & Smart Home

Ein lokaler KI-Assistent auf dem Raspberry Pi kann weit mehr als nur Chat. Nutze ihn für Dokumentenanalyse, als Coding-Assistent oder für Smart-Home-Integration.

Raspberry Pi 5 Hardware-Setup mit SSD und aktivem Kühlkörper

Praktische Anwendungsfälle:

1. Dokumentenanalyse mit RAG

Open WebUI unterstützt das Hochladen von PDFs und Textdateien. Dein lokaler LLM kann dann:

Verträge zusammenfassen
Lange Dokumente analysieren
Spezifische Informationen extrahieren

2. Coding-Assistent ohne Internet

Code-Reviews durchführen
Funktionen erklären
Bugs finden und korrigieren
In verschiedenen Sprachen übersetzen

3. Smart Home Integration mit Home Assistant

# configuration.yaml Beispiel für Home Assistant
rest_command:
  local_llm_query:
    url: "http://[PI-IP]:11434/api/generate"
    method: POST
    content_type: "application/json"
    payload: '{"model": "llama3.2:3b", "prompt": "{{ prompt }}", "stream": false}'

Damit kannst du:

Automatisierungen mit KI-Logik erweitern
Natürliche Sprachbefehle für Geräte
Intelligente Benachrichtigungen generieren

Performance-Optimierung für Raspberry Pi KI

Maximiere die Geschwindigkeit deines lokalen LLM mit diesen Performance-Tweaks:

Hardware-Optimierungen:

Aktive Kühlung ist Pflicht
- Der Pi 5 drosselt bei Überhitzung
- Aktiver Kühlkörper + Lüfter halten Temperaturen unter 70°C
- Stabile Performance ohne Thermal Throttling
Externe SSD statt MicroSD
- 5-10x schnellere Ladezeiten
- Längere Lebensdauer bei intensiver Nutzung
- USB 3.0 SSD empfohlen
GGUF-Quantisierung verstehen
- Q4_K_M: Bestes Verhältnis aus Qualität und Geschwindigkeit
- Q5_K_M: Höhere Qualität, etwas langsamer
- Q8_0: Nahezu verlustfrei, aber mehr RAM nötig

Software-Optimierungen:

# GPU-Beschleunigung aktivieren (experimentell)
# In /boot/firmware/config.txt:
# gpu_mem=256

# Ollama für Pi 5 optimieren
export OLLAMA_NUM_PARALLEL=1
export OLLAMA_MAX_LOADED_MODELS=1

Erwartbare Performance:

Setup	Tokens/Sek	Empfehlung
Pi 5 + SD + Passiv	4-6	Nur für Tests
Pi 5 + SSD + Aktiv	8-12	✅ Produktiv
Pi 5 + SSD + Overclock	10-15	Für Enthusiasten

Fazit: Dein eigener KI-Assistent ist Realität

Die Kombination aus Raspberry Pi 5 und modernen, optimierten Sprachmodellen macht lokale KI für jeden zugänglich. Für unter 150€ Hardware-Kosten erhältst du einen vollständig privaten KI-Assistenten ohne Abo-Gebühren, Datenschutzbedenken oder Cloud-Abhängigkeit.

Was du erreicht hast:

✅ 100% Datenschutz – Deine Daten verlassen niemals dein Zuhause
✅ Keine monatlichen Kosten – Einmalige Investition, lebenslange Nutzung
✅ Offline-fähig – Funktioniert auch ohne Internetverbindung
✅ Flexibel erweiterbar – Neue Modelle einfach via Ollama testen
✅ Smart Home ready – Integration mit Home Assistant möglich

Nächste Schritte:

Experimentiere mit verschiedenen Modellen (Llama 3.2, Phi-4, Mistral)
Richte RAG für Dokumentenanalyse ein
Integriere den Assistenten in deinen Smart Home Workflow
Teile deine Erfahrungen in der r/LocalLLaMA Community

Willkommen in der Welt der lokalen KI! 🚀

Hast du Fragen oder Feedback? Die Open-Source-Community rund um Ollama und LocalLLaMA ist aktiv und hilfsbereit bei Problemen.