Featured image of post Lokale KI auf Raspberry Pi: DIY AI-Assistent ohne Cloud

Lokale KI auf Raspberry Pi: DIY AI-Assistent ohne Cloud

Baue deinen eigenen Raspberry Pi KI-Assistenten mit Ollama & Llama 3.2. Lokale AI ohne Cloud, 100% Datenschutz. Schritt-für-Schritt Anleitung 2026.

Ein eigener KI-Assistent auf dem Raspberry Pi – offline, privat und kostenlos. Die Idee klingt verlockend: Ein persönlicher AI-Assistent, der auf deinem Schreibtisch steht, deine Daten niemals verlässt und dennoch leistungsstarke Sprachmodelle wie Llama 3.2 oder Phi-4 nutzt. Mit dem Raspberry Pi 5 und modernen, quantisierten LLMs ist dieser Traum heute Realität geworden.

Diese Schritt-für-Schritt Anleitung zeigt dir, wie du mit Ollama deinen eigenen lokalen KI-Assistenten baust – ganz ohne Cloud-Abhängigkeit, monatliche Kosten oder Datenschutzbedenken.

Warum lokale KI wichtig wird: Datenschutz & Unabhängigkeit

In Zeiten, in denen Tech-Giganten wie OpenAI milliardenschwere Regierungsverträge abschließen (Stichwort: Stargate Project mit 500 Milliarden Dollar) und Sicherheitsbedenken bei Cloud-KI wachsen, wird Datensouveränität zum entscheidenden Faktor. Der aktuelle HackerNews-Trend zeigt es deutlich: Tausende Nutzer suchen nach Alternativen, um ihre ChatGPT-Abos zu kündigen und wieder die volle Kontrolle über ihre Daten zu haben.

Die Vorteile einer lokalen KI-Lösung auf dem Raspberry Pi:

  • Absolute Privatsphäre: Deine Gespräche und Daten bleiben zu 100% auf deinem Gerät – keine Datenweitergabe an externe Server
  • Keine Abo-Kosten: Einmalige Hardware-Investition ab 80€, keine monatlichen Gebühren wie bei ChatGPT Plus
  • Offline-Betrieb: Keine Internetverbindung nötig – dein KI-Assistent funktioniert auch bei Netzausfall
  • Volle Anpassbarkeit: Wähle zwischen Llama 3.2, Phi-4, Mistral oder Gemma – du entscheidest, welches Modell läuft
  • Smart Home Integration: Verbinde deinen lokalen LLM mit Home Assistant für intelligente Automation

Was du brauchst: Hardware & Software für deinen DIY KI-Assistenten

Für einen performanten lokalen KI-Assistenten empfehlen sich folgende Komponenten:

Hardware-Empfehlungen für Raspberry Pi AI:

KomponenteEmpfehlungPreis ca.
Raspberry Pi 58 GB RAM (Minimum: 4 GB)80-95€
SpeicherExterne SSD 256GB (statt SD-Karte)25-35€
KühlungAktiver Kühlkörper mit Lüfter15-25€
StromversorgungOffizielles 27W USB-C Netzteil15€

Software-Stack für lokale LLMs:

  • Raspberry Pi OS (64-bit): Unbedingt die 64-Bit Version wählen für beste LLM-Performance
  • Ollama: Die führende Open-Source LLM-Runtime für lokale KI
  • Open WebUI: Optionale aber empfohlene Web-Oberfläche für Chat-Interaktion
  • Kompatibles Sprachmodell: Llama 3.2 3B (schnell), Phi-4 Mini (präzise), oder Mistral 7B (leistungsstark)

💡 Pro-Tipp aus der LocalLLaMA Community: Selbst kleinere 3B-Parameter-Modelle liefern auf dem Pi 5 überraschend gute Ergebnisse für Coding-Hilfe, Textzusammenfassungen und alltägliche Fragen.

Schritt 1: Raspberry Pi OS installieren & System vorbereiten

Beginne mit einer frischen Installation des Raspberry Pi OS (64-bit). Das 32-bit-System wird explizit nicht empfohlen, da moderne KI-Frameworks wie Ollama und PyTorch native 64-bit-Unterstützung benötigen.

Installationsschritte:

  1. Lade das Raspberry Pi Imager Tool herunter
  2. Wähle “Raspberry Pi OS (64-bit)” als Betriebssystem
  3. Aktiviere SSH und konfiguriere Wi-Fi vor dem ersten Boot
  4. Verwende nach Möglichkeit eine externe SSD statt MicroSD für bessere Performance
# Nach dem ersten Boot: System aktualisieren
sudo apt update && sudo apt upgrade -y

Schritt 2: Ollama installieren – Die LLM-Runtime für Raspberry Pi

Ollama hat sich als eine der beliebtesten und am weitesten verbreiteten Runtimes für lokale Large Language Models etabliert. Die Installation auf dem Raspberry Pi 5 ist denkbar einfach und dauert nur wenige Minuten.

Ollama lokal auf dem Raspberry Pi – Terminal mit LLM-Chat

Ollama Installation auf Raspberry Pi:

# Ollama installieren (offizielles Install-Script)
curl -fsSL https://ollama.com/install.sh | sh

# Installation überprüfen
ollama --version

# Ollama Service starten (falls nicht automatisch gestartet)
sudo systemctl enable ollama
sudo systemctl start ollama

Wichtige Ollama Befehle für den Einstieg:

BefehlBeschreibung
ollama listZeigt installierte Modelle
ollama pull [modell]Lädt ein Modell herunter
ollama run [modell]Startet interaktiven Chat
ollama rm [modell]Entfernt ein Modell

Schritt 3: Das richtige KI-Modell für Raspberry Pi wählen

Die Modellauswahl ist entscheidend für Performance und Qualität deines lokalen KI-Assistenten. Für den Raspberry Pi 5 mit 8GB RAM eignen sich besonders folgende Open Source LLMs:

Empfohlene Modelle für Raspberry Pi 5:

ModellParameterRAM-BedarfStärkenTokens/Sek
Llama 3.2 3B3 Milliarden~2.5 GBAllrounder, schnell8-12
Phi-4 Mini3.8 Milliarden~3 GBCoding, Logik6-10
Gemma 2 2B2 Milliarden~1.8 GBEffizient, Google10-15
Mistral 7B (Q4)7 Milliarden~5 GBHochwertige Antworten3-5

⚠️ Hinweis: Kleinere Modelle (2B-3B) sind für den Pi 5 optimal. 7B-Modelle laufen, erfordern aber mehr RAM und sind langsamer.

Schritt 4: LLM-Modell herunterladen mit Ollama

Mit Ollama ist das Herunterladen und Verwalten von Sprachmodellen trivial. Das System lädt automatisch die optimierte GGUF-Version für deine Hardware.

Modell-Download und erste Tests:

# Llama 3.2 3B herunterladen (empfohlen für Einsteiger)
ollama pull llama3.2:3b

# Alternative: Phi-4 Mini für bessere Coding-Fähigkeiten
ollama pull phi4-mini

# Oder Gemma 2 2B für maximale Geschwindigkeit
ollama pull gemma2:2b

Der erste Download kann je nach Internetverbindung 10-30 Minuten dauern. Das Modell wird im ~/.ollama/models-Verzeichnis gespeichert.

Schritt 5: Erste Interaktion mit deinem lokalen KI-Assistenten testen

Nach dem Download kannst du sofort mit deinem lokalen LLM interagieren. Die Antwortgeschwindigkeit auf dem Raspberry Pi 5 liegt je nach Modell und Quantisierung bei etwa 5-15 Tokens pro Sekunde — kleinere 3B-Modelle tend am oberen Ende, 7B-Modelle eher am unteren.

Interaktiver Chat starten:

# Llama 3.2 im Terminal starten
ollama run llama3.2:3b

# Du siehst nun den Prompt:
>>> 

# Beispiel-Abfragen zum Testen:
>>> Erkläre mir Quantencomputing einfach
>>> Schreibe ein Python-Skript für einen Taschenrechner
>>> Fasse den Begriff "Edge Computing" zusammen

# Beenden mit Ctrl+D oder /bye

Performance-Erwartungen:

  • Llama 3.2 3B: ~8-12 Tokens/Sekunde, flüssige Konversation
  • Phi-4 Mini: ~6-10 Tokens/Sekunde, präzisere Antworten
  • Mistral 7B: ~3-5 Tokens/Sekunde, höchste Qualität aber langsamer

Schritt 6: Web-Interface mit Open WebUI einrichten

Für eine benutzerfreundliche Chat-Oberfläche ähnlich wie ChatGPT empfehlt sich Open WebUI. Diese Open-Source Web-App bietet eine moderne UI für deinen lokalen Ollama-Server.

Open WebUI Installation auf Raspberry Pi:

# Docker installieren (falls nicht vorhanden)
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER
# Neu einloggen erforderlich!

# Open WebUI mit Docker starten
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Zugriff auf das Web-Interface:

  1. Öffne im Browser: http://[IP-deines-Pi]:3000
  2. Erstelle ein Admin-Konto beim ersten Start
  3. Wähle dein installiertes Ollama-Modell aus der Dropdown-Liste
  4. Starte deinen ersten Chat!

Features von Open WebUI:

  • Chat-Verlauf speichern
  • Mehrere Modelle gleichzeitig nutzbar
  • RAG (Dokumenten-Upload) möglich
  • Mobile-optimierte Oberfläche

Schritt 7: Integration in deinen Workflow & Smart Home

Ein lokaler KI-Assistent auf dem Raspberry Pi kann weit mehr als nur Chat. Nutze ihn für Dokumentenanalyse, als Coding-Assistent oder für Smart-Home-Integration.

Raspberry Pi 5 Hardware-Setup mit SSD und aktivem Kühlkörper

Praktische Anwendungsfälle:

1. Dokumentenanalyse mit RAG

Open WebUI unterstützt das Hochladen von PDFs und Textdateien. Dein lokaler LLM kann dann:

  • Verträge zusammenfassen
  • Lange Dokumente analysieren
  • Spezifische Informationen extrahieren

2. Coding-Assistent ohne Internet

  • Code-Reviews durchführen
  • Funktionen erklären
  • Bugs finden und korrigieren
  • In verschiedenen Sprachen übersetzen

3. Smart Home Integration mit Home Assistant

# configuration.yaml Beispiel für Home Assistant
rest_command:
  local_llm_query:
    url: "http://[PI-IP]:11434/api/generate"
    method: POST
    content_type: "application/json"
    payload: '{"model": "llama3.2:3b", "prompt": "{{ prompt }}", "stream": false}'

Damit kannst du:

  • Automatisierungen mit KI-Logik erweitern
  • Natürliche Sprachbefehle für Geräte
  • Intelligente Benachrichtigungen generieren

Performance-Optimierung für Raspberry Pi KI

Maximiere die Geschwindigkeit deines lokalen LLM mit diesen Performance-Tweaks:

Hardware-Optimierungen:

  1. Aktive Kühlung ist Pflicht

    • Der Pi 5 drosselt bei Überhitzung
    • Aktiver Kühlkörper + Lüfter halten Temperaturen unter 70°C
    • Stabile Performance ohne Thermal Throttling
  2. Externe SSD statt MicroSD

    • 5-10x schnellere Ladezeiten
    • Längere Lebensdauer bei intensiver Nutzung
    • USB 3.0 SSD empfohlen
  3. GGUF-Quantisierung verstehen

    • Q4_K_M: Bestes Verhältnis aus Qualität und Geschwindigkeit
    • Q5_K_M: Höhere Qualität, etwas langsamer
    • Q8_0: Nahezu verlustfrei, aber mehr RAM nötig

Software-Optimierungen:

# GPU-Beschleunigung aktivieren (experimentell)
# In /boot/firmware/config.txt:
# gpu_mem=256

# Ollama für Pi 5 optimieren
export OLLAMA_NUM_PARALLEL=1
export OLLAMA_MAX_LOADED_MODELS=1

Erwartbare Performance:

SetupTokens/SekEmpfehlung
Pi 5 + SD + Passiv4-6Nur für Tests
Pi 5 + SSD + Aktiv8-12✅ Produktiv
Pi 5 + SSD + Overclock10-15Für Enthusiasten

Fazit: Dein eigener KI-Assistent ist Realität

Die Kombination aus Raspberry Pi 5 und modernen, optimierten Sprachmodellen macht lokale KI für jeden zugänglich. Für unter 150€ Hardware-Kosten erhältst du einen vollständig privaten KI-Assistenten ohne Abo-Gebühren, Datenschutzbedenken oder Cloud-Abhängigkeit.

Was du erreicht hast:

100% Datenschutz – Deine Daten verlassen niemals dein Zuhause
Keine monatlichen Kosten – Einmalige Investition, lebenslange Nutzung
Offline-fähig – Funktioniert auch ohne Internetverbindung
Flexibel erweiterbar – Neue Modelle einfach via Ollama testen
Smart Home ready – Integration mit Home Assistant möglich

Nächste Schritte:

  1. Experimentiere mit verschiedenen Modellen (Llama 3.2, Phi-4, Mistral)
  2. Richte RAG für Dokumentenanalyse ein
  3. Integriere den Assistenten in deinen Smart Home Workflow
  4. Teile deine Erfahrungen in der r/LocalLLaMA Community

Willkommen in der Welt der lokalen KI! 🚀


Hast du Fragen oder Feedback? Die Open-Source-Community rund um Ollama und LocalLLaMA ist aktiv und hilfsbereit bei Problemen.

Erstellt mit Hugo
Theme Stack von Jimmy