Device Onboarding für Voice-Terminals¶

Stand: 2026-05-29

Ziel¶

Ein kleines Gerät soll als lokales Voice-Terminal dienen und mit Hermes im VLAN70 sprechen. Das Gerät besitzt Mikrofon und Lautsprecher; Hermes bleibt Backend und Governance-Schicht.

Empfohlene Hardware¶

Bevorzugt: Intel N100 Mini-PC¶

gute Leistung für Browser/Kiosk und lokale Audioverarbeitung
stabile USB-Audio-Unterstützung
Ethernet/WLAN je nach Modell
einfache Wartung mit Debian/Ubuntu
genug Reserven für Wakeword oder lokalen Python-Client

Minimal: Raspberry Pi 5¶

günstig und stromsparend
ausreichend für Browser/Kiosk oder schlanken Python-Client
USB-Mikrofon oder HAT nötig
Audioqualität hängt stark vom Zubehör ab

Luxusvariante: kleiner Business Thin Client¶

robuste Hardware
meist gute Kühlung, SSD, Ethernet
gut für dauerhaftes Kiosk-Setup

Zubehör¶

USB-Mikrofon oder Konferenzspeaker
Lautsprecher oder USB-Konferenzgerät
Ethernet bevorzugt
optional Touchdisplay
eigenes Device-Token pro Gerät

Provisioning-Grundsätze¶

keine Secrets im Image
Token pro Benutzer/Gerät
Token aus Vaultwarden oder One-Time-Provisioning
Device-ID setzen
Updates automatisieren
Rollback über Image/Snapshot

Minimaler Pilotablauf¶

Gerät mit Debian/Ubuntu installieren.
Browser oder Python-Client installieren.
Device bei Hermes registrieren.
Token sicher provisionieren.
/voice/health prüfen.
/voice/session und /voice/message testen.
Erst danach Audio/STT/TTS aktivieren.

macOS Testclient¶

Für Maximilian existiert ein lokaler Browser-Testclient:

clients/hermes-voice-macos/

Funktionen:

Push-to-talk
Live-Transcript
Antwortanzeige
Browser-TTS
Health Status
lokale Proxy-Schicht, damit das Hermes-Token nicht im UI steht

Konfiguration:

~/.config/hermes-voice/secrets.env

Diese Datei muss 0600 sein und Werte aus Vaultwarden enthalten.

Provisioning für Geräte¶

Jedes Gerät bekommt:

eigene device_id
eigenen Token/Fingerprint
Owner/User-Zuordnung
Rolle, zunächst operator
Ablaufdatum
Revocation-Pfad

Keine Device-Images mit eingebauten Secrets verwenden.

Kosten- und Latenzvergleich¶

Option	Einmalige Kosten	Laufende Kosten	Erwartete Latenz	Bemerkung
Browser-STT + Browser-TTS	0 EUR auf vorhandenem Gerät	0 EUR	sehr niedrig	bester Pilot
N100 + Browser/Kiosk	ca. 150-300 EUR plus Audio	0 EUR	niedrig	bevorzugt produktiv
Raspberry Pi 5	ca. 90-180 EUR plus Audio	0 EUR	niedrig bis mittel	gut, Audiozubehör wichtig
ElevenLabs TTS	0 EUR Hardware	nutzungsbasiert	niedrig bis mittel	natürlichere Stimme, Secret/Datenschutz beachten
Lokales Whisper/Piper	Hardware nötig	0 EUR	niedrig bis mittel	datenschutzfreundlich

Sicherheit¶

Das Gerät darf keine Infrastrukturaktionen direkt ausführen. Alle Aktionen laufen über Hermes, MCP und Controlled Execution.