Zum Inhalt

Device Onboarding für Voice-Terminals

Stand: 2026-05-29

Ziel

Ein kleines Gerät soll als lokales Voice-Terminal dienen und mit Hermes im VLAN70 sprechen. Das Gerät besitzt Mikrofon und Lautsprecher; Hermes bleibt Backend und Governance-Schicht.

Empfohlene Hardware

Bevorzugt: Intel N100 Mini-PC

  • gute Leistung für Browser/Kiosk und lokale Audioverarbeitung
  • stabile USB-Audio-Unterstützung
  • Ethernet/WLAN je nach Modell
  • einfache Wartung mit Debian/Ubuntu
  • genug Reserven für Wakeword oder lokalen Python-Client

Minimal: Raspberry Pi 5

  • günstig und stromsparend
  • ausreichend für Browser/Kiosk oder schlanken Python-Client
  • USB-Mikrofon oder HAT nötig
  • Audioqualität hängt stark vom Zubehör ab

Luxusvariante: kleiner Business Thin Client

  • robuste Hardware
  • meist gute Kühlung, SSD, Ethernet
  • gut für dauerhaftes Kiosk-Setup

Zubehör

  • USB-Mikrofon oder Konferenzspeaker
  • Lautsprecher oder USB-Konferenzgerät
  • Ethernet bevorzugt
  • optional Touchdisplay
  • eigenes Device-Token pro Gerät

Provisioning-Grundsätze

  • keine Secrets im Image
  • Token pro Benutzer/Gerät
  • Token aus Vaultwarden oder One-Time-Provisioning
  • Device-ID setzen
  • Updates automatisieren
  • Rollback über Image/Snapshot

Minimaler Pilotablauf

  1. Gerät mit Debian/Ubuntu installieren.
  2. Browser oder Python-Client installieren.
  3. Device bei Hermes registrieren.
  4. Token sicher provisionieren.
  5. /voice/health prüfen.
  6. /voice/session und /voice/message testen.
  7. Erst danach Audio/STT/TTS aktivieren.

macOS Testclient

Für Maximilian existiert ein lokaler Browser-Testclient:

clients/hermes-voice-macos/

Funktionen:

  • Push-to-talk
  • Live-Transcript
  • Antwortanzeige
  • Browser-TTS
  • Health Status
  • lokale Proxy-Schicht, damit das Hermes-Token nicht im UI steht

Konfiguration:

~/.config/hermes-voice/secrets.env

Diese Datei muss 0600 sein und Werte aus Vaultwarden enthalten.

Provisioning für Geräte

Jedes Gerät bekommt:

  • eigene device_id
  • eigenen Token/Fingerprint
  • Owner/User-Zuordnung
  • Rolle, zunächst operator
  • Ablaufdatum
  • Revocation-Pfad

Keine Device-Images mit eingebauten Secrets verwenden.

Kosten- und Latenzvergleich

Option Einmalige Kosten Laufende Kosten Erwartete Latenz Bemerkung
Browser-STT + Browser-TTS 0 EUR auf vorhandenem Gerät 0 EUR sehr niedrig bester Pilot
N100 + Browser/Kiosk ca. 150-300 EUR plus Audio 0 EUR niedrig bevorzugt produktiv
Raspberry Pi 5 ca. 90-180 EUR plus Audio 0 EUR niedrig bis mittel gut, Audiozubehör wichtig
ElevenLabs TTS 0 EUR Hardware nutzungsbasiert niedrig bis mittel natürlichere Stimme, Secret/Datenschutz beachten
Lokales Whisper/Piper Hardware nötig 0 EUR niedrig bis mittel datenschutzfreundlich

Sicherheit

Das Gerät darf keine Infrastrukturaktionen direkt ausführen. Alle Aktionen laufen über Hermes, MCP und Controlled Execution.