Device Onboarding für Voice-Terminals¶
Stand: 2026-05-29
Ziel¶
Ein kleines Gerät soll als lokales Voice-Terminal dienen und mit Hermes im VLAN70 sprechen. Das Gerät besitzt Mikrofon und Lautsprecher; Hermes bleibt Backend und Governance-Schicht.
Empfohlene Hardware¶
Bevorzugt: Intel N100 Mini-PC¶
- gute Leistung für Browser/Kiosk und lokale Audioverarbeitung
- stabile USB-Audio-Unterstützung
- Ethernet/WLAN je nach Modell
- einfache Wartung mit Debian/Ubuntu
- genug Reserven für Wakeword oder lokalen Python-Client
Minimal: Raspberry Pi 5¶
- günstig und stromsparend
- ausreichend für Browser/Kiosk oder schlanken Python-Client
- USB-Mikrofon oder HAT nötig
- Audioqualität hängt stark vom Zubehör ab
Luxusvariante: kleiner Business Thin Client¶
- robuste Hardware
- meist gute Kühlung, SSD, Ethernet
- gut für dauerhaftes Kiosk-Setup
Zubehör¶
- USB-Mikrofon oder Konferenzspeaker
- Lautsprecher oder USB-Konferenzgerät
- Ethernet bevorzugt
- optional Touchdisplay
- eigenes Device-Token pro Gerät
Provisioning-Grundsätze¶
- keine Secrets im Image
- Token pro Benutzer/Gerät
- Token aus Vaultwarden oder One-Time-Provisioning
- Device-ID setzen
- Updates automatisieren
- Rollback über Image/Snapshot
Minimaler Pilotablauf¶
- Gerät mit Debian/Ubuntu installieren.
- Browser oder Python-Client installieren.
- Device bei Hermes registrieren.
- Token sicher provisionieren.
/voice/healthprüfen./voice/sessionund/voice/messagetesten.- Erst danach Audio/STT/TTS aktivieren.
macOS Testclient¶
Für Maximilian existiert ein lokaler Browser-Testclient:
clients/hermes-voice-macos/
Funktionen:
- Push-to-talk
- Live-Transcript
- Antwortanzeige
- Browser-TTS
- Health Status
- lokale Proxy-Schicht, damit das Hermes-Token nicht im UI steht
Konfiguration:
~/.config/hermes-voice/secrets.env
Diese Datei muss 0600 sein und Werte aus Vaultwarden enthalten.
Provisioning für Geräte¶
Jedes Gerät bekommt:
- eigene
device_id - eigenen Token/Fingerprint
- Owner/User-Zuordnung
- Rolle, zunächst
operator - Ablaufdatum
- Revocation-Pfad
Keine Device-Images mit eingebauten Secrets verwenden.
Kosten- und Latenzvergleich¶
| Option | Einmalige Kosten | Laufende Kosten | Erwartete Latenz | Bemerkung |
|---|---|---|---|---|
| Browser-STT + Browser-TTS | 0 EUR auf vorhandenem Gerät | 0 EUR | sehr niedrig | bester Pilot |
| N100 + Browser/Kiosk | ca. 150-300 EUR plus Audio | 0 EUR | niedrig | bevorzugt produktiv |
| Raspberry Pi 5 | ca. 90-180 EUR plus Audio | 0 EUR | niedrig bis mittel | gut, Audiozubehör wichtig |
| ElevenLabs TTS | 0 EUR Hardware | nutzungsbasiert | niedrig bis mittel | natürlichere Stimme, Secret/Datenschutz beachten |
| Lokales Whisper/Piper | Hardware nötig | 0 EUR | niedrig bis mittel | datenschutzfreundlich |
Sicherheit¶
Das Gerät darf keine Infrastrukturaktionen direkt ausführen. Alle Aktionen laufen über Hermes, MCP und Controlled Execution.