Model Routing Strategy¶
Stand: 2026-05-30
Produktive Defaults¶
| Zweck | Modell | Status |
|---|---|---|
| Standard Operator / OpenCode | lanstyle/agent-stable |
produktiv |
| Schnellantworten | lanstyle/fast |
produktiv |
| Planung / Architektur | lanstyle/architect |
produktiv |
| Embeddings | lanstyle/embed |
produktiv |
| A3B Reasoning | lanstyle/agent |
experimentell |
| A3B No-Think | entfernt | admin/evaluation-only |
Qwen Coder Next Tokenlimit¶
lanstyle/agent-stable und lanstyle/fast nutzen qwen3-coder-next:latest. Die LiteLLM-Konfiguration erlaubt große Output-Budgets, aber OpenCode-Sessions können trotzdem durch lange Toolantworten und große Kontextblöcke in finish_reason=length laufen.
Sichere Maßnahmen:
- Toolantworten kompakt halten.
- Operator Summaries priorisieren.
- Rohdaten nur in Debug/Advanced ausgeben.
- Für lange Planung
lanstyle/architectnutzen. - Keine experimentellen Modelle als Default setzen.
OpenWebUI Sichtbarkeit¶
Normale Benutzer sollten nur Lanstyle-Aliase sehen. Raw Provider-Modelle und experimentelle Aliase gehören in Admin-/Evaluation-Kontext.
Wenn OpenWebUI raw Modelle zeigt, ist die wahrscheinlichste Ursache ein zu breiter LiteLLM Virtual Key oder eine direkte Provider-Verbindung statt Lanstyle-Modellfilter.