Mixture of Experts (MoE): Ein MoE-Modell besteht aus vielen spezialisierten Teilnetzen („Experten”). Eine Steuerkomponente entscheidet, welche Experten für eine gegebene Anfrage aktiviert werden. Beispiel: Das Modell KIMI 2.6 verfügt insgesamt über 1 Billion Parameter, nutzt aber pro Anfrage nur etwa 32 Milliarden davon aktiv und ist damit trotz seiner Größe effizient.
