Ein Sprachagent, der von gpt-oss betrieben wird. Läuft lokal auf meinem MacBook. Demo aufgenommen in einem Waymo mit ausgeschaltetem WLAN. Ich bin offensichtlich immer noch in meiner Phase mit der Sprach-KI für Weltraumspiele. Der Code-Link ist unten. Für konversationelle Sprach-KI sollten Sie das Denkverhalten von gpt-oss auf "niedrig" setzen. (Der Standardwert ist "mittel"). Hinweise, wie Sie das tun können, sowie eine Jinja-Vorlage, die Sie verwenden können, finden Sie im Repository. Das LLM im Demovideo ist die große 120B-Version von gpt-oss. Sie können natürlich auch das kleinere 20B-Modell dafür verwenden. Aber OpenAI hat hier wirklich etwas Cooles gemacht, indem sie das 120B-Modell so entworfen haben, dass es in "nur" 80 GB VRAM läuft. Und die Inferenz von llama.cpp mlx ist schnell: ~250 ms TTFT. Ein großes Modell auf dem Gerät auszuführen, fühlt sich an wie eine Zeitreise in die Zukunft der KI.
197,54K