Agent głosowy zasilany przez gpt-oss. Działa lokalnie na moim MacBooku. Demo nagrane w Waymo z wyłączonym WiFi. Wciąż jestem na fali AI głosowego w mojej grze kosmicznej, oczywiście. Link do kodu poniżej. Dla konwersacyjnego AI głosowego, chcesz ustawić zachowanie rozumowania gpt-oss na "niski". (Domyślnie jest "średni".) Notatki na temat tego, jak to zrobić, oraz szablon jinja, którego możesz użyć, znajdują się w repozytorium. LLM w filmie demo to duża wersja gpt-oss, 120B. Możesz użyć mniejszego modelu 20B do tego, oczywiście. Ale OpenAI naprawdę zrobiło coś fajnego, projektując model 120B, który działa w "tylko" 80GB VRAM. A wnioskowanie w llama.cpp mlx jest szybkie: ~250ms TTFT. Uruchamianie dużego modelu na urządzeniu wydaje się jak podróż w czasie w przyszłość AI.
197,54K