Een spraakagent aangedreven door gpt-oss. Lokaal draaiend op mijn MacBook. Demo opgenomen in een Waymo met WiFi uitgeschakeld. Ik ben nog steeds bezig met mijn spraak AI in het ruimtegame-thema, dat is duidelijk. Code link hieronder. Voor conversatie spraak AI wil je het redeneergedrag van gpt-oss instellen op "laag". (De standaard is "medium".) Aantekeningen over hoe je dat doet en een jinja-sjabloon dat je kunt gebruiken, staan in de repo. Het LLM in de demo-video is de grote, 120B versie van gpt-oss. Je kunt natuurlijk ook het kleinere, 20B model hiervoor gebruiken. Maar OpenAI heeft hier echt iets cools gedaan door het 120B model te ontwerpen dat draait op "slechts" 80GB VRAM. En de llama.cpp mlx inferentie is snel: ~250ms TTFT. Een groot model op het apparaat draaien voelt als een tijdreis naar de toekomst van AI.
197,55K