Un agente de voz impulsado por gpt-oss. Ejecutándose localmente en mi macBook. Demo grabada en un Waymo con WiFi apagado. Todavía estoy en mi patada de IA de voz de juego espacial, obviamente. Enlace de código a continuación. Para la IA de voz conversacional, desea establecer el comportamiento de razonamiento gpt-oss en "bajo". (El valor predeterminado es "medio"). Las notas sobre cómo hacerlo y una plantilla jinja que puede usar están en el repositorio. El LLM en el video de demostración es la versión grande de 120B de gpt-oss. Puede usar el modelo más pequeño, 20B, para esto, por supuesto. Pero OpenAI realmente hizo algo genial aquí al diseñar el modelo 120B para que se ejecute en "solo" 80 GB de VRAM. Y la inferencia llama.cpp mlx es rápida: ~250ms TTFT. Ejecutar un gran modelo en el dispositivo se siente como un túnel del tiempo hacia el futuro de la IA.
197.54K