Un agente de voz impulsado por gpt-oss. Ejecutándose localmente en mi MacBook. Demo grabada en un Waymo con el WiFi apagado. Todavía estoy en mi fase de IA de voz para juegos espaciales, obviamente. Enlace al código a continuación. Para la IA de voz conversacional, quieres establecer el comportamiento de razonamiento de gpt-oss en "bajo". (El valor predeterminado es "medio".) Notas sobre cómo hacer eso y una plantilla jinja que puedes usar están en el repositorio. El LLM en el video de demostración es la versión grande, de 120B de gpt-oss. Puedes usar el modelo más pequeño, de 20B para esto, por supuesto. Pero OpenAI realmente hizo algo genial aquí al diseñar el modelo de 120B para funcionar en "solo" 80GB de VRAM. Y la inferencia de llama.cpp mlx es rápida: ~250ms TTFT. Ejecutar un modelo grande en el dispositivo se siente como un viaje en el tiempo hacia el futuro de la IA.
197,55K