Um agente de voz alimentado por gpt-oss. Executando localmente no meu macBook. Demonstração gravada em um Waymo com o WiFi desligado. Ainda estou na minha fase de IA de voz para jogos espaciais, obviamente. Link do código abaixo. Para IA de voz conversacional, você quer definir o comportamento de raciocínio do gpt-oss como "baixo". (O padrão é "médio".) Notas sobre como fazer isso e um template jinja que você pode usar estão no repositório. O LLM no vídeo da demonstração é a grande versão de 120B do gpt-oss. Você pode usar o modelo menor de 20B para isso, é claro. Mas a OpenAI realmente fez algo legal aqui ao projetar o modelo de 120B para rodar em "apenas" 80GB de VRAM. E a inferência do llama.cpp mlx é rápida: ~250ms TTFT. Executar um grande modelo no dispositivo parece uma viagem no tempo para o futuro da IA.
197,54K