Um agente de voz alimentado por gpt-oss. Executando localmente no meu macBook. Demo gravada em um Waymo com WiFi desligado. Ainda estou no meu chute de IA de voz do jogo espacial, obviamente. Link do código abaixo. Para IA de voz conversacional, você deseja definir o comportamento de raciocínio gpt-oss como "baixo". (O padrão é "médio".) Notas sobre como fazer isso e um modelo jinja que você pode usar estão no repositório. O LLM no vídeo de demonstração é a versão grande de 120B do gpt-oss. Você pode usar o modelo menor, 20B para isso, é claro. Mas a OpenAI realmente fez uma coisa legal aqui, projetando o modelo 120B para rodar em "apenas" 80 GB de VRAM. E a inferência llama.cpp mlx é rápida: ~ 250ms TTFT. Executar um grande modelo no dispositivo parece um túnel do tempo para o futuro da IA.
197,55K