Het beste en snelste spraak-naar-tekstmodel ter wereld is net nog beter geworden! @AssemblyAI heeft zojuist een enorme update uitgebracht, en ik ben absoluut verliefd op een van de nieuwe functies. 1. Ten eerste kunnen ze nu automatisch de persoon die spreekt in een audio identificeren op naam of rol. 2. Je kunt ook een transcript in elke taal aanvragen (tot nu toe worden 99 talen ondersteund), zodat je je geen zorgen hoeft te maken over extra stappen voor vertaling. Maar mijn favoriete functie, tot nu toe, is de LLM Gateway, waarmee je je hele stemstack kunt consolideren in één platform. De gateway is een API die je kunt gebruiken voor een breed scala aan audio-gerelateerde taken. Je zou het bijvoorbeeld kunnen gebruiken om een gesprek samen te vatten, inzichten te extraheren of de sentiment van de spreker te classificeren. Geen behoefte meer aan een multi-step pipeline. Je kunt een enkele oproep doen, en het platform zal het verzoek naar het juiste model routeren, inclusief OpenAI, Gemini en anderen. Dit is enorm voor iedereen die spraak gebruikt in productie-applicaties! Dit alles draait op hun al waanzinnig snelle en nauwkeurige spraak-naar-tekstplatform, met diarization en meertalige training ingebakken. Als je met spraak bouwt, is dit een game-changer. Ik ben al jaren een gebruiker van Assembly AI. Hun modellen en API's zijn geweldig, en ik ben blij dat ze hebben besloten om met mij samen te werken aan deze post. Je kunt hun model uitproberen op hun playground door hier te klikken: