Cel mai bun și mai rapid model de vorbire în text din lume tocmai a devenit și mai bun! @AssemblyAI lansat o actualizare uriașă și sunt absolut îndrăgostită de una dintre noile caracteristici. 1. În primul rând, acum pot identifica automat persoana care vorbește într-un audio după nume sau rol. 2. De asemenea, puteți solicita o transcriere în orice limbă (99 de limbi acceptate până acum), astfel încât să nu vă faceți griji cu privire la efectuarea unor pași suplimentari pentru traducere. Dar caracteristica mea preferată, de departe, este LLM Gateway, care vă permite să vă consolidați întreaga stivă vocală într-o singură platformă. Gateway-ul este un API pe care îl puteți utiliza pentru o gamă largă de sarcini legate de audio. De exemplu, îl puteți folosi pentru a rezuma un apel, pentru a extrage informații sau pentru a clasifica sentimentul vorbitorului. Nu mai este nevoie de o conductă în mai mulți pași. Puteți efectua un singur apel, iar platforma va direcționa cererea către modelul corespunzător, inclusiv OpenAI, Gemini și altele. Acest lucru este uriaș pentru oricine folosește vocea în aplicațiile de producție! Toate acestea rulează pe platforma lor de vorbire în text deja incredibil de rapidă și precisă, cu diarizare și instruire multilingvă. Dacă construiești cu voce, aceasta este o schimbare de joc. Sunt utilizator de Assembly AI de ani de zile. Modelele și API-urile lor sunt uimitoare și mă bucur că au decis să colaboreze cu mine la această postare. Puteți încerca modelul lor pe terenul lor de joacă făcând clic aici: