¿Quién decide si un modelo de IA es realmente bueno?
@gensynai acaba de lanzar Judge, el primer sistema de evaluación de IA en el que puede desafiar los resultados generados por IA en público 🔥
Hilo 🧵 👇
Judge es más que una evaluación, es una primitiva para resolver desacuerdos del mundo real.
El futuro de la confianza son los veredictos de IA transparentes y verificables.
Juez demuestra resolución en vivo de disputas del mundo real utilizando modelos de IA previamente comprometidos
lo estamos demostrando hoy con un mercado de predicción sobre un juego de revelación progresivo en la red de prueba de Gensyn
en el futuro, la humanidad dependerá de la IA para resolver disputas, contratos, mercados, etc