Na początku tego lata OpenAI i Anthropic zgodziły się przetestować niektóre z naszych najlepszych istniejących testów na niedopasowanie na modelach drugiej strony. Po omówieniu naszych wyników prywatnie, teraz dzielimy się nimi ze światem. 🧵
69,28K