Мы выпускаем BrowseComp, что расшифровывается как Browsing Competition (Конкурс просмотров). 🏎️ Думайте об этом как о соревнованиях по программированию или математике — хотя эти соревнования могут не идеально отражать реальные SWE или математические исследования, они действительно захватывают искру интеллекта. Это тот критерий, на который мы должны обратить внимание при оценке интеллекта агентов для просмотра веб-страниц, подобных глубоким исследованиям.
OpenAI
OpenAI11 апр. 2025 г.
Мы открываем исходный код BrowseComp ("Соревнование по просмотру"), нового сложного бенчмарка, предназначенного для проверки того, насколько хорошо ИИ-агенты могут просматривать интернет для поиска труднонаходимой информации. Это похоже на онлайн-охоту за сокровищами... но для агентов просмотра.
465,01K