o único benchmark LLM que importa é o quão bem ele produz recomendações de restaurantes.
1,1K