Ver cómo el gran enrutador de GPT-5 sigue fallando me convence de que "los LLM como jueces" y los datos sintéticos para entrenar mejores LLM de SOTA son solo un deseo.
1,31K