過去数週間で、コーデックス、クロードコード、カーソル、アンプ、デビンなどのコーディングエージェントのIRLタスクベースの評価の最大のセットを蓄積したと確信しています@askModuAI パブリックにアクセス可能なベンチマークを行う方法を見つける必要がある
388