DeepPHY Benchmarking av agentiske VLM-er på fysisk resonnement
Diskuter med forfatteren:
10,02K