觀看Echo訓練的30B Sokoban模型超越許多規模更大的模型,包括DeepSeek-R1和GPT-OSS-120B。 Echo不依賴於更大的數據中心或更昂貴的GPU集群,而是利用隨處可見的消費硬體來擴展強化學習。
45.1K