Gemma 3 270m 4-bit 在 M4 Max 上使用 mlx-lm 以超過 650 (!) tok/sec 的速度生成文本,並且使用的記憶體少於 200MB: 未加速:
33.23K