Gemma 3 270m 4-bit 在 M4 Max 上使用 mlx-lm 以超过 650 (!) tok/sec 的速度生成文本,并且使用的内存少于 200MB: 未加速:
33.23K