pegando uma biblioteca DeepSeek de cada vez, tornando-as 20%-30% mais rápidas, otimizando-as para B200s e CuTeDSL