беря одну библиотеку DeepSeek за раз, делая их на 20%-30% быстрее, оптимизируя их для B200 и CuTeDSL