Bir DeepSeek lib'i tek tek alarak %20-%30 daha hızlı hale getirdim, B200'ler ve CuTeDSL için optimize ettim