ta én DeepSeek-bibliotek om gangen, gjøre dem 20%-30% raskere, optimalisere dem for B200 og CuTeDSL