luând o lib DeepSeek pe rând, făcându-le cu 20%-30% mai rapide, optimizându-le pentru B200 și CuTeDSL