Performance optimization for compute-bound cases

2025-06-26 18:15:54 +00:00 · 2025-04-21 17:22:59 +08:00
parent 063ffa8ec1
commit 287061ec34
20 changed files with 1799 additions and 1217 deletions
--- a/flash_mla/flash_mla_interface.py
+++ b/flash_mla/flash_mla_interface.py
@@ -55,7 +55,6 @@ def flash_mla_with_kvcache(
    out, softmax_lse = flash_mla_cuda.fwd_kvcache_mla(
        q,
        k_cache,
-        None,
        head_dim_v,
        cache_seqlens,
        block_table,