Update ck (pytorch#782)

alugorey · facebook-github-bot · commit 2650c3964f57 · 2025-02-18T08:52:32.000-08:00
Summary: X-link: pytorch#3701 Pull Request resolved: facebookresearch/FBGEMM#782 Updates the CK version and re-implements kernel generation cc albanD X-link: pytorch/pytorch#144799 Reviewed By: jianyuh Differential Revision: D68613917 Pulled By: xw285cornell fbshipit-source-id: 0be7a88ef9e0245714b671d1c5cb23fc35ed4b7e
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/fused_moe.hpp b/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/fused_moe.hpp
@@ -15,6 +15,7 @@ struct fused_moe_args {
   const void* d_scale_ptr; // [e, 1, k], down scale
   const void*
       y_smooth_scale_ptr; // [e, 1, n], smooth-quant-scale for 2nd gemm input
+  const void* local_expert_mask_ptr; // [e], local_expert_mask_ptr for EP
   void* o_ptr; // [m, k], output token (no need to do zeroing)
 
   const void* topk_ids_ptr; // [tokens, topk]
@@ -50,6 +51,8 @@ struct fused_moe_traits {
   int activation; // 0:gelu, 1:silu
   int gate_only; // 0:g1u0, 1:g1u1
   int fused_quant; // 0:no-sweep, 1:smooth-dynamic-quant, 2:dynamic-quant
+
+  bool local_expert_masking; // if mask experts as local expert
 };
 
 float fused_moe(
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/fused_moe_kernel.hip b/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/fused_moe_kernel.hip
@@ -100,6 +100,7 @@ at::Tensor fused_moe_impl(
       gate_up_scales.has_value() ? gate_up_scales->data_ptr() : nullptr,
       down_scales.has_value() ? down_scales->data_ptr() : nullptr,
       smooth_scales.has_value() ? smooth_scales->data_ptr() : nullptr,
+      nullptr,
       output.data_ptr(),
       topk_ids.data_ptr(),
       topk_weights.data_ptr(),
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/fused_moesorting.hpp b/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/fused_moesorting.hpp
@@ -10,6 +10,7 @@
 struct fused_moesorting_trait {
   std::string index_type;
   std::string weight_type; // currently always float
+  bool local_expert_masking; // if mask experts as local expert
 };
 
 struct fused_moesorting_args : public ck_tile::MoeSortingHostArgs {};
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/instances/fused_moe_api.hip b/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/instances/fused_moe_api.hip
@@ -3,86 +3,80 @@
 
 #include "fused_moe.hpp"
 
-float fused_moe(
-    fused_moe_traits t,
-    fused_moe_args a,
-    const ck_tile::stream_config& s) {
-  auto s_sub = ck_tile::stream_config{s.stream_id_, false, s.log_level_, 0, 1};
+float fused_moe(fused_moe_traits t, fused_moe_args a, const ck_tile::stream_config& s)
+{
+    auto s_sub = ck_tile::stream_config{s.stream_id_, false, s.log_level_, 0, 1};
 
-  auto o_data_bytes = [&]() {
-    if (t.prec_o == "fp32")
-      return 4;
-    else if (t.prec_o == "fp16" || t.prec_o == "bf16")
-      return 2;
-    else if (t.prec_o == "int8" || t.prec_o == "fp8")
-      return 1;
-    return 1;
-  }();
+    auto o_data_bytes = [&]() {
+        if(t.prec_o == "fp32")
+            return 4;
+        else if(t.prec_o == "fp16" || t.prec_o == "bf16")
+            return 2;
+        else if(t.prec_o == "int8" || t.prec_o == "fp8")
+            return 1;
+        return 1;
+    }();
 
-  auto t0 = fused_moesorting_trait{"int32", "fp32"};
-  auto a0 = fused_moesorting_args{
-      a.topk_ids_ptr, // const void* p_topk_ids;
-      a.topk_weight_ptr, // const void* p_weights;
-      a.sorted_token_ids_ptr, // void* p_sorted_token_ids;
-      a.sorted_weight_ptr, // void* p_sorted_weights;
-      a.sorted_expert_ids_ptr, // void* p_sorted_expert_ids;
-      a.num_sorted_tiles_ptr, // void* p_total_tokens_post_pad;
-      a.o_ptr, // void* p_moe_buf;
-      a.num_tokens, // index_t tokens;
-      a.block_m, // index_t unit_size;
-      a.num_experts, // index_t num_experts;
-      a.topk, // index_t topk;
-      a.num_tokens * a.stride_token * o_data_bytes // index_t moe_buf_bytes;
-  };
+    auto t0 = fused_moesorting_trait{"int32", "fp32", t.local_expert_masking};
+    auto a0 = fused_moesorting_args{
+        a.topk_ids_ptr,                              // const void* p_topk_ids;
+        a.topk_weight_ptr,                           // const void* p_weights;
+        a.local_expert_mask_ptr,                     // const void* p_local_expert_mask;
+        a.sorted_token_ids_ptr,                      // void* p_sorted_token_ids;
+        a.sorted_weight_ptr,                         // void* p_sorted_weights;
+        a.sorted_expert_ids_ptr,                     // void* p_sorted_expert_ids;
+        a.num_sorted_tiles_ptr,                      // void* p_total_tokens_post_pad;
+        a.o_ptr,                                     // void* p_moe_buf;
+        a.num_tokens,                                // index_t tokens;
+        a.block_m,                                   // index_t unit_size;
+        a.num_experts,                               // index_t num_experts;
+        a.topk,                                      // index_t topk;
+        a.num_tokens * a.stride_token * o_data_bytes // index_t moe_buf_bytes;
+    };
 
-  auto t1 = fused_moegemm_traits{
-      t.prec_i,
-      t.prec_w,
-      t.prec_o,
-      t.prec_st,
-      t.prec_sw,
-      t.prec_sq,
-      t.prec_kw,
-      t.block_m,
-      t.activation,
-      t.gate_only,
-      t.fused_quant};
-  auto a1 = fused_moegemm_args{
-      a.a_ptr, // const void* a_ptr;
-      a.a_scale_ptr, // const void* a_scale_ptr;
-      a.g_ptr, // const void* g_ptr;
-      a.d_ptr, // const void* d_ptr;
-      a.g_scale_ptr, // const void* g_scale_ptr;
-      a.d_scale_ptr, // const void* d_scale_ptr;
-      a.y_smooth_scale_ptr, // const void* y_smooth_scale_ptr;
-      a.o_ptr, // void* o_ptr;
-      a.sorted_token_ids_ptr, // const void* sorted_token_ids_ptr;
-      a.sorted_weight_ptr, // const void* sorted_weight_ptr;
-      a.sorted_expert_ids_ptr, // const void* sorted_expert_ids_ptr;
-      a.num_sorted_tiles_ptr, // const void* num_sorted_tiles_ptr;
-      a.hidden_size, // index_t hidden_size;
-      a.intermediate_size, // index_t intermediate_size;
-      a.num_tokens, // index_t num_tokens;
-      a.num_experts, // index_t num_experts;
-      a.topk, // index_t topk;
-      a.stride_token // index_t stride_token;
-  };
+    auto t1 = fused_moegemm_traits{t.prec_i,
+                                   t.prec_w,
+                                   t.prec_o,
+                                   t.prec_st,
+                                   t.prec_sw,
+                                   t.prec_sq,
+                                   t.prec_kw,
+                                   t.block_m,
+                                   t.activation,
+                                   t.gate_only,
+                                   t.fused_quant};
+    auto a1 = fused_moegemm_args{
+        a.a_ptr,                 // const void* a_ptr;
+        a.a_scale_ptr,           // const void* a_scale_ptr;
+        a.g_ptr,                 // const void* g_ptr;
+        a.d_ptr,                 // const void* d_ptr;
+        a.g_scale_ptr,           // const void* g_scale_ptr;
+        a.d_scale_ptr,           // const void* d_scale_ptr;
+        a.y_smooth_scale_ptr,    // const void* y_smooth_scale_ptr;
+        a.o_ptr,                 // void* o_ptr;
+        a.sorted_token_ids_ptr,  // const void* sorted_token_ids_ptr;
+        a.sorted_weight_ptr,     // const void* sorted_weight_ptr;
+        a.sorted_expert_ids_ptr, // const void* sorted_expert_ids_ptr;
+        a.num_sorted_tiles_ptr,  // const void* num_sorted_tiles_ptr;
+        a.hidden_size,           // index_t hidden_size;
+        a.intermediate_size,     // index_t intermediate_size;
+        a.num_tokens,            // index_t num_tokens;
+        a.num_experts,           // index_t num_experts;
+        a.topk,                  // index_t topk;
+        a.stride_token           // index_t stride_token;
+    };
 
-  float r0 = -1;
-  float r1 = -1;
+    float r0 = -1;
+    float r1 = -1;
 
-  float r = ck_tile::launch_kernel(
-      s,
-      [=, &r0](const ck_tile::stream_config&) {
-        r0 = fused_moesorting(t0, a0, s_sub);
-      },
-      [=, &r1](const ck_tile::stream_config&) {
-        r1 = fused_moegemm(t1, a1, s_sub);
-      });
+    float r = ck_tile::launch_kernel(
+        s,
+        [=, &r0](const ck_tile::stream_config&) { r0 = fused_moesorting(t0, a0, s_sub); },
+        [=, &r1](const ck_tile::stream_config&) { r1 = fused_moegemm(t1, a1, s_sub); });
 
-  // keep unsupported case return negative
-  if (r0 < 0 || r1 < 0)
-    return -1;
+    // keep unsupported case return negative
+    if(r0 < 0 || r1 < 0)
+        return -1;
 
-  return r;
+    return r;
 }
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/instances/fused_moegemm_api.hip b/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/instances/fused_moegemm_api.hip
@@ -5,19 +5,16 @@
 #include "fused_moegemm.hpp"
 #include "fused_moegemm_api_traits.hpp"
 
-// Note: this internal API only declare, not define here, otherwise will block
-// `make -j`
+// Note: this internal API only declare, not define here, otherwise will block `make -j`
 template <typename Traits_>
 float fused_moegemm_(const ck_tile::stream_config& s, fused_moegemm_args a);
 
 template <ck_tile::index_t... Is>
 using S = ck_tile::sequence<Is...>;
 
-float fused_moegemm(
-    fused_moegemm_traits t,
-    fused_moegemm_args a,
-    const ck_tile::stream_config& s) {
-  // clang-format off
+float fused_moegemm(fused_moegemm_traits t, fused_moegemm_args a, const ck_tile::stream_config& s)
+{
+    // clang-format off
     float r = -1;
     if(t.prec_i == "bf16" && t.prec_w == "bf16" && t.prec_o == "bf16" && t.prec_st == "fp32" &&
        t.prec_sw == "fp32" && t.prec_sq == "fp32" && t.prec_kw == "fp32" && t.block_m == 32 && t.gate_only == 1 && t.activation == 0)
@@ -83,6 +80,6 @@ float fused_moegemm(
         using t_ = fmoe_<ck_tile::fp16_t, ck_tile::fp16_t, ck_tile::fp16_t, float, float, float, float, S<32, 512, 128, 128>, S<1, 4, 1>, S<16, 16, 32>, act_, go_, 0>;
         r = fused_moegemm_<t_>(s, a);
     }
-  // clang-format on
-  return r;
+    // clang-format on
+    return r;
 }
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/instances/fused_moegemm_bf16_m32.hip b/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/instances/fused_moegemm_bf16_m32.hip
@@ -3,8 +3,8 @@
 
 #include <ck_tile/core.hpp>
 #include "fused_moegemm.hpp"
-#include "fused_moegemm_api_internal.hpp"
 #include "fused_moegemm_api_traits.hpp"
+#include "fused_moegemm_api_internal.hpp"
 
 // clang-format off
 template float fused_moegemm_<
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/instances/fused_moegemm_fp16_m32.hip b/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/instances/fused_moegemm_fp16_m32.hip
@@ -3,8 +3,8 @@
 
 #include <ck_tile/core.hpp>
 #include "fused_moegemm.hpp"
-#include "fused_moegemm_api_internal.hpp"
 #include "fused_moegemm_api_traits.hpp"
+#include "fused_moegemm_api_internal.hpp"
 
 // clang-format off
 template float fused_moegemm_<
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/instances/fused_moesorting_api.hip b/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fused_moe/instances/fused_moesorting_api.hip