cms-sw
diff --git a/‎RecoParticleFlow/PFClusterProducer/interface/alpaka/PFMultiDepthClusterWarpIntrinsics.h
Lines changed: 51 additions & 66 deletions b/‎RecoParticleFlow/PFClusterProducer/interface/alpaka/PFMultiDepthClusterWarpIntrinsics.h
Lines changed: 51 additions & 66 deletions
diff --git a/‎RecoParticleFlow/PFClusterProducer/interface/alpaka/PFMultiDepthClusterizerHelper.h
Lines changed: 12 additions & 9 deletions b/‎RecoParticleFlow/PFClusterProducer/interface/alpaka/PFMultiDepthClusterizerHelper.h
Lines changed: 12 additions & 9 deletions
@@ -1,161 +1,146 @@
 #ifndef PFClusterProducer_plugins_alpaka_PFMultiDepthClusterWarpIntrinsics_h
 #define PFClusterProducer_plugins_alpaka_PFMultiDepthClusterWarpIntrinsics_h
 
-
 #include "HeterogeneousCore/AlpakaInterface/interface/config.h"
 
 namespace ALPAKA_ACCELERATOR_NAMESPACE {
 
   namespace cms::alpakatools{
     namespace warp {
 
-      template <typename TAcc>
-      ALPAKA_FN_HOST_ACC inline void syncWarpThreads_mask(TAcc const& acc, unsigned mask) {
+      template <typename TAcc, typename = std::enable_if_t<alpaka::isAccelerator<TAcc>>>
+      ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE void syncWarpThreads_mask(TAcc const& acc, unsigned mask) {
+#if defined(__CUDA_ARCH__) or defined(__HIP_DEVICE_COMPILE__)
 #ifdef ALPAKA_ACC_GPU_CUDA_ENABLED
         // Alpaka CUDA backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          __syncwarp(mask); // Synchronize all threads within a warp
-        }
+        __syncwarp(mask); // Synchronize all threads within a subset of lanes in the warp
 #endif
 #ifdef ALPAKA_ACC_GPU_HIP_ENABLED
         // Alpaka HIP backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          __builtin_amdgcn_wave_barrier();
-        }
+        __builtin_amdgcn_wave_barrier();
 #endif
+#endif	
         // No-op for CPU accelerators 
       } 
 
-      template <typename TAcc>
-      ALPAKA_FN_HOST_ACC inline unsigned ballot_mask(TAcc const& acc, unsigned mask, int pred ) {
+      template <typename TAcc, typename = std::enable_if_t<alpaka::isAccelerator<TAcc>>>
+      ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE unsigned ballot_mask(TAcc const& acc, unsigned mask, int pred ) {
         unsigned res{0};
+#if defined(__CUDA_ARCH__) or defined(__HIP_DEVICE_COMPILE__)	
 #ifdef ALPAKA_ACC_GPU_CUDA_ENABLED
         // Alpaka CUDA backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          res = __ballot_sync(mask, pred); // Synchronize all threads within a warp
-        }
+        res = __ballot_sync(mask, pred); // Synchronize all threads within a warp
 #endif
 #ifdef ALPAKA_ACC_GPU_HIP_ENABLED
         // Alpaka HIP backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          // HIP equivalent for warp ballot
-        }
+        // HIP equivalent for warp ballot
 #endif
+#endif	
         return res;
       }
 
-      template <typename TAcc, typename T>
-      ALPAKA_FN_HOST_ACC inline T shfl_mask(TAcc const& acc, unsigned mask, T var, int srcLane, int width ) {
+      template <typename TAcc, typename T, typename = std::enable_if_t<alpaka::isAccelerator<TAcc>>>
+      ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE T shfl_mask(TAcc const& acc, unsigned mask, T var, int srcLane, int width ) {
         T res{};
+#if defined(__CUDA_ARCH__) or defined(__HIP_DEVICE_COMPILE__)	
 #ifdef ALPAKA_ACC_GPU_CUDA_ENABLED
         // Alpaka CUDA backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          res = __shfl_sync(mask, var, srcLane, width); // Synchronize all threads within a warp
-        }
+        res = __shfl_sync(mask, var, srcLane, width); // Synchronize all threads within a warp
 #endif
 #ifdef ALPAKA_ACC_GPU_HIP_ENABLED
         // Alpaka HIP backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          // HIP equivalent for warp __shfl_down_sync
-        }
+        // HIP equivalent for warp __shfl_down_sync
 #endif
+#endif	
         return res;
       } 
 
-      template <typename TAcc, typename T>
-      ALPAKA_FN_HOST_ACC inline T shfl_down_mask(TAcc const& acc, unsigned mask, T var, int srcLane, int width ) {
+      template <typename TAcc, typename T, typename = std::enable_if_t<alpaka::isAccelerator<TAcc>>>
+      ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE T shfl_down_mask(TAcc const& acc, unsigned mask, T var, int srcLane, int width ) {
         T res{};
+#if defined(__CUDA_ARCH__) or defined(__HIP_DEVICE_COMPILE__)	
 #ifdef ALPAKA_ACC_GPU_CUDA_ENABLED
         // Alpaka CUDA backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          res = __shfl_down_sync(mask, var, srcLane, width); // Synchronize all threads within a warp
-        }
+        res = __shfl_down_sync(mask, var, srcLane, width); // Synchronize all threads within a warp
 #endif
 #ifdef ALPAKA_ACC_GPU_HIP_ENABLED
         // Alpaka HIP backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          // HIP equivalent for warp __shfl_down_sync
-        }
+        // HIP equivalent for warp __shfl_down_sync
 #endif
+#endif	
         return res;
       } 
 
-      template <typename TAcc, typename T>
-      ALPAKA_FN_HOST_ACC inline T shfl_up_mask(TAcc const& acc, unsigned mask, T var, int srcLane, int width ) {
+      template <typename TAcc, typename T, typename = std::enable_if_t<alpaka::isAccelerator<TAcc>>>
+      ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE T shfl_up_mask(TAcc const& acc, unsigned mask, T var, int srcLane, int width ) {
         T res{};
+#if defined(__CUDA_ARCH__) or defined(__HIP_DEVICE_COMPILE__)	
 #ifdef ALPAKA_ACC_GPU_CUDA_ENABLED
         // Alpaka CUDA backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          res = __shfl_up_sync(mask, var, srcLane, width); // Synchronize all threads within a warp
-        }
+        res = __shfl_up_sync(mask, var, srcLane, width); // Synchronize all threads within a warp
 #endif
 #ifdef ALPAKA_ACC_GPU_HIP_ENABLED
         // Alpaka HIP backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          // HIP equivalent for warp __shfl_up_sync
-        }
+        // HIP equivalent for warp __shfl_up_sync
 #endif
+#endif	
         return res;
       } 
 
-      template <typename TAcc, typename T>
-      ALPAKA_FN_HOST_ACC inline T match_any_mask(TAcc const& acc, unsigned mask, T var) {
+      template <typename TAcc, typename T, typename = std::enable_if_t<alpaka::isAccelerator<TAcc>>>
+      ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE T match_any_mask(TAcc const& acc, unsigned mask, T var) {
         T res{};
+#if defined(__CUDA_ARCH__) or defined(__HIP_DEVICE_COMPILE__)	
 #ifdef ALPAKA_ACC_GPU_CUDA_ENABLED
         // Alpaka CUDA backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          res = __match_any_sync(mask, var); // Synchronize all threads within a warp
-        }
+#if __CUDA_ARCH__ >= 700
+        res = __match_any_sync(mask, var); // Synchronize all threads within a warp
+#else
+	// old version
+#endif
 #endif
 #ifdef ALPAKA_ACC_GPU_HIP_ENABLED
         // Alpaka HIP backend
-        if constexpr (alpaka::isAccelerator<TAcc>::value) {
-          // HIP equivalent for warp __match_any_sync
-        }
+        // HIP equivalent for warp __match_any_sync
 #endif
+#endif	
         return res;
       } 
 
     } // end of warp exp
 
     // reverse the bit order of a (32-bit) unsigned integer.
-    template <typename TAcc>
-    ALPAKA_FN_HOST_ACC inline unsigned brev(TAcc const& acc, unsigned mask) {
+    template <typename TAcc, typename = std::enable_if_t<alpaka::isAccelerator<TAcc>>>
+    ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE unsigned brev(TAcc const& acc, unsigned mask) {
       unsigned res{0};
+#if defined(__CUDA_ARCH__) or defined(__HIP_DEVICE_COMPILE__)      
 #ifdef ALPAKA_ACC_GPU_CUDA_ENABLED
       // Alpaka CUDA backend
-      if constexpr (alpaka::isAccelerator<TAcc>::value) {
-        res = __brev(mask); 
-      }
+      res = __brev(mask); 
 #endif
 #ifdef ALPAKA_ACC_GPU_HIP_ENABLED
       // Alpaka HIP backend
-      if constexpr (alpaka::isAccelerator<TAcc>::value) {
-      
-      }
 #endif
+#endif      
       return res;
     }
 
     // count the number of leading zeros in a 32-bit unsigned integer
-    template <typename TAcc>
-    ALPAKA_FN_HOST_ACC inline unsigned clz(TAcc const& acc, unsigned mask) {
+    template <typename TAcc, typename = std::enable_if_t<alpaka::isAccelerator<TAcc>>>
+    ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE unsigned clz(TAcc const& acc, unsigned mask) {
       unsigned res{0};
+#if defined(__CUDA_ARCH__) or defined(__HIP_DEVICE_COMPILE__)      
 #ifdef ALPAKA_ACC_GPU_CUDA_ENABLED
       // Alpaka CUDA backend
-      if constexpr (alpaka::isAccelerator<TAcc>::value) {
-        res = __clz(mask); 
-      }
+      res = __clz(mask); 
 #endif
 #ifdef ALPAKA_ACC_GPU_HIP_ENABLED
       // Alpaka HIP backend
-      if constexpr (alpaka::isAccelerator<TAcc>::value) {
- 
-      }
 #endif
+#endif      
       return res;
     }     
 
-  }// end of alpaka
+  }// end of alpakatools
 } // end of alpaka namespace
 #endif
@@ -10,6 +10,9 @@
  * warp-exclusive sum computations.
  */
 
+#include "HeterogeneousCore/AlpakaInterface/interface/config.h"
+
+#include "RecoParticleFlow/PFClusterProducer/interface/alpaka/PFMultiDepthClusterWarpIntrinsics.h"
 
 namespace ALPAKA_ACCELERATOR_NAMESPACE {
 
@@ -26,9 +29,9 @@ namespace ALPAKA_ACCELERATOR_NAMESPACE {
  * @return Index of least significant 1 bit (0-based). (or -1 if x == 0).
  */
   template< typename TAcc >
-  ALPAKA_FN_HOST_ACC inline int get_ls1b_idx(TAcc const& acc, const unsigned int x) {
-    const int pos = static_cast<int>(alpaka::ffs(acc, x));
-    return pos - 1;
+  ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE unsigned int get_ls1b_idx(TAcc const& acc, const int x) {
+    const int pos = alpaka::ffs(acc, x);
+    return static_cast<unsigned int>(pos - 1);
   }
 
 /**
@@ -43,7 +46,7 @@ namespace ALPAKA_ACCELERATOR_NAMESPACE {
  */
 
   template< typename TAcc >
-  ALPAKA_FN_HOST_ACC inline unsigned int erase_ls1b(TAcc const& acc, const unsigned int x) {
+  ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE unsigned int erase_ls1b(TAcc const& acc, const unsigned int x) {
     return (x & (x-1));
   }
 
@@ -59,7 +62,7 @@ namespace ALPAKA_ACCELERATOR_NAMESPACE {
  */
 
   template< typename TAcc >
-  ALPAKA_FN_HOST_ACC inline int get_ms1b_idx(TAcc const& acc, const unsigned int x) {
+  ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE unsigned int get_ms1b_idx(TAcc const& acc, const unsigned int x) {
     constexpr unsigned int size = sizeof(unsigned int)-1;
     const int pos = size - cms::alpakatools::clz(acc, x);
     return pos - 1;
@@ -80,15 +83,15 @@ namespace ALPAKA_ACCELERATOR_NAMESPACE {
  */
 
   template <typename TAcc, bool accum = true, typename = std::enable_if_t<alpaka::isAccelerator<TAcc>>>
-  ALPAKA_FN_ACC inline unsigned int warp_exclusive_sum(TAcc const& acc, const unsigned int mask, unsigned int val, const unsigned int lane_idx) {
+  ALPAKA_FN_ACC ALPAKA_FN_INLINE unsigned int warp_exclusive_sum(TAcc const& acc, const unsigned int mask, unsigned int val, const unsigned int lane_idx) {
     if ( mask == 0x0 ) return 0;
 
     const unsigned int w_extent = alpaka::warp::getSize(acc);
     //
     unsigned int local_offset = 0;
     //
     CMS_UNROLL_LOOP
-    for (int j = 1; j < w_extent; j *= 2) {
+    for (unsigned int j = 1; j < w_extent; j *= 2) {
       const auto n = warp::shfl_up_mask(acc, mask, val, j, w_extent);
       if (lane_idx >= j) local_offset += n;
     }
@@ -99,8 +102,8 @@ namespace ALPAKA_ACCELERATOR_NAMESPACE {
  	return local_offset;
     } else {
     	// Compute the lowest and the highest valid lane index in the mask:
-    	const auto low_lane_idx  = get_ls1b_idx(acc, mask);
-    	const auto high_lane_idx = get_ms1b_idx(acc, mask);
+    	const unsigned low_lane_idx  = get_ls1b_idx(acc, mask);
+    	const unsigned high_lane_idx = get_ms1b_idx(acc, mask);
 
     	// send last lane value (total tile offset) to lane idx = low_lane_idx:
     	const unsigned active_mask = 1 | (1 << high_lane_idx);