Fix ut mla-test-1-gpu-amd (sgl-project#4813)

strgrb · Zhang Kaihong · web-flow · commit 668ecc6c5b37 · 2025-03-27T08:27:51.000-07:00
Co-authored-by: Zhang Kaihong &lt;zhangkaihong.zkh@alibaba-inc.com&gt;
diff --git a/.github/workflows/pr-test-amd.yml b/.github/workflows/pr-test-amd.yml
@@ -89,6 +89,7 @@ jobs:
           docker exec ci_sglang pip uninstall sgl-kernel -y || true
           docker exec -w /sglang-checkout/sgl-kernel ci_sglang bash -c "rm -f pyproject.toml && mv pyproject_rocm.toml pyproject.toml && python3 setup_rocm.py install"
           docker exec ci_sglang pip install -e "python[dev_hip]"
+          docker exec ci_sglang pip install py-spy || true
 
           docker exec -w / ci_sglang git clone https://github.com/merrymercy/human-eval.git
           docker exec -w /human-eval ci_sglang pip install -e .
diff --git a/python/sglang/srt/layers/rotary_embedding.py b/python/sglang/srt/layers/rotary_embedding.py
@@ -645,6 +645,18 @@ def _compute_cos_sin_cache(self) -> torch.Tensor:
         cache = torch.cat((cos, sin), dim=-1)
         return cache
 
+    def forward(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        offsets: Optional[torch.Tensor] = None,
+    ) -> Tuple[torch.Tensor, torch.Tensor]:
+        if _is_cuda_available:
+            return self.forward_cuda(positions, query, key, offsets)
+        else:
+            return self.forward_native(positions, query, key, offsets)
+
     def forward_native(
         self,
         positions: torch.Tensor,