Merge branch 'main' into dev/fix-dp-ffn-cuda-graph

颉沆 · 颉沆 · commit 54b9e5b1c9fe · 2025-05-12T15:56:31.000+08:00
diff --git a/.github/workflows/nightly-test-amd.yml b/.github/workflows/nightly-test-amd.yml
@@ -31,12 +31,12 @@ jobs:
             DEVICE_FLAG="--device /dev/dri"
           fi
           touch github_summary.md
-          docker pull ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+          docker pull lmsysorg/sglang:v0.4.6.post3-rocm630
           docker run -dt --user root --device=/dev/kfd $DEVICE_FLAG \
             -v ${{ github.workspace }}:/sglang-checkout --ipc=host --group-add video \
             --cap-add=SYS_PTRACE -e HF_TOKEN=${HF_TOKEN} --security-opt seccomp=unconfined \
             -w /sglang-checkout --name ci_sglang \
-            ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+            lmsysorg/sglang:v0.4.6.post3-rocm630
 
       - name: Install dependencies
         run: |
diff --git a/.github/workflows/pr-test-amd.yml b/.github/workflows/pr-test-amd.yml
@@ -38,12 +38,12 @@ jobs:
           else
             DEVICE_FLAG="--device /dev/dri"
           fi
-          docker pull ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+          docker pull lmsysorg/sglang:v0.4.6.post3-rocm630
           docker run -dt --user root --device=/dev/kfd $DEVICE_FLAG \
             -v ${{ github.workspace }}:/sglang-checkout --ipc=host --group-add video \
             --cap-add=SYS_PTRACE -e HF_TOKEN=${HF_TOKEN} --security-opt seccomp=unconfined \
             -w /sglang-checkout --name ci_sglang \
-            ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+            lmsysorg/sglang:v0.4.6.post3-rocm630
 
       - name: Install dependencies
         run: |
@@ -78,12 +78,12 @@ jobs:
           else
             DEVICE_FLAG="--device /dev/dri"
           fi
-          docker pull ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+          docker pull lmsysorg/sglang:v0.4.6.post3-rocm630
           docker run -dt --user root --device=/dev/kfd $DEVICE_FLAG \
             -v ${{ github.workspace }}:/sglang-checkout --ipc=host --group-add video \
             --cap-add=SYS_PTRACE -e HF_TOKEN=${HF_TOKEN} --security-opt seccomp=unconfined \
             -w /sglang-checkout --name ci_sglang \
-            ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+            lmsysorg/sglang:v0.4.6.post3-rocm630
 
       - name: Install dependencies
         run: |
@@ -116,12 +116,12 @@ jobs:
           else
             DEVICE_FLAG="--device /dev/dri"
           fi
-          docker pull ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+          docker pull lmsysorg/sglang:v0.4.6.post3-rocm630
           docker run -dt --user root --device=/dev/kfd $DEVICE_FLAG \
             -v ${{ github.workspace }}:/sglang-checkout --ipc=host --group-add video \
             --cap-add=SYS_PTRACE -e HF_TOKEN=${{ secrets.AMD_HF_TOKEN }} --security-opt seccomp=unconfined \
             -w /sglang-checkout --name ci_sglang \
-            ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+            lmsysorg/sglang:v0.4.6.post3-rocm630
 
       - name: Install dependencies
         run: |
@@ -154,12 +154,12 @@ jobs:
           else
             DEVICE_FLAG="--device /dev/dri"
           fi
-          docker pull ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+          docker pull lmsysorg/sglang:v0.4.6.post3-rocm630
           docker run -dt --user root --device=/dev/kfd $DEVICE_FLAG \
             -v ${{ github.workspace }}:/sglang-checkout --ipc=host --group-add video \
             --cap-add=SYS_PTRACE -e HF_TOKEN=${HF_TOKEN} --security-opt seccomp=unconfined \
             -w /sglang-checkout --name ci_sglang \
-            ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+            lmsysorg/sglang:v0.4.6.post3-rocm630
 
       - name: Install dependencies
         run: |
@@ -213,12 +213,12 @@ jobs:
           else
             DEVICE_FLAG="--device /dev/dri"
           fi
-          docker pull ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+          docker pull lmsysorg/sglang:v0.4.6.post3-rocm630
           docker run -dt --user root --device=/dev/kfd $DEVICE_FLAG \
             -v ${{ github.workspace }}:/sglang-checkout --ipc=host --group-add video \
             --cap-add=SYS_PTRACE -e HF_TOKEN=${HF_TOKEN} --security-opt seccomp=unconfined \
             -w /sglang-checkout --name ci_sglang \
-            ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+            lmsysorg/sglang:v0.4.6.post3-rocm630
 
       - name: Install dependencies
         run: |
@@ -261,12 +261,12 @@ jobs:
           else
             DEVICE_FLAG="--device /dev/dri"
           fi
-          docker pull ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+          docker pull lmsysorg/sglang:v0.4.6.post3-rocm630
           docker run -dt --user root --device=/dev/kfd $DEVICE_FLAG \
             -v ${{ github.workspace }}:/sglang-checkout --ipc=host --group-add video \
             --cap-add=SYS_PTRACE -e HF_TOKEN=${HF_TOKEN} --security-opt seccomp=unconfined \
             -w /sglang-checkout --name ci_sglang \
-            ghcr.io/saienduri/sglang-aiter-v0.1.1:428
+            lmsysorg/sglang:v0.4.6.post3-rocm630
 
       - name: Install dependencies
         run: |
diff --git a/python/sglang/srt/entrypoints/http_server.py b/python/sglang/srt/entrypoints/http_server.py
@@ -338,7 +338,11 @@ async def start_profile_async(obj: Optional[ProfileReqInput] = None):
         obj = ProfileReqInput()
 
     await _global_state.tokenizer_manager.start_profile(
-        obj.output_dir, obj.num_steps, obj.activities
+        output_dir=obj.output_dir,
+        num_steps=obj.num_steps,
+        activities=obj.activities,
+        with_stack=obj.with_stack,
+        record_shapes=obj.record_shapes,
     )
     return Response(
         content="Start profiling.\n",
diff --git a/python/sglang/srt/layers/logits_processor.py b/python/sglang/srt/layers/logits_processor.py
@@ -47,6 +47,18 @@
 logger = logging.getLogger(__name__)
 
 
+from sglang.srt.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from sglang.srt.managers.schedule_batch import global_server_args_dict
+from sglang.srt.model_executor.forward_batch_info import (
+    CaptureHiddenMode,
+    ForwardBatch,
+    ForwardMode,
+)
+from sglang.srt.utils import dump_to_file
+
+logger = logging.getLogger(__name__)
+
+
 @dataclasses.dataclass
 class LogitsProcessorOutput:
     ## Part 1: This part will be assigned in python/sglang/srt/layers/logits_processor.py::LogitsProcessor
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
@@ -836,6 +836,8 @@ class ProfileReqInput:
     # the caller doesn't need to run stop_profile.
     num_steps: Optional[int] = None
     activities: Optional[List[Literal["CPU", "GPU", "MEM", "CUDA_PROFILER"]]] = None
+    with_stack: Optional[bool] = None
+    record_shapes: Optional[bool] = None
 
 
 class ProfileReqType(Enum):
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
@@ -747,12 +747,16 @@ async def start_profile(
         output_dir: Optional[str] = None,
         num_steps: Optional[int] = None,
         activities: Optional[List[str]] = None,
+        with_stack: Optional[bool] = None,
+        record_shapes: Optional[bool] = None,
     ):
         req = ProfileReq(
             type=ProfileReqType.START_PROFILE,
             output_dir=output_dir,
             num_steps=num_steps,
             activities=activities,
+            with_stack=with_stack,
+            record_shapes=record_shapes,
             profile_id=str(time.time()),
         )
         result = (await self.start_profile_communicator(req))[0]
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
@@ -1205,7 +1205,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
             type=int,
             default=0,
             help="The number of shared_experts need to be replicated to fuse with normal experts in deepseek v3/r1, "
-            "set it to tp_size can get best optimized performance.",
+            "set it to tp_size can get best optimized performance. Note that for architectures with SM==90, we have enabled the shared experts fusion optimization by default for DeepSeek V3/R1, with n_share_experts_fusion automatically set to the TP size.",
         )
         parser.add_argument(
             "--disable-chunked-prefix-cache",

Original file line number	Diff line number	Diff line change
`@@ -1205,7 +1205,7 @@ def add_cli_args(parser: argparse.ArgumentParser):`
`1205`	`1205`	`type=int,`
`1206`	`1206`	`default=0,`
`1207`	`1207`	`help="The number of shared_experts need to be replicated to fuse with normal experts in deepseek v3/r1, "`
`1208`		`- "set it to tp_size can get best optimized performance.",`
	`1208`	`+ "set it to tp_size can get best optimized performance. Note that for architectures with SM==90, we have enabled the shared experts fusion optimization by default for DeepSeek V3/R1, with n_share_experts_fusion automatically set to the TP size.",`
`1209`	`1209`	`)`
`1210`	`1210`	`parser.add_argument(`
`1211`	`1211`	`"--disable-chunked-prefix-cache",`