Fix prefill OOM error in the case of large page size (#5081)

xiezhq-hermann · web-flow · commit f8e460930ae1 · 2025-05-05T16:02:55.000-07:00
diff --git a/python/sglang/srt/managers/schedule_policy.py b/python/sglang/srt/managers/schedule_policy.py
@@ -455,7 +455,10 @@ def add_one_req(
         total_tokens = req.extend_input_len + min(
             req.sampling_params.max_new_tokens, CLIP_MAX_NEW_TOKENS_ESTIMATION
         )
-        input_tokens = req.extend_input_len
+        input_tokens = (
+            -(-req.extend_input_len // self.tree_cache.page_size)
+            * self.tree_cache.page_size
+        )
         prefix_len = len(req.prefix_indices)
 
         if total_tokens >= self.rem_total_tokens:
@@ -477,7 +480,10 @@ def add_one_req(
                     req.last_node_global, req.prefix_indices
                 )
                 req.extend_input_len = len(req.fill_ids) - len(req.prefix_indices)
-                input_tokens = req.extend_input_len
+                input_tokens = (
+                    -(-req.extend_input_len // self.tree_cache.page_size)
+                    * self.tree_cache.page_size
+                )
                 prefix_len = len(req.prefix_indices)
 
             if self.rem_chunk_tokens is None or input_tokens <= self.rem_chunk_tokens:
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
@@ -502,6 +502,7 @@ def init_memory_pool_and_cache(self):
             self.tree_cache = ChunkCache(
                 req_to_token_pool=self.req_to_token_pool,
                 token_to_kv_pool_allocator=self.token_to_kv_pool_allocator,
+                page_size=self.page_size,
             )
         else:
             if self.enable_hierarchical_cache:
diff --git a/python/sglang/srt/mem_cache/chunk_cache.py b/python/sglang/srt/mem_cache/chunk_cache.py
@@ -24,9 +24,11 @@ def __init__(
         self,
         req_to_token_pool: ReqToTokenPool,
         token_to_kv_pool_allocator: TokenToKVPoolAllocator,
+        page_size: int,
     ):
         self.req_to_token_pool = req_to_token_pool
         self.token_to_kv_pool_allocator = token_to_kv_pool_allocator
+        self.page_size = page_size
 
     def reset(self):
         pass

Original file line number	Diff line number	Diff line change
`@@ -502,6 +502,7 @@ def init_memory_pool_and_cache(self):`
`502`	`502`	`self.tree_cache = ChunkCache(`
`503`	`503`	`req_to_token_pool=self.req_to_token_pool,`
`504`	`504`	`token_to_kv_pool_allocator=self.token_to_kv_pool_allocator,`
	`505`	`+ page_size=self.page_size,`
`505`	`506`	`)`
`506`	`507`	`else:`
`507`	`508`	`if self.enable_hierarchical_cache:`