modify default max token num in trtllm_allreduce_fusion

BingooYang · BingooYang · commit 09cb26db527f · 2026-03-11T20:43:34.000+08:00
diff --git a/fastdeploy/model_executor/layers/flashinfer_comm_fusion.py b/fastdeploy/model_executor/layers/flashinfer_comm_fusion.py
@@ -115,7 +115,7 @@ def flashinfer_allreduce_residual_rmsnorm(
     residual: paddle.Tensor,
     weight: paddle.Tensor,
     eps: float = 1e-6,
-    max_token_num: int = 4096,
+    max_token_num: int = 2048,
     use_oneshot: Optional[bool] = None,
     trigger_completion_at_end: bool = False,
     fp32_acc: bool = False,