add max token num setting for trtllm_allreducefusion

BingooYang · BingooYang · commit 08d2f160664d · 2026-03-11T15:11:08.000+08:00
diff --git a/fastdeploy/model_executor/layers/normalization.py b/fastdeploy/model_executor/layers/normalization.py
@@ -244,7 +244,12 @@ def forward(
             # enable trtllm all reduce fusion
             elif self.enable_all_reduce_fusion:
                 norm_out = flashinfer_allreduce_residual_rmsnorm(
-                    fd_config=self.fd_config, input_tensor=x, residual=residual_input, weight=self.weight, eps=self.eps
+                    fd_config=self.fd_config,
+                    input_tensor=x,
+                    residual=residual_input,
+                    weight=self.weight,
+                    eps=self.eps,
+                    max_token_num=self.max_token_num,
                 )
             else:
                 norm_out = self.norm_func(