InternLM
diff --git a/‎tests/rl/test_agent_loop.py‎
Lines changed: 54 additions & 9 deletions b/‎tests/rl/test_agent_loop.py‎
Lines changed: 54 additions & 9 deletions
diff --git a/‎tests/rl/test_async_rollout.py‎
Lines changed: 0 additions & 1 deletion b/‎tests/rl/test_async_rollout.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎tests/rl/test_rl_colocate_trainer_integration.py‎
Lines changed: 2 additions & 1 deletion b/‎tests/rl/test_rl_colocate_trainer_integration.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎xtuner/v1/rl/agent_loop/__init__.py‎
Lines changed: 16 additions & 1 deletion b/‎xtuner/v1/rl/agent_loop/__init__.py‎
Lines changed: 16 additions & 1 deletion
diff --git a/‎xtuner/v1/rl/agent_loop/agent_loop.py‎
Lines changed: 158 additions & 11 deletions b/‎xtuner/v1/rl/agent_loop/agent_loop.py‎
Lines changed: 158 additions & 11 deletions
@@ -1,6 +1,6 @@
 import os
 import unittest
-import asyncio
+import copy
 import ray
 import tempfile
 import torch
@@ -79,14 +79,14 @@ async def test_gsm8k_agent_loop(self):
         judger_config = GSM8KJudgerConfig(judger_name="openai/gsm8k", judger_type="router")
         agent_loop_cfg = SingleTurnAgentLoopConfig(
             hf_checkpoint=self.model_path,
-            sample_params=SampleParams(max_tokens=self.max_response_length, temperature=0.0)
+            sample_params=SampleParams(max_tokens=self.max_response_length, temperature=0.0),
+            judger_config=judger_config,
         )
-        # 2. 创建 rollout_controller, judger
+        # 2. 创建 rollout_controller
         pg = AutoAcceleratorWorkers.build_placement_group(self.resources_cfg)
         rollout_controller = ray.remote(RolloutController).remote(rollout_config, pg)
-        gsm8k_judger = judger_config.build()
         # 3. 创建 AgentLoop
-        agent_loop = agent_loop_cfg.build(rollout_controller=rollout_controller, judger=gsm8k_judger)
+        agent_loop = agent_loop_cfg.build(rollout_controller=rollout_controller)
         # 4. 构造输入数据
         prompt_repeat_k = 4
         rollout_state = FAKE_INPUT_ITEM
@@ -104,6 +104,52 @@ async def test_gsm8k_agent_loop(self):
         self.assertGreater(len(single_rollout_state.response_ids), 0)
         self.assertEqual(single_rollout_state.reward["score"], 1)  
 
+    async def test_gsm8k_agent_loop_with_ray_actor_judger(self):
+        self.init_config()
+        rollout_config = RolloutConfig(
+            env="test_agent_loop_ray_actor",
+            model_path=self.model_path,
+            model_name=os.path.basename(self.model_path).lower(),
+            tokenizer_path=self.model_path,
+            context_length=self.context_length,
+            worker_log_dir=self.worker_log_dir,
+        )
+        judger_config = GSM8KJudgerConfig(
+            judger_name="openai/gsm8k",
+            judger_type="ray.actor",
+            num_cpus_per_actor=1,
+        )
+        agent_loop_cfg = SingleTurnAgentLoopConfig(
+            hf_checkpoint=self.model_path,
+            sample_params=SampleParams(max_tokens=self.max_response_length, temperature=0.0),
+            judger_config=judger_config,
+            type="ray.actor",
+            num_cpus=1,
+        )
+
+        self.assertEqual(agent_loop_cfg._get_agent_loop_cpu_bundle()["CPU"], 1)
+        self.assertEqual(agent_loop_cfg._get_judger_cpu_bundles(), [{"CPU": 1, "memory": 1024**3}])
+
+        pg = AutoAcceleratorWorkers.build_placement_group(self.resources_cfg)
+        rollout_controller = ray.remote(RolloutController).remote(rollout_config, pg)
+        agent_loop = agent_loop_cfg.build(rollout_controller=rollout_controller)
+
+        prompt_repeat_k = 2
+        rollout_state = copy.deepcopy(FAKE_INPUT_ITEM)
+        group_in_rollout_state = [copy.deepcopy(FAKE_INPUT_ITEM) for _ in range(prompt_repeat_k)]
+
+        group_rollout_state = await agent_loop.generate_group.remote(group_in_rollout_state)
+        single_rollout_state = await agent_loop.generate_sample.remote(rollout_state)
+
+        self.assertEqual(len(group_rollout_state), prompt_repeat_k)
+        for state in group_rollout_state:
+            self.assertEqual(state.status, Status.COMPLETED)
+            self.assertGreater(len(state.response_ids), 0)
+            self.assertEqual(state.reward["score"], 1)
+        self.assertEqual(single_rollout_state.status, Status.COMPLETED)
+        self.assertGreater(len(single_rollout_state.response_ids), 0)
+        self.assertEqual(single_rollout_state.reward["score"], 1)  
+
     async def test_gsm8k_agent_loop_manager(self):
         # 1. 初始化 config
         self.init_config()
@@ -118,7 +164,8 @@ async def test_gsm8k_agent_loop_manager(self):
         judger_config = GSM8KJudgerConfig(judger_name="openai/gsm8k", judger_type="router")
         agent_loop_cfg = SingleTurnAgentLoopConfig(
             hf_checkpoint=self.model_path,
-            sample_params=SampleParams(max_tokens=self.max_response_length, temperature=0.0)
+            sample_params=SampleParams(max_tokens=self.max_response_length, temperature=0.0),
+            judger_config=judger_config,
         )
         sampler_config = SamplerConfig(
             dataloader_cfg=DataloaderConfig(
@@ -146,16 +193,14 @@ async def test_gsm8k_agent_loop_manager(self):
                 )
             ],
         )
-        # 2. 创建 rollout_controller, judger
+        # 2. 创建 rollout_controller
         pg = AutoAcceleratorWorkers.build_placement_group(self.resources_cfg)
         rollout_controller = ray.remote(RolloutController).remote(rollout_config, pg)
-        gsm8k_judger = judger_config.build()
         # 3. 创建 AgentLoopManager
         replay_buffer_cfg = SyncReplayBufferConfig()
         replay_buffer = replay_buffer_cfg.build()
         agent_loop_manager = agent_loop_manager_cfg.build(
             rollout_controller=rollout_controller,
-            judger=gsm8k_judger,
             tokenizer=self.tokenizer,
             replay_buffer=replay_buffer,
         )
 
@@ -118,7 +118,6 @@ def _build_agent_loop_manager(
     )
     manager = manager_cfg.build(
         rollout_controller=rollout_ctl,
-        judger=None,
         tokenizer=tokenizer,
         replay_buffer=replay_buffer,
         logger=None,
 
@@ -159,6 +159,7 @@ def build_trainer_config(self, work_dir, checkpoint_interval=1, checkpoint_maxke
         agent_loop_config = SingleTurnAgentLoopConfig(
             hf_checkpoint=model_path,
             sample_params=training_sample_params,
+            judger_config=judger_config,
         )
         produce_strategy_config = SyncProduceStrategyConfig()
         agent_loop_manager_cfg = AgentLoopManagerConfig(
@@ -180,6 +181,7 @@ def build_trainer_config(self, work_dir, checkpoint_interval=1, checkpoint_maxke
         eval_agent_loop_config = SingleTurnAgentLoopConfig(
             hf_checkpoint=model_path,
             sample_params=SampleParams(max_tokens=512, top_k=1, temperature=0.0),
+            judger_config=judger_config,
         )
         eval_agent_loop_manager_cfg = AgentLoopManagerConfig(
             tasks=[
@@ -198,7 +200,6 @@ def build_trainer_config(self, work_dir, checkpoint_interval=1, checkpoint_maxke
             resources=resources,
             train_worker_cfg=train_worker_cfg,
             rollout_config=rollout_config,
-            judger_config=judger_config,
             tokenizer_path=model_path,
             replay_buffer_config=SyncReplayBufferConfig(),
             agent_loop_manager_cfg=agent_loop_manager_cfg,
 
@@ -1,4 +1,13 @@
-from .agent_loop import AgentLoop, AgentLoopConfig
+from .agent_loop import (
+    AgentLoop,
+    AgentLoopActor,
+    AgentLoopConfig,
+    JudgerConfigSpec,
+    JudgerLike,
+    JudgerSpec,
+    RayAgentLoop,
+    RayAgentLoopProxy,
+)
 from .agent_loop_manager import (
     AgentLoopManager,
     AgentLoopManagerConfig,
@@ -21,7 +30,13 @@
     "AgentLoopConfig",
     "SingleTurnAgentLoopConfig",
     "AgentLoop",
+    "AgentLoopActor",
+    "RayAgentLoop",
+    "RayAgentLoopProxy",
     "SingleTurnAgentLoop",
+    "JudgerLike",
+    "JudgerSpec",
+    "JudgerConfigSpec",
     "AgentLoopManagerConfig",
     "AgentLoopManager",
     "TaskSpecConfig",
 
@@ -1,24 +1,132 @@
 import asyncio
+import inspect
+import os
 from abc import ABC, abstractmethod
-from typing import Callable
+from typing import Awaitable, Callable, Literal, TypeAlias, cast
 
-from pydantic import BaseModel, ConfigDict
+import ray
+from pydantic import BaseModel, ConfigDict, Field
+from ray.actor import ActorClass, ActorProxy
+from ray.util.placement_group import PlacementGroup, placement_group
+from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
 
 from xtuner.v1.data_proto import RolloutState, SampleParams
-from xtuner.v1.rl.judger import NativeJudger, RouterJudger
+from xtuner.v1.rl.judger import Judger, JudgerConfig
 from xtuner.v1.rl.rollout import RolloutController
 from xtuner.v1.rl.utils import create_task
-from xtuner.v1.utils import get_logger
+from xtuner.v1.utils import get_logger, ray_method
 from xtuner.v1.utils.processing_utils import load_processor, load_tokenizer
 
 
+PG_READY_TIMEOUT = os.getenv("XTUNER_PG_READY_TIMEOUT", 30)  # default 30 seconds
+
+JudgerCallable: TypeAlias = Callable[[RolloutState], RolloutState | Awaitable[RolloutState]]
+JudgerLike: TypeAlias = Judger | JudgerCallable
+JudgerSpec: TypeAlias = JudgerLike | dict[str, JudgerLike] | None
+JudgerConfigLike: TypeAlias = JudgerConfig | JudgerCallable
+JudgerConfigSpec: TypeAlias = JudgerConfigLike | dict[str, JudgerConfigLike] | None
+
+
 class AgentLoopConfig(ABC, BaseModel):
     model_config = ConfigDict(extra="forbid", arbitrary_types_allowed=True)
     hf_checkpoint: str
     sample_params: SampleParams
+    judger_config: JudgerConfigSpec = None
+    type: Literal["local", "ray.actor"] = "local"
+    num_cpus: float = Field(default=1, gt=0, description="CPU cores required by the AgentLoop actor itself.")
+    cpu_memory: int = Field(default=1024**3, gt=0, description="CPU memory in bytes required by AgentLoop.")
+
+    def _get_agent_loop_cpu_bundle(self) -> dict[str, float | int]:
+        return {"CPU": self.num_cpus, "memory": self.cpu_memory}
+
+    def _get_judger_cpu_bundles(self) -> list[dict[str, float | int]]:
+        if self.judger_config is None:
+            return []
+        if isinstance(self.judger_config, dict):
+            judger_configs = [config for config in self.judger_config.values() if isinstance(config, JudgerConfig)]
+        elif isinstance(self.judger_config, JudgerConfig):
+            judger_configs = [self.judger_config]
+        else:
+            judger_configs = []
+
+        bundles: list[dict[str, float | int]] = []
+        for judger_config in judger_configs:
+            bundles.extend(judger_config.get_cpu_bundles())
+        return bundles
+
+    def _build_cpu_placement_group(self, strategy: str = "SPREAD") -> PlacementGroup:
+        assert ray.is_initialized(), "Ray must be initialized before building AgentLoop placement groups."
+        bundle_specs = [self._get_agent_loop_cpu_bundle(), *self._get_judger_cpu_bundles()]
+        pg = placement_group(bundles=bundle_specs, strategy=strategy)
+        ray.get(pg.ready(), timeout=PG_READY_TIMEOUT)
+        return pg
+
+    def build_judger(self, pg: PlacementGroup | None = None, start_bundle_idx: int = 0) -> JudgerSpec:
+        if self.judger_config is None:
+            return None
+
+        if isinstance(self.judger_config, dict):
+            judger_dict = {}
+            bundle_idx = start_bundle_idx
+            for key, config in self.judger_config.items():
+                if isinstance(config, JudgerConfig):
+                    judger_dict[key] = config.build(pg=pg, start_bundle_idx=bundle_idx)
+                    bundle_idx += config.get_num_placement_group_bundles()
+                elif callable(config):
+                    judger_dict[key] = config
+                else:
+                    raise ValueError(f"Invalid judger config type: {type(config)} for key {key}")
+            return judger_dict
+        elif isinstance(self.judger_config, JudgerConfig):
+            return self.judger_config.build(pg=pg, start_bundle_idx=start_bundle_idx)
+        elif callable(self.judger_config):
+            return self.judger_config
+        else:
+            raise ValueError(f"Invalid judger config type: {type(self.judger_config)}")
+
+    def build(self, rollout_controller, logger=None) -> "AgentLoop | RayAgentLoopProxy":
+        if self.type == "local":
+            return self.build_local(
+                rollout_controller=rollout_controller,
+                logger=logger,
+            )
+        if self.type == "ray.actor":
+            pg = self._build_cpu_placement_group()
+            return self._build_ray_actor(
+                rollout_controller=rollout_controller,
+                pg=pg,
+                logger=logger,
+            )
+        raise ValueError(f"Invalid agent loop type: {self.type}")
 
     @abstractmethod
-    def build(self, rollout_controller, judger=None, logger=None) -> "AgentLoop": ...
+    def build_local(
+        self,
+        rollout_controller,
+        logger=None,
+        pg: PlacementGroup | None = None,
+        start_bundle_idx: int = 0,
+    ) -> "AgentLoop": ...
+
+    def _build_ray_actor(
+        self,
+        rollout_controller: RolloutController,
+        pg: PlacementGroup,
+        logger=None,
+    ) -> "RayAgentLoopProxy":
+        scheduling_strategy = PlacementGroupSchedulingStrategy(
+            placement_group=pg,
+            placement_group_bundle_index=0,
+            placement_group_capture_child_tasks=True,
+        )
+        return RayAgentLoop.options(
+            num_cpus=self.num_cpus,
+            scheduling_strategy=scheduling_strategy,
+        ).remote(
+            self,
+            rollout_controller,
+            logger,
+        )
 
 
 class AgentLoop(ABC):
@@ -27,7 +135,7 @@ def __init__(
         rollout_ctl: RolloutController,
         sample_params: SampleParams,
         hf_checkpoint: str,
-        judger: Callable | NativeJudger | RouterJudger | None = None,
+        judger: JudgerSpec = None,
         logger=None,
     ) -> None:
         self.rollout_ctl = rollout_ctl
@@ -57,10 +165,49 @@ async def generate_group(self, rollout_state: list[RolloutState], **kwargs) -> l
     async def judge_sample(self, rollout_state: RolloutState) -> RolloutState:
         if self.judger is None:
             return rollout_state
-        if callable(self.judger):
-            rollout_state = await self.judger(rollout_state)
-        elif isinstance(self.judger, RouterJudger) or isinstance(self.judger, NativeJudger):
-            rollout_state = await self.judger.judge(rollout_state)  # type: ignore[operator]
+
+        judger = self.judger
+        if isinstance(judger, dict):
+            if len(judger) > 1:
+                raise NotImplementedError("Multiple judgers require a custom AgentLoop.judge_sample implementation.")
+            judger = next(iter(judger.values()))
+
+        if isinstance(judger, Judger):
+            rollout_state = await judger.judge(rollout_state)
+        elif isinstance(judger, ray.actor.ActorHandle):
+            rollout_state = await judger.judge.remote(rollout_state)
+        elif callable(judger):
+            judger_result = judger(rollout_state)
+            if inspect.isawaitable(judger_result):
+                rollout_state = await judger_result
+            else:
+                rollout_state = judger_result
         else:
-            raise ValueError(f"Invalid judger type: {type(self.judger)}")
+            raise ValueError(f"Invalid judger type: {type(judger)}")
+
+        if not isinstance(rollout_state, RolloutState):
+            raise TypeError(f"Judger must return RolloutState, but got {type(rollout_state)}")
         return rollout_state
+
+
+class AgentLoopActor:
+    def __init__(self, agent_loop_config: AgentLoopConfig, rollout_controller: RolloutController, logger=None):
+        current_pg = ray.util.get_current_placement_group()
+        self.agent_loop = agent_loop_config.build_local(
+            rollout_controller=rollout_controller,
+            logger=logger,
+            pg=current_pg,
+            start_bundle_idx=1,
+        )
+
+    @ray_method
+    async def generate_sample(self, rollout_state: RolloutState, **kwargs) -> RolloutState:
+        return await self.agent_loop.generate_sample(rollout_state, **kwargs)
+
+    @ray_method
+    async def generate_group(self, rollout_state: list[RolloutState], **kwargs) -> list[RolloutState]:
+        return await self.agent_loop.generate_group(rollout_state, **kwargs)
+
+
+RayAgentLoop = cast(ActorClass[AgentLoopActor], ray.remote(AgentLoopActor))
+RayAgentLoopProxy: TypeAlias = ActorProxy[AgentLoopActor]
Original file line number	Diff line number	Diff line change
`@@ -118,7 +118,6 @@ def _build_agent_loop_manager(`
`118`	`118`	`)`
`119`	`119`	`manager = manager_cfg.build(`
`120`	`120`	`rollout_controller=rollout_ctl,`
`121`		`- judger=None,`
`122`	`121`	`tokenizer=tokenizer,`
`123`	`122`	`replay_buffer=replay_buffer,`
`124`	`123`	`logger=None,`