Add CLEARML_MULTI_NODE_SINGLE_TASK (values -1, 0, 1, 2) for easier multi-node singe Task workloads

2025-06-26 18:16:07 +00:00 · 2024-07-04 15:27:10 +03:00 · 2024-07-04 15:27:10 +03:00 · 9594e5dddd
commit 9594e5dddd
parent 7dc601598b
2 changed files with 41 additions and 2 deletions
--- a/clearml/config/defs.py
+++ b/clearml/config/defs.py
@ -28,6 +28,9 @@ SUPPRESS_UPDATE_MESSAGE_ENV_VAR = EnvEntry("CLEARML_SUPPRESS_UPDATE_MESSAGE", "T

 MAX_SERIES_PER_METRIC = EnvEntry("CLEARML_MAX_SERIES_PER_METRIC", default=100, type=int)

+# values are 0/None (task per node), 1/2 (multi-node reporting, colored console), -1 (only report rank 0 node)
+ENV_MULTI_NODE_SINGLE_TASK = EnvEntry("CLEARML_MULTI_NODE_SINGLE_TASK", type=int, default=None)
+
 JUPYTER_PASSWORD = EnvEntry("CLEARML_JUPYTER_PASSWORD")

 # Repository detection
--- a/clearml/utilities/resource_monitor.py
+++ b/clearml/utilities/resource_monitor.py
@ -3,6 +3,7 @@ import os
 import platform
 import sys
 import warnings
+from math import ceil, log10
 from time import time

 import psutil
@ -12,7 +13,7 @@ from typing import Text
 from .process.mp import BackgroundMonitor
 from ..backend_api import Session
 from ..binding.frameworks.tensorflow_bind import IsTensorboardInit
-from ..config import config
+from ..config import config, ENV_MULTI_NODE_SINGLE_TASK

 try:
    from .gpu import gpustat
@ -103,6 +104,31 @@ class ResourceMonitor(BackgroundMonitor):
        if self._is_thread_mode_and_not_main_process():
            return

+        multi_node_single_task_reporting = False
+        report_node_as_series = False
+        rank = 0
+        world_size_digits = 0
+        # check if we are in multi-node reporting to the same Task
+        if ENV_MULTI_NODE_SINGLE_TASK.get():
+            # if resource monitoring is disabled, do nothing
+            if ENV_MULTI_NODE_SINGLE_TASK.get() < 0:
+                return
+            # we are reporting machines stats on a different machine over the same Task
+            multi_node_single_task_reporting = True
+            if ENV_MULTI_NODE_SINGLE_TASK.get() == 1:
+                # report per machine graph (unique title)
+                report_node_as_series = False
+            elif ENV_MULTI_NODE_SINGLE_TASK.get() == 2:
+                # report per machine series (i.e. merge title+series resource and have "node X" as different series)
+                report_node_as_series = True
+
+            # noinspection PyBroadException
+            try:
+                rank = int(os.environ.get("RANK") or 0)
+                world_size_digits = ceil(log10(int(os.environ.get("WORLD_SIZE") or 0)))
+            except Exception:
+                pass
+
        seconds_since_started = 0
        reported = 0
        last_iteration = 0
@ -196,9 +222,19 @@ class ResourceMonitor(BackgroundMonitor):
                    # noinspection PyBroadException
                    try:
                        title = self._title_gpu if k.startswith('gpu_') else self._title_machine
+                        series = k
                        # 3 points after the dot
+                        if multi_node_single_task_reporting:
+                            if report_node_as_series:
+                                title = "{}:{}".format(":".join(title.split(":")[:-1]), series)
+                                series = "rank {:0{world_size_digits}d}".format(
+                                    rank, world_size_digits=world_size_digits)
+                            else:
+                                title = "{}:rank{:0{world_size_digits}d}".format(
+                                    title, rank, world_size_digits=world_size_digits)
+
                        value = round(v * 1000) / 1000.
-                        self._task.get_logger().report_scalar(title=title, series=k, iteration=iteration, value=value)
+                        self._task.get_logger().report_scalar(title=title, series=series, iteration=iteration, value=value)
                    except Exception:
                        pass
                # clear readouts if this is update is not averaged