Add resource monitoring ability machine/gpu

2025-06-26 18:16:07 +00:00 · 2019-06-24 01:02:41 +03:00 · 2019-06-24 01:02:41 +03:00 · 85e783cc6b
commit 85e783cc6b
parent 85f702d594
3 changed files with 151 additions and 2 deletions
--- a/trains/backend_interface/task/task.py
+++ b/trains/backend_interface/task/task.py
@ -191,7 +191,7 @@ class Task(IdObjectBase, AccessMixin, SetupUploadMixin):
                            latest_version[0]),
                    )
-        check_package_update_thread = Thread(target=check_package_update)
+        check_package_update_thread = Thread(target=check_package_update, daemon=True)
        check_package_update_thread.start()
        result = ScriptInfo.get(log=self.log)
        for msg in result.warning_messages:
--- a/trains/task.py
+++ b/trains/task.py
@ -33,6 +33,7 @@ from .utilities.args import argparser_parseargs_called, get_argparser_last_args,
 from .binding.frameworks.pytorch_bind import PatchPyTorchModelIO
 from .binding.frameworks.tensorflow_bind import PatchSummaryToEventTransformer, PatchTensorFlowEager, \
    PatchKerasModelIO, PatchTensorflowModelIO
 from .utilities.resource_monitor import ResourceMonitor
 from .binding.matplotlib_bind import PatchedMatplotlib
 from .utilities.seed import make_deterministic
@ -102,6 +103,7 @@ class Task(_Task):
        self._dev_mode_periodic_flag = False
        self._connected_parameter_type = None
        self._detect_repo_async_thread = None
        self._resource_monitor = None
        # register atexit, so that we mark the task as stopped
        self._at_exit_called = False
        self.__register_at_exit(self._at_exit)
@ -124,6 +126,7 @@ class Task(_Task):
        output_uri=None,
        auto_connect_arg_parser=True,
        auto_connect_frameworks=True,
        auto_resource_monitoring=True,
    ):
        """
        Return the Task object for the main execution task (task context).
@ -141,6 +144,8 @@ class Task(_Task):
            if set to false, you can manually connect the ArgParser with task.connect(parser)
        :param auto_connect_frameworks: If true automatically patch MatplotLib, Keras callbacks, and TensorBoard/X to
            serialize plots, graphs and model location to trains backend (in addition to original output destination)
        :param auto_resource_monitoring: If true, machine vitals will be sent along side the task scalars,
            Resources graphs will appear under the title ':resource monitor:' in the scalars tab.
        :return: Task() object
        """
@ -220,6 +225,9 @@ class Task(_Task):
                PatchKerasModelIO.update_current_task(task)
                PatchTensorflowModelIO.update_current_task(task)
                PatchPyTorchModelIO.update_current_task(task)
            if auto_resource_monitoring:
                task._resource_monitor = ResourceMonitor(task)
                task._resource_monitor.start()
            # Check if parse args already called. If so, sync task parameters with parser
            if argparser_parseargs_called():
                parser, parsed_args = get_argparser_last_args()
@ -409,7 +417,7 @@ class Task(_Task):
        # make sure everything is in sync
        task.reload()
        # make sure we see something in the UI
-        threading.Thread(target=LoggerRoot.flush).start()
+        threading.Thread(target=LoggerRoot.flush, daemon=True).start()
        return task
    @staticmethod
@ -944,6 +952,9 @@ class Task(_Task):
                    self.log.info('Finished uploading')
            else:
                self._logger._flush_stdout_handler()
            # stop resource monitoring
            if self._resource_monitor:
                self._resource_monitor.stop()
            self._logger.set_flush_period(None)
            # this is so in theory we can close a main task and start a new one
            Task.__main_task = None
--- a/trains/utilities/resource_monitor.py
+++ b/trains/utilities/resource_monitor.py
@ -0,0 +1,138 @@
 from time import time
 from threading import Thread, Event
 import psutil
 from pathlib2 import Path
 from typing import Text
 try:
    import gpustat
 except ImportError:
    gpustat = None
 class ResourceMonitor(object):
    _title_machine = ':monitor:machine'
    _title_gpu = ':monitor:gpu'
    def __init__(self, task, measure_frequency_times_per_sec=2., report_frequency_sec=30.):
        self._task = task
        self._measure_frequency = measure_frequency_times_per_sec
        self._report_frequency = report_frequency_sec
        self._num_readouts = 0
        self._readouts = {}
        self._previous_readouts = {}
        self._previous_readouts_ts = time()
        self._thread = None
        self._exit_event = Event()
        if not gpustat:
            self._task.get_logger().console('TRAINS Monitor: GPU monitoring is not available, '
                                            'run \"pip install gpustat\"')
    def start(self):
        self._exit_event.clear()
        self._thread = Thread(target=self._daemon, daemon=True)
        self._thread.start()
    def stop(self):
        self._exit_event.set()
        # self._thread.join()
    def _daemon(self):
        logger = self._task.get_logger()
        seconds_since_started = 0
        while True:
            last_report = time()
            while (time() - last_report) < self._report_frequency:
                # wait for self._measure_frequency seconds, if event set quit
                if self._exit_event.wait(1.0 / self._measure_frequency):
                    return
                # noinspection PyBroadException
                try:
                    self._update_readouts()
                except Exception:
                    pass
            average_readouts = self._get_average_readouts()
            seconds_since_started += int(round(time() - last_report))
            for k, v in average_readouts.items():
                # noinspection PyBroadException
                try:
                    title = self._title_gpu if k.startswith('gpu_') else self._title_machine
                    # 3 points after the dot
                    value = round(v*1000) / 1000.
                    logger.report_scalar(title=title, series=k, iteration=seconds_since_started, value=value)
                except Exception:
                    pass
            self._clear_readouts()
    def _update_readouts(self):
        readouts = self._machine_stats()
        elapsed = time() - self._previous_readouts_ts
        self._previous_readouts_ts = time()
        for k, v in readouts.items():
            # cumulative measurements
            if k.endswith('_mbs'):
                v = (v - self._previous_readouts.get(k, v)) / elapsed
            self._readouts[k] = self._readouts.get(k, 0.0) + v
        self._num_readouts += 1
        self._previous_readouts = readouts
    def _get_num_readouts(self):
        return self._num_readouts
    def _get_average_readouts(self):
        average_readouts = dict((k, v/float(self._num_readouts)) for k, v in self._readouts.items())
        return average_readouts
    def _clear_readouts(self):
        self._readouts = {}
        self._num_readouts = 0
    @staticmethod
    def _machine_stats():
        """
        :return: machine stats dictionary, all values expressed in megabytes
        """
        cpu_usage = [float(v) for v in psutil.cpu_percent(percpu=True)]
        stats = {
            "cpu_usage": sum(cpu_usage) / float(len(cpu_usage)),
        }
        bytes_per_megabyte = 1024 ** 2
        def bytes_to_megabytes(x):
            return x / bytes_per_megabyte
        virtual_memory = psutil.virtual_memory()
        stats["memory_used_gb"] = bytes_to_megabytes(virtual_memory.used) / 1024
        stats["memory_free_gb"] = bytes_to_megabytes(virtual_memory.available) / 1024
        disk_use_percentage = psutil.disk_usage(Text(Path.home())).percent
        stats["disk_free_percent"] = 100.0-disk_use_percentage
        sensor_stat = (
            psutil.sensors_temperatures() if hasattr(psutil, "sensors_temperatures") else {}
        )
        if "coretemp" in sensor_stat and len(sensor_stat["coretemp"]):
            stats["cpu_temperature"] = max([float(t.current) for t in sensor_stat["coretemp"]])
        # update cached measurements
        net_stats = psutil.net_io_counters()
        stats["network_tx_mbs"] = bytes_to_megabytes(net_stats.bytes_sent)
        stats["network_rx_mbs"] = bytes_to_megabytes(net_stats.bytes_recv)
        io_stats = psutil.disk_io_counters()
        stats["io_read_mbs"] = bytes_to_megabytes(io_stats.read_bytes)
        stats["io_write_mbs"] = bytes_to_megabytes(io_stats.write_bytes)
        # check if we can access the gpu statistics
        if gpustat:
            gpu_stat = gpustat.new_query()
            for i, g in enumerate(gpu_stat.gpus):
                stats["gpu_%d_temperature" % i] = float(g["temperature.gpu"])
                stats["gpu_%d_utilization" % i] = float(g["utilization.gpu"])
                stats["gpu_%d_mem_usage" % i] = 100. * float(g["memory.used"]) / float(g["memory.total"])
                # already in MBs
                stats["gpu_%d_mem_free_gb" % i] = float(g["memory.total"] - g["memory.used"]) / 1024
                stats["gpu_%d_mem_used_gb" % i] = float(g["memory.used"]) / 1024
        return stats