Fix broken gradients logging and add lr logging to tensorboard

arbabu123 · facebook-github-bot · commit 9ba98381819a · 2019-11-20T15:58:29.000-08:00
Differential Revision: D18624642

fbshipit-source-id: c870ede41701edcdfc63405185b66d5a8ac418b6
diff --git a/pytext/metric_reporters/channel.py b/pytext/metric_reporters/channel.py
@@ -170,6 +170,7 @@ def report(
         context,
         meta,
         model,
+        optimizer,
         *args,
     ):
         """
@@ -213,17 +214,18 @@ def report(
                 self.add_scalars(prefix, metrics, epoch)
 
         if stage == Stage.TRAIN:
+            for idx, param_group in enumerate(optimizer.param_groups):
+                self.summary_writer.add_scalar(
+                    f"optimizer.lr.param_group.{idx}", param_group["lr"], epoch
+                )
             for key, val in model.named_parameters():
                 if val is not None and len(val) > 0 and not (val == 0).all():
                     limit = 9.9e19
+                    grad = val.grad
                     val = torch.clamp(val.float(), -limit, limit)
                     self.summary_writer.add_histogram(key, val, epoch)
-                    if (
-                        val.grad is not None
-                        and len(val.grad) > 0
-                        and not (val.grad == 0).all()
-                    ):
-                        grad = torch.clamp(val.grad.float(), -limit, limit)
+                    if grad is not None and len(grad) > 0 and not (grad == 0).all():
+                        grad = torch.clamp(grad.float(), -limit, limit)
                         self.summary_writer.add_histogram(
                             key + "_gradients", grad, epoch
                         )
diff --git a/pytext/metric_reporters/metric_reporter.py b/pytext/metric_reporters/metric_reporter.py
@@ -206,7 +206,9 @@ def get_meta(self):
         """
         return {}
 
-    def report_metric(self, model, stage, epoch, reset=True, print_to_channels=True):
+    def report_metric(
+        self, model, optimizer, stage, epoch, reset=True, print_to_channels=True
+    ):
         """
         Calculate metrics and average loss, report all statistic data to channels
 
@@ -241,6 +243,7 @@ def report_metric(self, model, stage, epoch, reset=True, print_to_channels=True)
                         self.all_context,
                         self.get_meta(),
                         model,
+                        optimizer,
                     )
 
         if reset:
diff --git a/pytext/trainers/trainer.py b/pytext/trainers/trainer.py
@@ -509,7 +509,11 @@ def run_epoch(
         if report_metric:
             with timing.time("report metrics"):
                 metrics = metric_reporter.report_metric(
-                    model, state.stage, state.epoch, print_to_channels=(state.rank == 0)
+                    model,
+                    self.optimizer,
+                    state.stage,
+                    state.epoch,
+                    print_to_channels=(state.rank == 0),
                 )
         else:
             metric_reporter._reset()